KI trifft Regelwerk: Funktioniert das in der Praxis?
Ob Kanalbetrieb, Dokumentation oder der schnelle Blick ins Regelwerk: In der Wasserwirtschaft zĂ€hlt verlĂ€ssliches Fachwissen â und es muss oft sofort verfĂŒgbar sein. KI-Chatbots versprechen schnelle Antworten, doch wie belastbar sind sie im Alltag? Dieser Beitrag zeigt anhand eines branchenspezifischen Benchmarkings, wie sich Chatbots fĂŒr die Wasserwirtschaft bewerten lassen und warum die Datenbasis entscheidend ist.

Seit dem Aufkommen groĂer Sprachmodelle und Anwendungen wie ChatGPT wĂ€chst das Interesse, diese Technologien auch im beruflichen Alltag nutzbar zu machen, sei es im BĂŒro oder unterwegs. Damit rĂŒckt zunehmend die Frage in den Mittelpunkt, wie gut dokumentiertes Fach- und Organisationswissen in KI-basierten Chatbots integriert werden kann.
Der Markt wird derzeit von Anbietern sogenannter Unternehmens-Chatbots geprĂ€gt, die neben hohen Sicherheitsstandards vor allem eine qualitativ hochwertige Verarbeitung interner Daten versprechen. Gleichzeitig fĂŒhrt die enorme Dynamik und die Vielzahl an verfĂŒgbaren Lösungen dazu, dass viele FĂŒhrungskrĂ€fte und EntscheidungstrĂ€ger angesichts der Auswahlmöglichkeiten und GĂŒtekriterien fĂŒr geeignete Produkte ĂŒberfordert sind. UnabhĂ€ngige Vergleiche zwischen Lösungen fehlen weitgehend, sodass Unternehmen hĂ€ufig auf die Versprechen der Anbieter angewiesen sind. Damit entsteht ein erhebliches Risiko fĂŒr Fehlinvestitionen.
Fallstudie: BewertungsmaĂstab fĂŒr Unternehmens-Chatbots
Finetuning oder RAG: Zwei Wege zum Fachwissen
Die Wissensbereitstellung mithilfe von KI-Chatbots basiert im Wesentlichen auf zwei technischen AnsĂ€tzen: dem Finetuning von Sprachmodellen und der Retrieval-Augmented Generation (RAG). Beim Finetuning wird ein bestehendes Sprachmodell mit domĂ€nenspezifischen Daten weitertrainiert, sodass es das Fachwissen direkt im Modell âverinnerlichtâ. Auf diese Weise können besonders kontextbezogene und natĂŒrlich wirkende Antworten entstehen. Allerdings ist dieser Ansatz mit hohem Aufwand verbunden, da er groĂe Rechenressourcen und ein sorgfĂ€ltiges Training erfordert. Zudem bietet Finetuning nur geringe FlexibilitĂ€t bei der Aktualisierung oder gezielten Löschung von Wissen, da hierfĂŒr ein erneutes Training notwendig ist. Auch die Transparenz bleibt eingeschrĂ€nkt, da verwendete Quellen nicht nachvollziehbar ausgewiesen werden können.
RAG verfolgt dagegen einen anderen Ansatz, indem Wissensspeicherung und Sprachmodell voneinander getrennt werden. Das relevante Wissen wird in einer sogenannten Vektordatenbank abgelegt und bei jeder Nutzeranfrage gezielt abgerufen. Dadurch ist diese Methode deutlich kosteneffizienter, flexibler in der Datenpflege und transparenter, da die verwendeten Quellen angezeigt werden können. FĂŒr dynamische und heterogene WissensbestĂ€nde, wie sie in Unternehmen und Organisationen typisch sind, gilt RAG daher als praktikablere Lösung. Entsprechend setzen die meisten Anbieter von Unternehmens-Chatbots heute auf RAG-Architekturen, entweder durch die Nutzung bestehender Systeme oder durch eigene Entwicklungen. Dabei ist zu betonen, dass RAG kein standardisiertes Produkt, sondern eine Methode ist, die in sehr unterschiedlichen Varianten umgesetzt werden kann. Die QualitĂ€t der Antworten hĂ€ngt stark von der konkreten Systemarchitektur, den gewĂ€hlten Modellparametern und insbesondere von der QualitĂ€t der Eingangsdaten ab.
Document Parsing: Wenn Wissen nicht als FlieĂtext vorliegt
Eine zentrale Herausforderung besteht darin, dass RAG-Systeme vor allem mit textbasierten Inhalten zuverlĂ€ssig arbeiten. Ein groĂer Teil des dokumentierten Wissens liegt jedoch nicht als reiner FlieĂtext vor, sondern in Tabellen, Grafiken, Prozessdarstellungen, Karten oder Bildern. Diese komplexen Formate sind fĂŒr KI-Systeme deutlich schwerer zu verarbeiten. Damit solches Wissen ĂŒber Unternehmens-Chatbots zugĂ€nglich wird, mĂŒssen Inhalte aus diesen komplexen Strukturen zunĂ€chst extrahiert und in maschinenlesbare Textformate ĂŒberfĂŒhrt werden. Dieser Prozess wird unter dem Begriff Document Parsing zusammengefasst. Zwar bieten viele Anbieter inzwischen entsprechende Funktionen an, doch bleibt meist unklar, wie genau die Daten verarbeitet werden und welche QualitĂ€t die Ergebnisse tatsĂ€chlich besitzen.
Benchmarking mit 50 Fragen: Methode und Ergebnisse
Vor diesem Hintergrund wurde im Rahmen einer Fallstudie ein speziell auf die Wasserwirtschaft ausgerichtetes Benchmarking entwickelt. Die Grundlage des Benchmarkings bilden 50 domĂ€nenspezifische Fragen, die aus zwölf frei verfĂŒgbaren Quellen wie Gesetzestexten und technischen Regelwerken abgeleitet wurden. Die Fragen wurden so gestaltet, dass sie unterschiedliche KomplexitĂ€tsgrade abdecken und sich auf Inhalte beziehen, die aus verschiedenen Quellformaten stammen, darunter FlieĂtexte, Tabellen, Grafiken, Prozessdarstellungen und Karten. Die Bewertung erfolgte anhand der Kriterien Richtigkeit und VollstĂ€ndigkeit und ermöglicht eine differenzierte Analyse nach Quellformaten.
Zur Beurteilung der generierten Antworten wurde ein bewusst einfaches Punktesystem entwickelt: Zwei Punkte wurden vergeben, wenn eine Antwort richtig und vollstÀndig war, ein Punkt bei richtiger, aber unvollstÀndiger Antwort und null Punkte bei fachlich falschen Inhalten. Als Referenz dienten Antworten, die von erfahrenen Ingenieuren aus der Wasserwirtschaft auf Basis der Originalquellen erstellt wurden.
In mehreren DurchlĂ€ufen wurden ĂŒber alle Fragen hinweg durchschnittliche GĂŒtewerte von 98 % fĂŒr textbasierte Inhalte, 94 % fĂŒr grafische Darstellungen (z. B. Bilder, Diagramme, Karten) und 90 % fĂŒr tabellarische Daten erreicht. Diese Werte können als Orientierungs- und ReferenzgröĂen fĂŒr die Leistungsbewertung eigener Unternehmens-Chatbots herangezogen werden. Die Ergebnisse der Studie zeigen zudem, dass die QualitĂ€t der Datenquellen, neben dem jeweils eingesetzten RAG-System und dessen Parametereinstellungen, einen wesentlichen Einfluss auf die AntwortgĂŒte hat. Daraus folgt, dass die Wissensbereitstellung in KI-Chatbots im ersten Schritt vorrangig bei der QualitĂ€t und Struktur der Datenbasis ansetzen muss, um eine hohe AntwortgĂŒte sicherzustellen.
Modelle im Vergleich: Tabellen, Karten und Diagramme extrahieren
Vor diesem Hintergrund wurde untersucht, welche Modelle und Methoden sich fĂŒr die Extraktion von Inhalten aus komplexen Strukturen wie Bildern, Tabellen, Diagrammen und Karten sowie fĂŒr die ĂberfĂŒhrung dieser Inhalte in maschinenlesbare Formate eignen. Als Grundlage dienten zwölf komplexe Strukturen (vier Tabellen, vier Diagramme, zwei Karten und zwei Prozessabbildungen), deren Inhalte in maschinenlesbare Textformate ĂŒberfĂŒhrt werden sollten. Hierzu wurden verschiedene Document-Parsing-Methoden sowie insgesamt 13 kommerzielle und Open-Source-Sprachmodelle etablierter Anbieter wie OpenAI, Google AI, Mistral AI, Meta und Alibaba Cloud (Qwen-Team) evaluiert.
Rohrpost abonnieren!
Wir graben fĂŒr Sie nach Neuigkeiten. Die Ergebnisse gibt es bei uns im Newsletter.
Jetzt anmelden!


Die detaillierte Auswertung dieser Fragestellung ist nicht Gegenstand dieses Beitrags und die Ergebnisse werden hier lediglich zusammenfassend dargestellt. Die Untersuchung fĂŒhrte zu zwei zentralen Erkenntnissen. Erstens zeigte sich, dass etablierte Modellanbieter nicht zwangslĂ€ufig die besten Ergebnisse erzielen. Insbesondere kleinere und nicht kommerzielle Sprachmodelle wurden hĂ€ufig unterschĂ€tzt, konnten jedoch in spezifischen Anwendungsszenarien ĂŒberzeugende Leistungen erbringen. Zweitens wurde deutlich, dass fĂŒr eine qualitativ hochwertige Extraktion von Inhalten aus komplexen Strukturen ein einzelnes Sprachmodell in vielen FĂ€llen nicht ausreichend ist und stattdessen Multi-Agenten-AnsĂ€tze erforderlich sind. Als weiteres Ergebnis der Studie wurde daher eine vollstĂ€ndig automatisierte Methode entwickelt, die unter Einsatz verschiedener Document-Parsing-Verfahren und eines Multi-Agenten-Ansatzes mehrere Sprachmodelle kombiniert, um hochkomplexe inhaltliche Strukturen zuverlĂ€ssig zu verarbeiten.
Weiterlesen:
Fazit: DatenqualitĂ€t entscheidet ĂŒber AntwortqualitĂ€t
Das Projekt zeigt exemplarisch, dass insbesondere domĂ€nenspezifische Benchmarking-AnsĂ€tze eine verlĂ€ssliche Grundlage fĂŒr die Bewertung von KI-Anwendungen wie KI-Chatbots bieten können und dass deren Aussagekraft maĂgeblich davon abhĂ€ngt, diese auf Basis der jeweils eigenen Daten durchzufĂŒhren.
Die fĂŒr das Benchmarking aufbereitete Datengrundlage sowie der zugehörige Katalog mit 50 domĂ€nenspezifischen Fragen können auf Anfrage fĂŒr wissenschaftliche und praktische Vergleichszwecke kostenfrei ĂŒber die E-Mail-Adresse info@landinno.com angefordert werden.
Neueste BeitrÀge:
Meistgelesene Artikel
Jetzt Ausschreibungen finden
WĂ€hlen Sie eine Leistungsart, die Sie interessiert.


Bau


Dienstleistung


Lieferung
Verwandte Bau-Stichworte:
Top Bau-Stichworte:
Aktuelle Termine fĂŒr unterirdische Infrastruktur
Jetzt zum Newsletter anmelden:
Leitungsbau, Kanalsanierung, Abwasser â erfahren Sie das wichtigste rund ums Thema unterirdische Infrastruktur.







