KI-Chatbots in der Wasserwirtschaft: Benchmark, Praxistest und Datenbasis

Wasserwirtschaft

KI trifft Regelwerk: Funktioniert das in der Praxis?

Sajjad Tabatabaei

09.02.2026, 14:18 Uhr, aktualisiert 09.02.2026, 14:29 Uhr

DÜSSELDORF/KIEL

Ob Kanalbetrieb, Dokumentation oder der schnelle Blick ins Regelwerk: In der Wasserwirtschaft zählt verlässliches Fachwissen – und es muss oft sofort verfügbar sein. KI-Chatbots versprechen schnelle Antworten, doch wie belastbar sind sie im Alltag? Dieser Beitrag zeigt anhand eines branchenspezifischen Benchmarkings, wie sich Chatbots für die Wasserwirtschaft bewerten lassen und warum die Datenbasis entscheidend ist.

KI-Chatbots versprechen schnellen Zugriff auf Fachwissen in der Wasserwirtschaft – doch wie zuverlässig sind ihre Antworten im Praxistest? | Foto: B_I MEDIEN/KI-generiert

Seit dem Aufkommen großer Sprachmodelle und Anwendungen wie ChatGPT wächst das Interesse, diese Technologien auch im beruflichen Alltag nutzbar zu machen, sei es im Büro oder unterwegs. Damit rückt zunehmend die Frage in den Mittelpunkt, wie gut dokumentiertes Fach- und Organisationswissen in KI-basierten Chatbots integriert werden kann.

Der Markt wird derzeit von Anbietern sogenannter Unternehmens-Chatbots geprägt, die neben hohen Sicherheitsstandards vor allem eine qualitativ hochwertige Verarbeitung interner Daten versprechen. Gleichzeitig führt die enorme Dynamik und die Vielzahl an verfügbaren Lösungen dazu, dass viele Führungskräfte und Entscheidungsträger angesichts der Auswahlmöglichkeiten und Gütekriterien für geeignete Produkte überfordert sind. Unabhängige Vergleiche zwischen Lösungen fehlen weitgehend, sodass Unternehmen häufig auf die Versprechen der Anbieter angewiesen sind. Damit entsteht ein erhebliches Risiko für Fehlinvestitionen.

Fallstudie: Bewertungsmaßstab für Unternehmens-Chatbots

Dieser Beitrag stellt die Ergebnisse einer Fallstudie vor, deren Ziel die Entwicklung eines Bewertungsmaßstabs für Unternehmens-Chatbots ist. Zudem wird der Einfluss der Datenqualität auf die Ergebnisgüte analysiert und untersucht, welche Sprachmodelle sich unabhängig vom jeweiligen Unternehmens-Chatbot besonders für die Datenaufbereitung in der Wasserwirtschaft eignen. Auf dieser Grundlage können Unternehmen frühzeitig belastbare, datenbasierte Entscheidungsgrundlagen entwickeln, da sich viele Organisationen mittelfristig mit der Einführung eines eigenen Unternehmens-Chatbots befassen. Erfahrungen aus der Praxis zeigen dabei, dass ein späterer Wechsel der Lösung nach der Implementierung meist kaum noch realistisch ist, selbst wenn neue oder leistungsfähigere Produkte erscheinen. Der Grund liegt im erheblichen finanziellen und personellen Aufwand, der mit der Einführung, Anpassung und organisatorischen Verankerung solcher Systeme verbunden ist.

Finetuning oder RAG: Zwei Wege zum Fachwissen

Die Wissensbereitstellung mithilfe von KI-Chatbots basiert im Wesentlichen auf zwei technischen Ansätzen: dem Finetuning von Sprachmodellen und der Retrieval-Augmented Generation (RAG). Beim Finetuning wird ein bestehendes Sprachmodell mit domänenspezifischen Daten weitertrainiert, sodass es das Fachwissen direkt im Modell „verinnerlicht“. Auf diese Weise können besonders kontextbezogene und natürlich wirkende Antworten entstehen. Allerdings ist dieser Ansatz mit hohem Aufwand verbunden, da er große Rechenressourcen und ein sorgfältiges Training erfordert. Zudem bietet Finetuning nur geringe Flexibilität bei der Aktualisierung oder gezielten Löschung von Wissen, da hierfür ein erneutes Training notwendig ist. Auch die Transparenz bleibt eingeschränkt, da verwendete Quellen nicht nachvollziehbar ausgewiesen werden können.

RAG verfolgt dagegen einen anderen Ansatz, indem Wissensspeicherung und Sprachmodell voneinander getrennt werden. Das relevante Wissen wird in einer sogenannten Vektordatenbank abgelegt und bei jeder Nutzeranfrage gezielt abgerufen. Dadurch ist diese Methode deutlich kosteneffizienter, flexibler in der Datenpflege und transparenter, da die verwendeten Quellen angezeigt werden können. Für dynamische und heterogene Wissensbestände, wie sie in Unternehmen und Organisationen typisch sind, gilt RAG daher als praktikablere Lösung. Entsprechend setzen die meisten Anbieter von Unternehmens-Chatbots heute auf RAG-Architekturen, entweder durch die Nutzung bestehender Systeme oder durch eigene Entwicklungen. Dabei ist zu betonen, dass RAG kein standardisiertes Produkt, sondern eine Methode ist, die in sehr unterschiedlichen Varianten umgesetzt werden kann. Die Qualität der Antworten hängt stark von der konkreten Systemarchitektur, den gewählten Modellparametern und insbesondere von der Qualität der Eingangsdaten ab.

Document Parsing: Wenn Wissen nicht als Fließtext vorliegt

Eine zentrale Herausforderung besteht darin, dass RAG-Systeme vor allem mit textbasierten Inhalten zuverlässig arbeiten. Ein großer Teil des dokumentierten Wissens liegt jedoch nicht als reiner Fließtext vor, sondern in Tabellen, Grafiken, Prozessdarstellungen, Karten oder Bildern. Diese komplexen Formate sind für KI-Systeme deutlich schwerer zu verarbeiten. Damit solches Wissen über Unternehmens-Chatbots zugänglich wird, müssen Inhalte aus diesen komplexen Strukturen zunächst extrahiert und in maschinenlesbare Textformate überführt werden. Dieser Prozess wird unter dem Begriff Document Parsing zusammengefasst. Zwar bieten viele Anbieter inzwischen entsprechende Funktionen an, doch bleibt meist unklar, wie genau die Daten verarbeitet werden und welche Qualität die Ergebnisse tatsächlich besitzen.

Benchmarking mit 50 Fragen: Methode und Ergebnisse

Vor diesem Hintergrund wurde im Rahmen einer Fallstudie ein speziell auf die Wasserwirtschaft ausgerichtetes Benchmarking entwickelt. Die Grundlage des Benchmarkings bilden 50 domänenspezifische Fragen, die aus zwölf frei verfügbaren Quellen wie Gesetzestexten und technischen Regelwerken abgeleitet wurden. Die Fragen wurden so gestaltet, dass sie unterschiedliche Komplexitätsgrade abdecken und sich auf Inhalte beziehen, die aus verschiedenen Quellformaten stammen, darunter Fließtexte, Tabellen, Grafiken, Prozessdarstellungen und Karten. Die Bewertung erfolgte anhand der Kriterien Richtigkeit und Vollständigkeit und ermöglicht eine differenzierte Analyse nach Quellformaten.

Zur Beurteilung der generierten Antworten wurde ein bewusst einfaches Punktesystem entwickelt: Zwei Punkte wurden vergeben, wenn eine Antwort richtig und vollständig war, ein Punkt bei richtiger, aber unvollständiger Antwort und null Punkte bei fachlich falschen Inhalten. Als Referenz dienten Antworten, die von erfahrenen Ingenieuren aus der Wasserwirtschaft auf Basis der Originalquellen erstellt wurden.

In mehreren Durchläufen wurden über alle Fragen hinweg durchschnittliche Gütewerte von 98 % für textbasierte Inhalte, 94 % für grafische Darstellungen (z. B. Bilder, Diagramme, Karten) und 90 % für tabellarische Daten erreicht. Diese Werte können als Orientierungs- und Referenzgrößen für die Leistungsbewertung eigener Unternehmens-Chatbots herangezogen werden. Die Ergebnisse der Studie zeigen zudem, dass die Qualität der Datenquellen, neben dem jeweils eingesetzten RAG-System und dessen Parametereinstellungen, einen wesentlichen Einfluss auf die Antwortgüte hat. Daraus folgt, dass die Wissensbereitstellung in KI-Chatbots im ersten Schritt vorrangig bei der Qualität und Struktur der Datenbasis ansetzen muss, um eine hohe Antwortgüte sicherzustellen.

Modelle im Vergleich: Tabellen, Karten und Diagramme extrahieren

Vor diesem Hintergrund wurde untersucht, welche Modelle und Methoden sich für die Extraktion von Inhalten aus komplexen Strukturen wie Bildern, Tabellen, Diagrammen und Karten sowie für die Überführung dieser Inhalte in maschinenlesbare Formate eignen. Als Grundlage dienten zwölf komplexe Strukturen (vier Tabellen, vier Diagramme, zwei Karten und zwei Prozessabbildungen), deren Inhalte in maschinenlesbare Textformate überführt werden sollten. Hierzu wurden verschiedene Document-Parsing-Methoden sowie insgesamt 13 kommerzielle und Open-Source-Sprachmodelle etablierter Anbieter wie OpenAI, Google AI, Mistral AI, Meta und Alibaba Cloud (Qwen-Team) evaluiert.

Rohrpost abonnieren!

Wir graben für Sie nach Neuigkeiten. Die Ergebnisse gibt es bei uns im Newsletter.

Jetzt anmelden!

Ich akzeptiere die Datenschutz-Bestimmungen.

Die detaillierte Auswertung dieser Fragestellung ist nicht Gegenstand dieses Beitrags und die Ergebnisse werden hier lediglich zusammenfassend dargestellt. Die Untersuchung führte zu zwei zentralen Erkenntnissen. Erstens zeigte sich, dass etablierte Modellanbieter nicht zwangsläufig die besten Ergebnisse erzielen. Insbesondere kleinere und nicht kommerzielle Sprachmodelle wurden häufig unterschätzt, konnten jedoch in spezifischen Anwendungsszenarien überzeugende Leistungen erbringen. Zweitens wurde deutlich, dass für eine qualitativ hochwertige Extraktion von Inhalten aus komplexen Strukturen ein einzelnes Sprachmodell in vielen Fällen nicht ausreichend ist und stattdessen Multi-Agenten-Ansätze erforderlich sind. Als weiteres Ergebnis der Studie wurde daher eine vollständig automatisierte Methode entwickelt, die unter Einsatz verschiedener Document-Parsing-Verfahren und eines Multi-Agenten-Ansatzes mehrere Sprachmodelle kombiniert, um hochkomplexe inhaltliche Strukturen zuverlässig zu verarbeiten.

Weiterlesen:

Digitale Zwillinge machen das Unsichtbare sichtbar

02.09.2025

Geodaten

Digitale Zwillinge machen das Unsichtbare sichtbar

Alle Daten von jedem für jeden an jedem Ort

18.12.2025

Bau-Software „Mate“

Alle Daten von jedem für jeden an jedem Ort

Exklusiv

„Die Branche befindet sich in einem Evolutionsprozess“

13.10.2025

Markus Vogel im Interview

„Die Branche befindet sich in einem Evolutionsprozess“

Exklusiv

Fazit: Datenqualität entscheidet über Antwortqualität

Das Projekt zeigt exemplarisch, dass insbesondere domänenspezifische Benchmarking-Ansätze eine verlässliche Grundlage für die Bewertung von KI-Anwendungen wie KI-Chatbots bieten können und dass deren Aussagekraft maßgeblich davon abhängt, diese auf Basis der jeweils eigenen Daten durchzuführen.

Die für das Benchmarking aufbereitete Datengrundlage sowie der zugehörige Katalog mit 50 domänenspezifischen Fragen können auf Anfrage für wissenschaftliche und praktische Vergleichszwecke kostenfrei über die E-Mail-Adresse info@landinno.com angefordert werden.

Zur Startseite

Drucken