Studie belegt: KI-Chatbots machen in längeren Gesprächen doppelt so viele Fehler.
Die Qualität von KI-Chatbots unter der Lupe
Nach Angaben von TSN.ua: Eine gemeinsame Untersuchung von Microsoft Research und Salesforce kommt zu einem alarmierenden Ergebnis: In längeren Konversationen verdoppelt sich die Fehlerrate populärer KI-Chatbots. Verantwortlich dafür sind sogenannte 'Halluzinationen' und ein als 'Antwortaufblähung' bekanntes Phänomen, die die Kommunikationsqualität erheblich beeinträchtigen.
Die Analyse von mehr als 200.000 Chatbot-Konversationen zeigt ein klares Muster: Bei Einzelfragen liegt die Erfolgsquote der Modelle bei soliden 90 Prozent. In längeren Dialogen jedoch sackt dieser Wert auf nur noch 65 Prozent ab. Die Studie belegt damit, dass die Fehlerwahrscheinlichkeit mit der Dauer der Interaktion signifikant ansteigt – ein kritisches Problem für den praktischen Einsatz.
Längere Antworten, mehr Missverständnisse
Ein weiterer Befund der Forschung: In mehrschrittigen Dialogen werden die Antworten der KI-Modelle um 20 bis 300 Prozent länger. Diese aufgeblähten Texte erschweren die Informationsaufnahme und begünstigen Missverständnisse, was die Nutzererfahrung deutlich verschlechtert.
- Unter den Chatbots dominiert ChatGPT den globalen Markt mit einem Anteil von über 80 Prozent.
- Konkurrenten wie Perplexity und Google Gemini teilen sich lediglich etwa 15 Prozent der Nutzerschaft.
Die Ergebnisse unterstreichen dringenden Verbesserungsbedarf bei den Algorithmen, um in längeren Gesprächen mehr Präzision und Nutzerfreundlichkeit zu gewährleisten. Dies ist ein entscheidender Schritt für KI-Systeme, die zunehmend in den Alltag integriert werden. Gerade im Business-Umfeld und im Kundenservice, wo längere, komplexe Dialoge typisch sind, sind zuverlässige Assistenten unverzichtbar.
Angesichts der enormen Verbreitung von Chatbots, vor allem von ChatGPT, hätten Fortschritte hier direkte Auswirkungen auf das Nutzererlebnis und die Effizienz in zahlreichen Anwendungsbereichen.
Lesen Sie auch
- Worauf es bei einem WLAN-Router ankommt: 4 entscheidende Merkmale im Überblick
- Nur zwei bis drei Jahre: Warum faltbare Android-Handys so schnell den Geist aufgeben
- Wenn Turbomotoren enttäuschen: Die anfälligsten Aggregate und wie man sie rettet
- JD Power Zuverlässigkeitsstudie: BMW an der Spitze, Audi und Mercedes fallen zurück
- Ukrainische Drohnen-Barkasse „Barrakuda“ wird zum fliegenden Flugzeugträger: Wie viele FPV-Drohnen sie an Bord hat
- Toter Pixel auf dem Monitor: Lässt sich der Schaden selbst beheben?

