Chatbots verlieren im Langstreckengespräch: Warum lange Dialoge KI-Modelle überfordern.

26.03.2026 734

26.03.2026 734

Chatbots verlieren im Langstreckengespräch: Warum lange Dialoge KI-Modelle überfordern

Studie deckt Schwachstelle auf

Nach Angaben von Novyny.live: Eine gemeinsame Untersuchung von Microsoft Research und Salesforce kommt zu einem ernüchternden Ergebnis: Obwohl Chatbots bei kurzen Fragen brillieren, lässt ihre Zuverlässigkeit in ausgedehnten Gesprächen deutlich nach. Die Analyse von mehr als 200.000 Dialogverläufen offenbarte erhebliche Mängel in der Leistungsfähigkeit der KI-Modelle.

Getestete KI-Modelle im Vergleich

Folgende führende Modelle wurden unter die Lupe genommen:

GPT-4.1
Gemini 2.5 Pro
Claude 3.7 Sonnet
o3
DeepSeek R1
Llama 4

Bei einfachen Einzelschritt-Abfragen erreichen diese Modelle noch eine Erfolgsquote von rund 90 Prozent. In anspruchsvollen, mehrstufigen Dialogen bricht dieser Wert jedoch auf etwa 65 Prozent ein. Die Fähigkeit, angemessen zu antworten, nimmt im Laufe eines Gesprächs also signifikant ab. Dies ist ein grundlegendes Problem für den praktischen Einsatz, wo Konversationen selten nach einem Satz enden.

Die Studie quantifizierte den Leistungsabfall: Die generelle Fähigkeit der Modelle sank um etwa 15 Prozent, während die Unzuverlässigkeit ihrer Antworten um alarmierende 112 Prozent anstieg. Zudem wurden die Antworten in Mehrschritt-Dialogen um 20 bis 300 Prozent länger – ein Zeichen für ineffiziente oder ausschweifende Erklärungsversuche. Diese Zahlen unterstreichen die Schwierigkeit, in langen Konversationen Kontext und Qualität aufrechtzuerhalten.

Die Forschungsergebnisse werfen daher kritische Fragen zur Effektivität und Verlässlichkeit moderner KI-Modelle in komplexen Interaktionsszenarien auf, was ihre praktische Anwendbarkeit in der Realität beeinflussen kann.

Für Unternehmen, die Chatbots in ihre Geschäftsprozesse integrieren, sind diese Erkenntnisse von großer Bedeutung. Ein Vertrauensverlust in längeren Kundengesprächen kann direkt zu negativen Nutzererfahrungen führen. Die Studie macht deutlich, dass weitere Entwicklung nötig ist, um KI-Systeme für alle Dialogformate stabil und effektiv zu machen.

Lesen Sie auch

Technologie

112.ua bei Telegram lesen

112.ua bei Google lesen