Długie rozmowy to pięta achillesowa chatbotów. Nowe badanie ujawnia skalę problemu.
Wyniki najnowszych testów
Jak informuje Novyny.live: Naukowcy z Microsoft Research i Salesforce przeanalizowali ponad 200 tysięcy konwersacji, by sprawdzić, jak sztuczna inteligencja radzi sobie w dłuższych dialogach. Okazało się, że pomimo świetnych wyników w krótkich, pojedynczych zapytaniach, niezawodność chatbotów w rozbudowanych rozmowach wyraźnie spada. To istotne odkrycie, biorąc pod uwagę, jak powszechne stało się wykorzystanie asystentów AI.
Jakie modele przebadano?
W badaniu uwzględniono wydajność następujących zaawansowanych modeli językowych:
- GPT-4.1
- Gemini 2.5 Pro
- Claude 3.7 Sonnet
- o3
- DeepSeek R1
- Llama 4
W przypadku pojedynczych, jednoetapowych pytań skuteczność tych systemów sięga około 90%. Jednak w trakcie wieloetapowych, rozciągniętych w czasie interakcji wskaźnik ten gwałtownie spada – do zaledwie 65%. Oznacza to, że zdolność chatbotów do udzielania trafnych odpowiedzi znacząco maleje wraz z wydłużaniem się rozmowy.
Analiza wykazała, że spadek 'zdolności' modeli wyniósł około 15%, podczas gdy ich nierzetelność w odpowiedziach wzrosła aż o 112%. Zaobserwowano również, że wypowiedzi w trybie wieloetapowym stały się dłuższe – od 20% do nawet 300%. Wyniki te podkreślają trudności w utrzymaniu spójności i jakości komunikacji podczas długich konwersacji, w których boty mogą gubić kontekst lub niewłaściwie interpretować intencje użytkownika.
Dane z badania stawiają zatem poważne pytania o efektywność i wiarygodność nowoczesnej sztucznej inteligencji w złożonych scenariuszach komunikacyjnych, co może mieć bezpośredni wpływ na jej praktyczne zastosowania.
Odkrycia te są szczególnie ważne dla firm wdrażających chatboty w swoich procesach obsługi klienta czy wsparcia. Spadek niezawodności w długich dialogach może bowiem prowadzić do frustracji użytkowników i negatywnych doświadczeń. To wyraźny sygnał, że potrzebne są dalsze prace rozwojowe nad technologią AI, aby zapewnić stabilną i skuteczną komunikację we wszystkich formatach – zarówno krótkich, jak i rozbudowanych.
Czytaj także
- Dlaczego składane smartfony z Androidem wytrzymują zaledwie 2–3 lata?
- Zawodne turbodoładowanie: oto najbardziej awaryjne silniki i jak ich nie zniszczyć
- JD Power ujawnia ranking niezawodności aut: BMW na czele, Audi i Mercedes rozczarowują
- Ukraiński dron-barracuda jako latający arsenał: ile FPV może przenosić?
- Martwy piksel na ekranie – czy da się go naprawić bez serwisu?
- Fotowoltaika wtapia się w zabytki: panele udające cegłę i dachówkę

