Długie rozmowy to pięta achillesowa chatbotów. Nowe badanie ujawnia skalę problemu.

Długie rozmowy to pięta achillesowa chatbotów. Nowe badanie ujawnia skalę problemu
Długie rozmowy to pięta achillesowa chatbotów. Nowe badanie ujawnia skalę problemu

Wyniki najnowszych testów

Jak informuje Novyny.live: Naukowcy z Microsoft Research i Salesforce przeanalizowali ponad 200 tysięcy konwersacji, by sprawdzić, jak sztuczna inteligencja radzi sobie w dłuższych dialogach. Okazało się, że pomimo świetnych wyników w krótkich, pojedynczych zapytaniach, niezawodność chatbotów w rozbudowanych rozmowach wyraźnie spada. To istotne odkrycie, biorąc pod uwagę, jak powszechne stało się wykorzystanie asystentów AI.

Jakie modele przebadano?

W badaniu uwzględniono wydajność następujących zaawansowanych modeli językowych:

  • GPT-4.1
  • Gemini 2.5 Pro
  • Claude 3.7 Sonnet
  • o3
  • DeepSeek R1
  • Llama 4

W przypadku pojedynczych, jednoetapowych pytań skuteczność tych systemów sięga około 90%. Jednak w trakcie wieloetapowych, rozciągniętych w czasie interakcji wskaźnik ten gwałtownie spada – do zaledwie 65%. Oznacza to, że zdolność chatbotów do udzielania trafnych odpowiedzi znacząco maleje wraz z wydłużaniem się rozmowy.

Analiza wykazała, że spadek 'zdolności' modeli wyniósł około 15%, podczas gdy ich nierzetelność w odpowiedziach wzrosła aż o 112%. Zaobserwowano również, że wypowiedzi w trybie wieloetapowym stały się dłuższe – od 20% do nawet 300%. Wyniki te podkreślają trudności w utrzymaniu spójności i jakości komunikacji podczas długich konwersacji, w których boty mogą gubić kontekst lub niewłaściwie interpretować intencje użytkownika.

Dane z badania stawiają zatem poważne pytania o efektywność i wiarygodność nowoczesnej sztucznej inteligencji w złożonych scenariuszach komunikacyjnych, co może mieć bezpośredni wpływ na jej praktyczne zastosowania.

Odkrycia te są szczególnie ważne dla firm wdrażających chatboty w swoich procesach obsługi klienta czy wsparcia. Spadek niezawodności w długich dialogach może bowiem prowadzić do frustracji użytkowników i negatywnych doświadczeń. To wyraźny sygnał, że potrzebne są dalsze prace rozwojowe nad technologią AI, aby zapewnić stabilną i skuteczną komunikację we wszystkich formatach – zarówno krótkich, jak i rozbudowanych.


Czytaj także

Reklama