ШІ з високим IQ втрачають здатність: чому чатботи погано працюють у довгих діалогах.

Чатботи втрачають ефективність у діалогах
Чатботи втрачають ефективність у діалогах Фото: Novyny.live

Дослідження чатботів

Як повідомляє Novyny.live: Дослідження, проведене компаніями Microsoft Research і Salesforce, показало, що чатботи демонструють зниження надійності у довгих діалогах, незважаючи на свої високі результати у коротких запитах. У рамках дослідження було проаналізовано понад 200 тисяч розмов, що дозволило виявити суттєві недоліки в роботі моделей штучного інтелекту.

Аналіз моделей

Серед розглянутих моделей були:

  • GPT-4.1
  • Gemini 2.5 Pro
  • Claude 3.7 Sonnet
  • o3
  • DeepSeek R1
  • Llama 4

В однокроковому форматі ці моделі можуть досягати близько 90% успішності. Однак у тривалих взаємодіях цей показник різко падає до 65%. Це свідчить про те, що під час багатокрокових діалогів здатність чатботів до адекватних відповідей значно знижується.

Дослідження виявило, що зниження "здібності" моделей становило приблизно 15%, в той час як ненадійність у їх відповідях зросла на 112%. Крім того, було помічено, що відповіді у багатокроковому форматі стали довшими на 20-300%. Ці результати підкреслюють складність підтримки якісної комунікації в тривалих розмовах, де чатботи можуть втрачати контекст або неадекватно реагувати на запити.

Таким чином, дані дослідження піднімають важливі питання про ефективність та надійність сучасних моделей штучного інтелекту у складних сценаріях взаємодії, що може мати значний вплив на їх використання в реальних умовах.

Результати цього дослідження можуть мати вагоме значення для компаній, які впроваджують чатботи у своїх бізнес-процесах, оскільки зниження надійності у тривалих діалогах може призвести до негативного досвіду для користувачів. Це підкреслює необхідність подальшої розробки та вдосконалення технологій штучного інтелекту, щоб забезпечити більш стабільну і ефективну комунікацію у всіх форматах взаємодії.


Читайте також

Реклама