ШІ з високим IQ втрачають здатність: чому чатботи погано працюють у довгих діалогах.
Дослідження чатботів
Як повідомляє Novyny.live: Дослідження, проведене компаніями Microsoft Research і Salesforce, показало, що чатботи демонструють зниження надійності у довгих діалогах, незважаючи на свої високі результати у коротких запитах. У рамках дослідження було проаналізовано понад 200 тисяч розмов, що дозволило виявити суттєві недоліки в роботі моделей штучного інтелекту.
Аналіз моделей
Серед розглянутих моделей були:
- GPT-4.1
- Gemini 2.5 Pro
- Claude 3.7 Sonnet
- o3
- DeepSeek R1
- Llama 4
В однокроковому форматі ці моделі можуть досягати близько 90% успішності. Однак у тривалих взаємодіях цей показник різко падає до 65%. Це свідчить про те, що під час багатокрокових діалогів здатність чатботів до адекватних відповідей значно знижується.
Дослідження виявило, що зниження "здібності" моделей становило приблизно 15%, в той час як ненадійність у їх відповідях зросла на 112%. Крім того, було помічено, що відповіді у багатокроковому форматі стали довшими на 20-300%. Ці результати підкреслюють складність підтримки якісної комунікації в тривалих розмовах, де чатботи можуть втрачати контекст або неадекватно реагувати на запити.
Таким чином, дані дослідження піднімають важливі питання про ефективність та надійність сучасних моделей штучного інтелекту у складних сценаріях взаємодії, що може мати значний вплив на їх використання в реальних умовах.
Результати цього дослідження можуть мати вагоме значення для компаній, які впроваджують чатботи у своїх бізнес-процесах, оскільки зниження надійності у тривалих діалогах може призвести до негативного досвіду для користувачів. Це підкреслює необхідність подальшої розробки та вдосконалення технологій штучного інтелекту, щоб забезпечити більш стабільну і ефективну комунікацію у всіх форматах взаємодії.
Читайте також
- Складані Android-смартфони служать лише два-три роки: в чому причина
- Турбомотори, які підводять: названо найпроблемніші двигуни та правила порятунку
- Рейтинг надійності авто від JD Power: BMW лідирує, Audi та Mercedes провалилися
- Український катер-дрон «Барракуда» став міні-авіаносцем: скільки FPV несе на борту
- Битий піксель на моніторі: чи можна виправити дефект самостійно
- Сонячні панелі, що імітують цеглу та черепицю: прорив для історичних будівель

