Почему умные ИИ-ассистенты «забывают» суть разговора: проблема длинных диалогов.

Почему умные ИИ-ассистенты «забывают» суть разговора: проблема длинных диалогов
Почему умные ИИ-ассистенты «забывают» суть разговора: проблема длинных диалогов

Что показало исследование

Как сообщает Novyny.live: Аналитики Microsoft Research и Salesforce, изучив более 200 тысяч диалогов, пришли к выводу: чем дольше общение с чат-ботом, тем менее точными и последовательными становятся его ответы. Это происходит несмотря на впечатляющие результаты, которые те же модели показывают в решении коротких, одношаговых задач.

Какие модели проверяли

В фокус исследования попали ведущие языковые модели:

  • GPT-4.1
  • Gemini 2.5 Pro
  • Claude 3.7 Sonnet
  • o3
  • DeepSeek R1
  • Llama 4

Если в однократном запросе их успешность достигает примерно 90%, то в рамках продолжительной беседы этот показатель резко снижается — до 65%. Фактически, в многоэтапном диалоге ИИ начинает «сбоить», теряя нить обсуждения и выдавая менее релевантные ответы.

Согласно данным, интеллектуальные способности моделей в длительных сессиях падают на 15%, при этом ненадёжность их реакций возрастает на целых 112%. Также отмечено, что ответы в многошаговом формате становятся на 20–300% длиннее, что часто свидетельствует о попытках «заболтать» вопрос или неуверенности системы. Для российских пользователей, активно использующих чат-ботов для поддержки или консультаций, это означает риск получить путаный и бесполезный ответ в сложном, многоуровневом запросе.

Полученные результаты ставят под сомнение готовность современных ИИ-ассистентов к сложным сценариям реального взаимодействия, где требуется долго удерживать контекст. Это критически важно для интеграции таких технологий в бизнес-процессы, где сбой в диалоге ведёт к потере клиентов и репутационным рискам.

Таким образом, исследование подчёркивает острую необходимость в дальнейшем совершенствовании архитектуры нейросетей, чтобы обеспечить стабильное качество коммуникации не только в первых репликах, но и на протяжении всего разговора. Без этого массовое внедрение чат-ботов в сервисы с высокой нагрузкой останется проблематичным.


Читайте также

Реклама