Почему умные ИИ-ассистенты «забывают» суть разговора: проблема длинных диалогов.
Что показало исследование
Как сообщает Novyny.live: Аналитики Microsoft Research и Salesforce, изучив более 200 тысяч диалогов, пришли к выводу: чем дольше общение с чат-ботом, тем менее точными и последовательными становятся его ответы. Это происходит несмотря на впечатляющие результаты, которые те же модели показывают в решении коротких, одношаговых задач.
Какие модели проверяли
В фокус исследования попали ведущие языковые модели:
- GPT-4.1
- Gemini 2.5 Pro
- Claude 3.7 Sonnet
- o3
- DeepSeek R1
- Llama 4
Если в однократном запросе их успешность достигает примерно 90%, то в рамках продолжительной беседы этот показатель резко снижается — до 65%. Фактически, в многоэтапном диалоге ИИ начинает «сбоить», теряя нить обсуждения и выдавая менее релевантные ответы.
Согласно данным, интеллектуальные способности моделей в длительных сессиях падают на 15%, при этом ненадёжность их реакций возрастает на целых 112%. Также отмечено, что ответы в многошаговом формате становятся на 20–300% длиннее, что часто свидетельствует о попытках «заболтать» вопрос или неуверенности системы. Для российских пользователей, активно использующих чат-ботов для поддержки или консультаций, это означает риск получить путаный и бесполезный ответ в сложном, многоуровневом запросе.
Полученные результаты ставят под сомнение готовность современных ИИ-ассистентов к сложным сценариям реального взаимодействия, где требуется долго удерживать контекст. Это критически важно для интеграции таких технологий в бизнес-процессы, где сбой в диалоге ведёт к потере клиентов и репутационным рискам.
Таким образом, исследование подчёркивает острую необходимость в дальнейшем совершенствовании архитектуры нейросетей, чтобы обеспечить стабильное качество коммуникации не только в первых репликах, но и на протяжении всего разговора. Без этого массовое внедрение чат-ботов в сервисы с высокой нагрузкой останется проблематичным.
Читайте также
- Когда турбомоторы подводят: самые уязвимые агрегаты и как их спасти
- JD Power обнародовал рейтинг надежности авто: BMW в лидерах, Audi и Mercedes провалили тест
- Украинский беспилотный катер «Барракуда» превратился в мини-авианосец: сколько FPV-дронов он может нести
- Мертвый пиксель на экране: реально ли устранить дефект своими силами
- Фотоэлектрические панели под кирпич и черепицу: новый стандарт для объектов культурного наследия
- Что нужно знать о подержанном Nissan Leaf в Украине: советы для покупателей

