Исследователи из Массачусетского технологического института (MIT) выяснили, почему большие языковые модели (LLM), такие как ChatGPT или DeepSeek, часто переоценивают информацию в начале и конце текста, игнорируя середину. Это явление, названное «предвзятостью позиции», может мешать многим авторам, ищущим ключевые фразы в длинных документах. Работа, представленная на Международной конференции по машинному обучению и опубликованная в arXiv, раскрывает причины этой проблемы и предлагает пути ее решения. Команда под руководством Синьи Ву создала теоретическую модель, которая объясняет, почему большие языковые модели, такие как ChatGPT, чаще обращают внимание на начало и конец текста. Они читают текст по частям и как бы «приглядываются» к самым значимым словам, чтобы правильно его интерпретировать. Но из-за некоторых технических настроек — например, ограничения видеть только предыдущие слова или указания порядка слов — возникает смещение. «Эти модели — как черные ящики. Пользователи не видя
Главный секрет «невнимательности» ChatGPT и других нейросетей раскрыт
18 июня 202518 июн 2025
579
2 мин