Найти в Дзене
НИИ Антропогенеза

"A Peek into Token Bias" доказывает, что модели имеют сильную "предвзятость к токенам" (token bias

В ответ на пост "A Peek into Token Bias" доказывает, что модели имеют сильную "предвзятость к токенам" (token bias) Изменение хоть одного слова может привести к совершенно неверному ответу, хотя логическая структура задачи не изменилась Исследование "Large language models can be easily distracted by irrelevant context" продемонстрировала, что добавление в условие задачи хотя бы одного предложения с числами значительно снижает точность, так как модели пытаются использовать эти самые числа в расчетах В гигантском объеме данных, на которых обучаются модели, существует очень сильная корреляция: если число присутствует в условии математической задачи, то оно, скорее всего, необходимо для решения Модель выучила эту корреляцию, но не всегда "понимает" сам принцип релевантности Её никогда целенаправленно не учили игнорировать информацию Исследование Apple "GSM-Symbolic" выявило более глубокую проблему Добавление описательной фразы, не требующей математических действий, приводило к падению

В ответ на пост

"A Peek into Token Bias" доказывает, что модели имеют сильную "предвзятость к токенам" (token bias)

Изменение хоть одного слова может привести к совершенно неверному ответу, хотя логическая структура задачи не изменилась

Исследование "Large language models can be easily distracted by irrelevant context" продемонстрировала, что добавление в условие задачи хотя бы одного предложения с числами значительно снижает точность, так как модели пытаются использовать эти самые числа в расчетах

В гигантском объеме данных, на которых обучаются модели, существует очень сильная корреляция: если число присутствует в условии математической задачи, то оно, скорее всего, необходимо для решения

Модель выучила эту корреляцию, но не всегда "понимает" сам принцип релевантности

Её никогда целенаправленно не учили игнорировать информацию

Исследование Apple "GSM-Symbolic" выявило более глубокую проблему

Добавление описательной фразы, не требующей математических действий, приводило к падению точности — до 65 %

Gemini 2.5 Pro, Claude Sonnet 4 скорее всего справятся с этой простой задачей, их способность к фильтрации шума остается хрупкой

LRM, несмотря на их впечатляющие лингвистические способности и кажущуюся компетентность в математике, ведут себя как "эрудированные попугаи"

Они идеально воспроизводят знакомые им паттерны, но ломаются при столкновении с новизной

Критика сфокусирована на методологии конкретного эксперимента и не опровергет (и не ставила такой цели) другие фундаментальные наблюдения о природе LLM: рассуждения современных моделей чрезвычайно хрупки и нестабильны, особенно там, где появляется новизна

Научная ценность работы Apple интересна тем, что бросает вызов текущей стратегии развития всей области ML, отсюда и критика

LLM могут решать сложные задачи, но их способность к этому очень ненадежна и легко может быть нарушена малейшими изменениями контекста

Apple не говорит о том, что появление AGI невозможно, но масштабирование ML-технологий в текущей парадигме вряд ли приблизит исследователей к желаемым результатам

Нужно пересматривать саму парадигму

Исследователи подводят читателя к мысли, что AGI не может быть создан на базе текущей ML-архитектуры в её нынешнем виде, а громкие заголовки про AGI есть ничто иное как красивый маркетинговый трюк