В ответ на пост "A Peek into Token Bias" доказывает, что модели имеют сильную "предвзятость к токенам" (token bias) Изменение хоть одного слова может привести к совершенно неверному ответу, хотя логическая структура задачи не изменилась Исследование "Large language models can be easily distracted by irrelevant context" продемонстрировала, что добавление в условие задачи хотя бы одного предложения с числами значительно снижает точность, так как модели пытаются использовать эти самые числа в расчетах В гигантском объеме данных, на которых обучаются модели, существует очень сильная корреляция: если число присутствует в условии математической задачи, то оно, скорее всего, необходимо для решения Модель выучила эту корреляцию, но не всегда "понимает" сам принцип релевантности Её никогда целенаправленно не учили игнорировать информацию Исследование Apple "GSM-Symbolic" выявило более глубокую проблему Добавление описательной фразы, не требующей математических действий, приводило к падению
"A Peek into Token Bias" доказывает, что модели имеют сильную "предвзятость к токенам" (token bias
18 июня 202518 июн 2025
1 мин