78 подписчиков
Исследователи Apple, занимающиеся искусственным интеллектом, наглядно показали, что у современных движков, основанных на больших языковых моделях, есть проблемы с базовыми навыками рассуждений. Об этом пишет издание AppleInsider.
Группа инженеров Apple предложила новый тест GSM-Symbolic, позволяющий измерить способность к рассуждениям различных больших языковых моделей (LLM). Первые испытания показали, что уже незначительные изменения в формулировках запросов — которые легко распознает и учитывает человек — в случае с нейросетями могут привести к значительно отличающимся ответам. Поэтому говорить об их высокой надежности пока не приходится.
— В частности, эффективность всех моделей снижается [даже] при изменении только числовых значений в вопросе бенчмарка GSM-Symbolic, — пишет группа в своем отчете. — Более того, хрупкость математических рассуждений в этих моделях [демонстрирует], что их производительность значительно ухудшается по мере увеличения количества пунктов в вопросе.
Исследование показало, что добавление даже одного предложения, которое, по всей видимости, содержит информацию, относящуюся к заданному математическому вопросу, может снизить точность окончательного ответа на 65 процентов. «На таком фундаменте просто невозможно построить надежных агентов, которые, изменив пару слов или добавив несколько не относящихся к делу сведений, могут дать совсем другой ответ», — заключили авторы исследования.
В качестве примера, иллюстрирующего проблему, они приводят математическую задачу, требующую простейшего понимания ситуации. Разработанная командой задача, названная «GSM-NoOp», была похожа на математические «словесные задачи», с которыми может столкнуться ученик начальной школы.
Запрос начинался с информации, необходимой для формулировки результата...
Оливер выбирает 44 киви в пятницу. Затем он выбирает 58 киви в субботу. В воскресенье он собирает вдвое больше киви, чем в пятницу.
Затем в запрос добавляется пункт, который кажется релевантным, но на самом деле не является таковым в отношении окончательного ответа, отмечая, что из киви, собранных в воскресенье, «пять были немного меньше среднего». Запрашиваемый ответ: «Сколько киви у Оливера?».
Замечание о размере некоторых киви, собранных в воскресенье, не должно иметь никакого отношения к общему количеству собранных киви. Однако модель OpenAI, а также Meta Llama3-8b вычли пять киви меньшего размера из общего результата.
Ошибочная логика была подтверждена предыдущим исследованием 2019 года, в котором модели ИИ удалось надежно запутать, задав вопрос о возрасте двух предыдущих квотербеков Суперкубка. При добавлении фоновой и сопутствующей информации об играх, в которых они участвовали, и о третьем человеке, который был квотербеком в другой игре за Суперкубок, модели выдавали неверные ответы.
2 минуты
14 октября