Найти в Дзене

Меня не устраивает подход к языковым моделям (ЯМ) как к непонятному механизму, который каким-то чудом обучается. Нельзя просто увеличить количество параметров, расширить обучающую выборку и ожидать, что модель внезапно станет умнее и начнет решать любые задачи.


В презентации "Физика языковых моделей" исследователи тренируют компактные модели (100 миллионов параметров) на искусственных данных, анализируя их возможности и ограничения.

Интересно, что ЯМ принципиально не способны отвечать на некоторые вопросы, например: "Верно ли, что Байден родился в четном году?". При этом модель знает год рождения и понятие четности. Проблема кроется в последовательности токенов. Если бы ответ формулировался как "Байден родился в 1942 году, это четное число, ответ - да", все работало бы корректно. Но при ответе в формате "Да, потому что он родился в...", ЯМ не имеет доступа к числу 1942 в начале фразы и не может выбрать правильный ответ. Эта проблема универсальна для всех моделей, независимо от их размера.

Подобная ситуация возникает, когда в обучающих данных присутствует только информация вида "X родился в городе Y". Модель не сможет корректно ответить на обратный вопрос "Кто родился в городе Y?", так как в ее "памяти" существует только однонаправленная связь X->Y.
1 минута