273 подписчика

LLM обучают на огромных наборах данных и их задача проста – предсказывать следующий токен

1 апреля 20251 апр 2025

1 мин

LLM обучают на огромных наборах данных и их задача проста – предсказывать следующий токен Но при этом получается так, что в итоге они каким-то образом извлекают и структурируют фактическую информацию Так как именно происходит этот процесс "сжатия" датасетов в знания? В DeepMind написали об этом целую работу Они взяли для обучения 6 выдуманных биографий и трекали, в какой момент моделька перейдет от простого правдоподобного повторения к приобретению фактических знаний Оказалось, что такое выучивание происходит циклично, в три вполне конкретных этапа: • сначала модель довольно быстро изучает общие закономерности данных, запоминает, какие даты, слова, названия и имена встречаются чаще Но при этом она ещё не формирует связь между, например, человеком и его датой рождения, а просто тыкает "наугад" исходя из статистики текстов • потом, внезапно, наступает долгий этап плато Производительность стабилизируется, то есть кажется, что модель все еще не видит связей Но на самом деле в этом врем

Но при этом получается так, что в итоге они каким-то образом извлекают и структурируют фактическую информацию

Так как именно происходит этот процесс "сжатия" датасетов в знания?

В DeepMind написали об этом целую работу

Они взяли для обучения 6 выдуманных биографий и трекали, в какой момент моделька перейдет от простого правдоподобного повторения к приобретению фактических знаний

Оказалось, что такое выучивание происходит циклично, в три вполне конкретных этапа:

• сначала модель довольно быстро изучает общие закономерности данных, запоминает, какие даты, слова, названия и имена встречаются чаще

Но при этом она ещё не формирует связь между, например, человеком и его датой рождения, а просто тыкает "наугад" исходя из статистики текстов

• потом, внезапно, наступает долгий этап плато

Производительность стабилизируется, то есть кажется, что модель все еще не видит связей

Но на самом деле в этом время атеншн аллоцируется, и формируются особые схемы внимания (attention circuits), с помощью которых LMка выделяет ключевые элементы текста и начинает ассоциировать их между собой

Кстати, на этом же этапе начинают возникать галлюцинации

• ну и, наконец, фаза приобретения знаний

Тут происходит так называемый грокинг

Лосс очень быстро падает, и модель уже не опирается только на общую статистику, а способна воспроизводить точные факты

И, кстати, это интересно не просто теоретически

Отсюда можно сделать массу практических выводов: например, теперь понятно, с чем связано катастрофическое забывание при интеграции новой даты

arxiv.org/pdf/2503.21676