LLM обучают на огромных наборах данных и их задача проста – предсказывать следующий токен Но при этом получается так, что в итоге они каким-то образом извлекают и структурируют фактическую информацию Так как именно происходит этот процесс "сжатия" датасетов в знания? В DeepMind написали об этом целую работу Они взяли для обучения 6 выдуманных биографий и трекали, в какой момент моделька перейдет от простого правдоподобного повторения к приобретению фактических знаний Оказалось, что такое выучивание происходит циклично, в три вполне конкретных этапа: • сначала модель довольно быстро изучает общие закономерности данных, запоминает, какие даты, слова, названия и имена встречаются чаще Но при этом она ещё не формирует связь между, например, человеком и его датой рождения, а просто тыкает "наугад" исходя из статистики текстов • потом, внезапно, наступает долгий этап плато Производительность стабилизируется, то есть кажется, что модель все еще не видит связей Но на самом деле в этом врем
LLM обучают на огромных наборах данных и их задача проста – предсказывать следующий токен
1 апреля 20251 апр 2025
1 мин