7 подписчиков

Train and validation splits - Разделение на обучающую и валидационную выборки

Разделение данных на 80% (обучение) и 20% (валидация) делается для того, чтобы модель научилась понимать правила языка, а не просто «зазубрила» текст.

Вот основные причины, объясненные простыми словами:

1. Борьба с «зубрежкой» (Overfitting)

Если скормить модели весь текст целиком, она со временем просто запомнит его наизусть.

Проблема

Вместо того чтобы сочинять что-то новое в стиле Шекспира, она будет дословно цитировать «Гамлета». Она превратится в обычную базу данных, а не в искусственный интеллект.

Решение

Мы даем ей только 80%. На оставшихся 20% мы проверяем, понимает ли она структуру предложений или просто повторяет то, что видела?

2. Цель — Генерация, а не Копирование

задача LLM — создавать текст, который похож на оригинал (Shakespeare-like), но не является его точной копией.

Разделение (split) заставляет модель искать закономерности (как строятся слова, какие буквы чаще идут друг за другом), а не запоминать конкретные фразы.

3. Проверка на «адекватность» (Validation)

20% данных (валидация) служат «экзаменом».

Во время обучения мы периодически показываем модели эти скрытые 20%. Если на тренировочных данных ошибка падает, а на валидационных растет — значит, модель начала «зубрить». Это сигнал разработчику, что пора остановиться.

Простая аналогия

Если школьник перед экзаменом выучит ответы ко всем возможным билетам, он получит «пятерку», но физику знать не будет. Чтобы проверить его реальные знания, ему нужно дать задачу, которую он еще не видел, но которая похожа на те, что были в учебнике.

1 минута

25 апреля