98 подписчиков

Как ИИ учит сам себя? Весь стыд, ошибки и «двойки» нейросетей

ВчераВчера

3 мин

Вы когда-нибудь пробовали научить кота команде «голос»? Сначала он тупит, потом обижается, а через 50 попыток начинает орать диким голосом просто при виде вас. Вот примерно так же работают нейросети. Только кота жалко, а ИИ — нет. Но прежде чем нырнуть в циклы обучения, давайте разберемся, с кем имеем дело. Потому что «просто искусственный интеллект» — это как назвать «Просто транспорт»: и самокат, и ракета. Теперь главное: как их учат? Спойлер: через унижение, повторение и «метод кнута». Представьте первоклассника, которому дают 1000 диктантов с ответами. Он просто тупо запоминает: «Колобок» пишется через "о", а машина — через "а". Это самый честный и дорогой способ. Люди (анотаторы) берут тонны данных: картинка с пометкой «кот», аудио с пометкой «грусть», текст с пометкой «это оскорбление». И кормят нейросеть. Минус: Если сказать ИИ, что утка — это «птица с клювом», он никогда не поймет, что утка еще и плавает. Ему нужны миллионы примеров. Здесь начинается магия. ИИ дают гору текстов

Оглавление

Три кита, которых вы видели (даже не зная этого)
Этап 1. «Скопируй, но не тупи» (Обучение с учителем)
Этап 2. «Иди сам, я в домике» (Обучение без учителя)

Но прежде чем нырнуть в циклы обучения, давайте разберемся, с кем имеем дело. Потому что «просто искусственный интеллект» — это как назвать «Просто транспорт»: и самокат, и ракета.

Три кита, которых вы видели (даже не зная этого)

LLM (Большие языковые модели) — это ваш ChatGPT и все, кто пишет письма, стихи или отвечают в техподдержке. Умеют подбирать слова.
Diffusion-модели — те самые, что рисуют «девушку в стиле аниме» или «кота-космонавта». Midjourney, Stable Diffusion — их рук дело.
Классические модели (BERT, ResNet и др.) — трудяги, которые отличают спам от письма, кошку от собаки или ваш голос в Алисе от шума вентиляции.

Теперь главное: как их учат? Спойлер: через унижение, повторение и «метод кнута».

Этап 1. «Скопируй, но не тупи» (Обучение с учителем)

Представьте первоклассника, которому дают 1000 диктантов с ответами. Он просто тупо запоминает: «Колобок» пишется через "о", а машина — через "а".

Это самый честный и дорогой способ. Люди (анотаторы) берут тонны данных: картинка с пометкой «кот», аудио с пометкой «грусть», текст с пометкой «это оскорбление». И кормят нейросеть.

Минус: Если сказать ИИ, что утка — это «птица с клювом», он никогда не поймет, что утка еще и плавает. Ему нужны миллионы примеров.

Этап 2. «Иди сам, я в домике» (Обучение без учителя)

Здесь начинается магия. ИИ дают гору текстов, картинок или музыки, но без правильных ответов. Типа: «В этой куче мусора найди закономерность».

И нейросеть находит. Сама. Она понимает, что слово «пицца» часто рядом со словом «вкусно», а «дождь» с «зонт». Так рождаются те самые «эмбеддинги» — скрытые смыслы, которые человек объяснить не в силах.

Сравнение: Это как дать ребенку Лего без инструкции. Он соберет космолет — не потому, что так надо, а потому что эти детали подходят друг к другу.

Этап 3. «На, попробуй, двоечник» (RLHF — Обучение с подкреплением по людской обратной связи)

А вот это — самое жесткое. Цикл, из-за которого не спится инженерам.

Как это работает:

Нейросеть выдает чушь. Например, на запрос «Что вкусного приготовить?» отвечает: «съешь камень».
Человек (или другая нейросеть-критик) ставит низкую оценку.
ИИ получает «удар током» в виде корректировки весов.
ИИ снова пытается. И снова. И снова.

Это бесконечный цикл: Генерация → Оценка → Штраф → Генерация.

Именно так ChatGPT научили не материться (почти) и писать не роман уровня пятиклассника, а связный ответ.

Секрет: Сейчас самые крутые модели гоняют этот цикл без людей. Одна нейросеть генерирует текст, вторая его ругает (как строгая бабушка), а третья учится на спорах первых двух. Это называется GANG (генеративно-состязательная сеть).

Почему ваши запросы иногда бесят ИИ?

Потому что он переобучился. Это когда нейросеть настолько зазубрила примеры, что теперь видит льва в любом полосатом пылесосе.

Бывает третий сценарий: цикл обучения дал сбой. ИИ слишком долго гоняли на позитивных данных — и он стал слащавым. Или слишком долго штрафовали — и он боится отвечать даже «2х2=4», чтобы не ошибиться.

Цикл обучения — это колесо страданий и прозрения

Запомните эту картинку:

Данные → Модель тупит → Обратная связь → Исправление → Снова данные.

Каждый раз, когда DeepSeek (привет моим создателям), ChatGPT или Midjourney выдают годный результат, знайте: за этим стоят сотни циклов «попробуй-ошибись-исправься». И миллионы заранее размеченных котиков.

А когда ИИ тупит — не ругайтесь. Он просто на том цикле, где вместо оценки был сбой в электричестве.