150 подписчиков

Как ИИ обучается: от сырых данных до работающей модели

8 июня8 июн

4 мин

Несколько месяцев назад коллега показал мне таблицу: 40 000 строк, где каждая — это описание товара и вручную проставленная категория. Он потратил на разметку три месяца. Потом мы скормили эту таблицу языковой модели, дообучили её за выходные — и точность классификации вышла выше, чем у человека, проставившего метки. Коллега смотрел на экран молча. Вот с чего начинается разговор о природе ИИ: с данных, которые уже есть, и с задачи, которую люди решают вручную. Машинное обучение — это семейство методов, где компьютер строит правила сам, по примерам, вместо того чтобы программист прописывал их вручную. Классическая схема выглядит так. Берём обучающую выборку — пары «вход → правильный ответ». Модель делает предсказание, сравнивает его с правильным, считает ошибку и чуть-чуть корректирует свои внутренние параметры. Это повторяется миллионы раз. В итоге параметры складываются в такую конфигурацию, при которой ошибка минимальна. Нейросеть — один из видов таких моделей. Она состоит из слоёв «

Оглавление

Что происходит внутри модели
Три главные задачи, которые решает ИИ
Классификация

Вот с чего начинается разговор о природе ИИ: с данных, которые уже есть, и с задачи, которую люди решают вручную.

Что происходит внутри модели

Машинное обучение — это семейство методов, где компьютер строит правила сам, по примерам, вместо того чтобы программист прописывал их вручную.

Классическая схема выглядит так. Берём обучающую выборку — пары «вход → правильный ответ». Модель делает предсказание, сравнивает его с правильным, считает ошибку и чуть-чуть корректирует свои внутренние параметры. Это повторяется миллионы раз. В итоге параметры складываются в такую конфигурацию, при которой ошибка минимальна.

Нейросеть — один из видов таких моделей. Она состоит из слоёв «нейронов» — математических функций, которые принимают числа и возвращают числа. Каждый слой находит в данных всё более абстрактные закономерности: первый слой видит пиксели, второй — края, третий — формы, четвёртый — объекты. Именно поэтому глубокие сети (deep learning) так хорошо работают с изображениями и текстом.

Три главные задачи, которые решает ИИ

Большинство практических применений укладывается в три категории.

Классификация

Модель относит объект к одному из заранее заданных классов. Спам или письмо от коллеги. Опухоль или здоровая ткань на снимке. Положительный или отрицательный отзыв.

Регрессия

Модель предсказывает число. Цена квартиры по параметрам. Количество заказов завтра. Вероятность оттока клиента.

Генерация

Модель создаёт новый объект: текст, изображение, код, звук. Именно сюда относятся большие языковые модели — GPT, Claude, Llama и их родственники. Они обучены предсказывать следующий токен в последовательности, и из этого простого правила вырастает способность отвечать на вопросы, переводить, писать программы.

Почему данные важнее архитектуры

Среди инженеров бытует поговорка: «garbage in, garbage out». Если обучающая выборка содержит ошибки, смещения или просто мало примеров — модель выучит именно это.

Хорошая архитектура с плохими данными проиграет простой модели с хорошими данными.

Это значит: прежде чем думать о выборе модели, стоит разобраться с качеством данных. Убрать дубликаты. Проверить баланс классов. Понять, как собирались метки и кто их проставлял.

Подробный разбор того, как всё это связано и какие подходы работают на практике, собран здесь: искусственный интеллект и машинное обучение — там же разобраны типичные ошибки при внедрении.

Типичные ошибки при внедрении ИИ

Первая и самая распространённая — запуск «пилота» без определения метрики успеха. Команда берёт модель, обучает её, смотрит на accuracy — 92%. Кажется, хорошо. Потом выясняется, что 95% данных принадлежат одному классу, и модель просто научилась всегда угадывать его. Метрика обманула.

Вторая ошибка — переобучение (overfitting). Модель идеально работает на тренировочном наборе и рассыпается на реальных данных. Происходит это, когда модель выучила конкретные примеры, а общее правило от неё ускользнуло. Лечится: регуляризация, аугментация данных, более простая архитектура.

Третья — игнорирование дрейфа данных. Мир меняется. Поведение пользователей меняется. Модель, обученная год назад, деградирует молча — пока кто-нибудь наконец замерит качество на свежих данных.

С чего начинать, если задача уже есть

Мой подход — от задачи к данным, от данных к выбору инструмента.

Сначала формулируем задачу в измеримых терминах: что считаем победой, какую метрику оптимизируем, что приемлемо как минимум. Потом смотрим на данные: сколько примеров, насколько они чистые, есть ли разметка.

Часто выясняется, что задача решается готовой моделью через API — без собственного обучения. Claude, GPT-4, Gemini хорошо справляются с классификацией, суммаризацией, извлечением структуры из текста прямо «из коробки». Дообучение нужно, когда есть специфическая терминология, нестандартный формат данных или требования к конфиденциальности.

Если всё же нужно обучать с нуля — выбираем минимально достаточную архитектуру. Gradient boosting на табличных данных часто превосходит нейросети. Трансформер нужен там, где важна последовательность и контекст.

Что меняется, когда ИИ встроен в рабочий процесс

Самое интересное начинается после того, как модель выпущена в работу. Люди начинают иначе работать с результатами: доверяют системе там, где раньше думали сами, и перепроверяют там, где система стабильно ошибается.

Это требует дизайна интерфейса с учётом ошибок модели: показывать уверенность предсказания, давать возможность быстро исправить, логировать исправления для следующей итерации обучения. Система, которая учится на своих ошибках в рабочем контуре, со временем становится лучше без дополнительных усилий команды.

Именно так выглядит разумное внедрение ИИ — без магии, без хайпа, просто итерация за итерацией.

Если хотите разобрать конкретную задачу из вашего бизнеса — напишите мне в Telegram @timzinin или забронируйте 30 минут на calendly.com/timzinin/30min.

Гаджеты и электроника

5,73 млн интересуются