150 подписчиков

Модели машинного обучения: как они устроены и где применять

8 июня8 июн

4 мин

Клиент приходит с запросом: «хотим внедрить ИИ». Спрашиваю — что именно? Молчание. Потом: «ну, чтобы само работало». За несколько лет такой диалог повторялся столько раз, что я решил написать нормальный разбор. Что такое модели машинного обучения, как они устроены и где конкретно приносят пользу. Модель в контексте машинного обучения — математическая функция, которая принимает входные данные и возвращает ответ. Фотография на вход — «кошка» на выходе. Текст запроса — рекомендованный товар. История транзакций — оценка вероятности мошенничества. Внутри у неё параметры — числа, которые настраиваются в процессе обучения. Обучение выглядит так: алгоритм смотрит на пары «входные данные → правильный ответ», сравнивает свой ответ с правильным, вычисляет ошибку и чуть корректирует параметры. Потом повторяет это миллионы раз, пока ошибка перестаёт снижаться. Именно поэтому говорят «обучение на данных» — модель буквально учится на примерах, как ребёнок учится распознавать буквы по прописям. Сущест

Оглавление

Что стоит за словом «модель»
Основные классы моделей и чем они отличаются
Как выбрать модель под задачу

Что стоит за словом «модель»

Модель в контексте машинного обучения — математическая функция, которая принимает входные данные и возвращает ответ. Фотография на вход — «кошка» на выходе. Текст запроса — рекомендованный товар. История транзакций — оценка вероятности мошенничества.

Внутри у неё параметры — числа, которые настраиваются в процессе обучения. Обучение выглядит так: алгоритм смотрит на пары «входные данные → правильный ответ», сравнивает свой ответ с правильным, вычисляет ошибку и чуть корректирует параметры. Потом повторяет это миллионы раз, пока ошибка перестаёт снижаться.

Именно поэтому говорят «обучение на данных» — модель буквально учится на примерах, как ребёнок учится распознавать буквы по прописям.

Основные классы моделей и чем они отличаются

Существует несколько принципиально разных семейств, и каждое подходит для своего круга задач.

Линейные модели — самые простые и самые понятные. Линейная регрессия предсказывает число (цена квартиры, выручка за квартал), логистическая — вероятность события (уйдёт клиент или останется). Их параметры легко интерпретировать, а обучение занимает секунды. Хорошо работают там, где зависимость между признаками и ответом близка к прямой.

Деревья решений и ансамбли. Дерево разбивает данные по правилам: «если возраст выше 30 и сумма покупки выше 5000, то вероятность повторного заказа 78%». Одно дерево нестабильно — чуть меняются данные, и структура меняется кардинально. Поэтому используют ансамбли из сотен деревьев: случайный лес (Random Forest) или градиентный бустинг (XGBoost, LightGBM, CatBoost). Градиентный бустинг выигрывает большинство соревнований на табличных данных — финансовые скоринги, маркетинговые атрибуции, предсказание оттока.

Нейронные сети — вдохновлены структурой мозга, хотя сходство поверхностное. Нейросеть — слоёная архитектура, где каждый слой преобразует данные всё более абстрактно. На нижних слоях сеть видит пиксели, на верхних — «глаз» или «ухо». Именно нейросети стоят за GPT-4, Midjourney, голосовыми ассистентами. Они требуют больших объёмов данных и значительной вычислительной мощности, зато берутся за задачи, где линейные методы и деревья пасуют.

Рекомендательные системы технически используют разные алгоритмы — матричное разложение, нейросетевые эмбеддинги, графовые модели. Их выделяют отдельно, потому что задача особая: угадать, что понравится конкретному пользователю, опираясь на поведение похожих. За этим стоит YouTube, Spotify, маркетплейсы.

Подробнее о том, как устроены разные архитектуры и чем они отличаются по задачам, можно почитать в разборе про модели машинного обучения на нашем сайте.

Как выбрать модель под задачу

Главный вопрос — какой тип данных и какой тип ответа нужен.

Если данные табличные и ответ — число или класс, начинайте с градиентного бустинга. Он даст хороший результат с минимальными усилиями по настройке. Если данные — текст, речь или изображения, понадобится специализированная архитектура или готовая предобученная модель (трансформер, CLIP, Whisper).

Есть ещё один принцип, который я называю «принципом достаточности». Клиенты часто хотят GPT, когда задачу решает логистическая регрессия. GPT дороже, медленнее, труднее объясним регулятору и сложнее в поддержке. Если задача формулируется как «определить, уйдёт ли клиент», и данных достаточно — 200-строчная модель на CatBoost покроет потребность лучше, чем многомиллиардный языковой трансформер.

Типичные ошибки при внедрении

За годы консалтинга Зинин × Штурбин я видел одни и те же грабли.

Мало данных. Модель обучается на примерах. Если примеров сотня, а классов — двадцать, результат будет случайным. Минимальный ориентир для классификации — несколько тысяч записей на класс. До этого порога статистические эвристики часто работают надёжнее.

Утечка целевой переменной. Вы строите модель предсказания оттока, и случайно включаете в признаки данные, которые появляются уже после ухода клиента. Модель получает великолепные метрики на обучающей выборке и провальные — на реальных данных. Это классика.

Метрика оторвана от бизнеса. Accuracy 95% звучит отлично. Но если 5% ошибок — это пропущенные мошеннические транзакции на миллионы рублей, то метрика вводит в заблуждение. Всегда нужно договариваться: что именно считаем успехом, в деньгах или в бизнес-результате.

Модель осталась в ноутбуке. Это самая распространённая история. Jupyter-ноутбук с точностью 91% лежит у специалиста по данным, а бизнес продолжает ручную рутину. Ценность появляется только тогда, когда модель встроена в реальный процесс — в CRM, в очередь задач, в интерфейс оператора.

Практика: с чего начать

Мой стандартный совет командам, которые впервые идут в машинное обучение: выберите одну задачу с измеримым результатом и соберите данные за последние два года. Это первый шаг, без которого всё остальное — планирование на воздух.

Потом — быстрый прототип на простой модели. Посмотреть, работает ли вообще гипотеза. Градиентный бустинг на чистых данных даёт ответ за день. Гипотеза подтвердилась — масштабируем и усложняем. Провалилась — разворачиваемся раньше, чем потратили полгода.

Именно такой подход я применяю в проектах: сначала проверить, потом строить. Это экономит время и деньги — и на стороне клиента, и на нашей.

Хотите разобрать вашу задачу и понять, какой класс моделей подойдёт — пишите в Telegram @timzinin, и я отвечу в течение дня, или бронируйте 30 минут на calendly.com/timzinin/30min.

Гаджеты и электроника

5,73 млн интересуются