80 подписчиков

Phi-4: Почему меньше — это иногда лучше в мире AI

18 ноября 202518 ноя 2025

4 мин

Знаете, что интересно? Все эти годы инженеры AI гонялись за одним — побольше параметров, побольше данных. А вот Microsoft пошла совсем другим путём и показала: иногда размер — вообще не про то. Представляете себе 14 миллиардов параметров, которые работают лучше, чем модели в 70 или даже 671 миллиард параметров? Phi-4 — это не просто модель, это целый учебник для других команд. И что самое крутое — Microsoft буквально поделилась пошаговым руководством, как это повторить. Вместо того чтобы скидывать в обучение миллионы и миллионы примеров подряд, команда Phi-4 сделала кое-что умное. Они собрали всего 1.4 миллиона пар «вопрос-ответ», но не какие-нибудь, а очень специально отобранные. Представьте себе студента: ему не нужно решать совсем простые задачи, которые он уже знает. Но и олимпиадные задачи по абстрактной топологии — это тоже не поможет. А вот задачи на грани его возможностей — вот это учит. Точно так же Microsoft выбирала примеры: ни слишком лёгкие, ни невозможные, а прямо на краю

Оглавление

Когда размер не главное: история Phi-4
В чём секрет: 1.4 миллиона правильно выбранных примеров
Как они это делали: скучная, но волшебная фильтрация

Когда размер не главное: история Phi-4

Phi-4 — это не просто модель, это целый учебник для других команд. И что самое крутое — Microsoft буквально поделилась пошаговым руководством, как это повторить.

В чём секрет: 1.4 миллиона правильно выбранных примеров

Вместо того чтобы скидывать в обучение миллионы и миллионы примеров подряд, команда Phi-4 сделала кое-что умное. Они собрали всего 1.4 миллиона пар «вопрос-ответ», но не какие-нибудь, а очень специально отобранные.

Представьте себе студента: ему не нужно решать совсем простые задачи, которые он уже знает. Но и олимпиадные задачи по абстрактной топологии — это тоже не поможет. А вот задачи на грани его возможностей — вот это учит. Точно так же Microsoft выбирала примеры: ни слишком лёгкие, ни невозможные, а прямо на краю того, что модель может осилить.

Практический результат: на экзаменах типа AIME 2024 (это олимпиада по математике) Phi-4 набрала 75.3%, а OpenAI’s o1-mini — только 63.6%. На AIME 2025 было 62.9% против 51.5% у DeepSeek-R1-Distill. Вот это да.

Как они это делали: скучная, но волшебная фильтрация

Здесь всё просто, как в жизни. Берёшь сильную модель (скажем, GPT-4), даёшь ей задачу и смотришь: если более слабая модель часто с ней не согласна — значит, это стоящий пример. Если слабая модель уже всё знает или вообще не может решить — выбрасываешь пример в мусор.

И вот в этой простой схеме — весь фокус. Не нужна никакая магия, просто думаешь головой. Например, простенькую арифметику убирали (слишком легко), совсем неизвестные теоремы тоже убирали (слишком сложно). Но вот геометрическая задача средней сложности, в которой модель постоянно ошибается — вот её оставляли.

Домены отдельно: когда модульность спасает

Вот ещё прикол — они не смешивали всё в кучу с самого начала. Сначала отдельно работали с математическими задачами, доводили их до ума. Потом отдельно с программированием. А потом просто… объединили. И оказалось, что это работает!

Почему это круто? Потому что маленькая команда может сначала разобраться с одной областью, получить результат, а потом добавить вторую — без переделок первой. Экономия времени и сил, короче.

Правда, сами авторы предупреждают: масштабируется ли это на десятки или сотни доменов — вопрос открытый. Пока знают, что работает на двух областях, но больше пока не пробовали.

Синтетические данные: превращаем сложное в проверяемое

Есть одна беда: как автоматически проверить, правильно ли модель доказала теорему? Сложновато. Тогда команда сделала умный ход — переписала часть задач в более простую форму, которую легко проверить.

Геометрическую задачу, скажем, переделали: вместо доказательства «докажите, что это равнобедренный треугольник» сделали «найдите сторону AC, если AB=13 и BC=10». Вуаля — теперь ответ просто число, которое легко проверить.

Это не подделка, это инженерный трюк. Ты сохраняешь суть задачи, но делаешь её проверяемой для алгоритма.

Как внедрить это в своей компании: пошаговая инструкция

Окей, всё это звучит классно, но как это реально использовать, если ты работаешь в обычной компании?

Первый шаг: найти «край» способностей своей модели. Запусти несколько вариантов ответов на один вопрос и посмотри, где модель часто ошибается. Вот это и есть место для обучения.

Второй шаг: выбрать одну область. Математика, код, юридические документы — что угодно, но только одно. Собрать тысячу-другую примеров именно из этой области.

Третий шаг: фильтровать как параноик. Используй сильную модель, чтобы проверить каждый пример. Оставь только то, что модель не может сразу решить, но и не совсем безнадёжно.

Четвёртый шаг: довольно короткий цикл экспериментов. Не жди месяцами. Несколько недель — и уже видно, работает или нет. Потом добавишь синтетических примеров, если нужно.

Пятый шаг: когда первая область в порядке, добавляй вторую. Точно так же, отдельно.

Шестой шаг: объедини и запусти финальный, более долгий тренинг. Но ты уже знаешь, что схема работает.

Чек-лист для немедленного применения

Выбрать целевую область (одна штука, не разбежишься);
Собрать небольшой набор данных — несколько тысяч примеров;
Пропустить всё через фильтр «край способностей»;
Короткий финтюнинг, отслеживание метрик;
Добавить синтетические примеры, если что-то сложно проверяется;
Перейти на вторую область;
Объединить и масштабировать только когда уверен.

Ограничения: чтобы ты не потом удивлялся

Но погодь, не всё так просто. Во-первых, масштабирование на много доменов — это вопрос, на который нет ответа. Во-вторых, если ты будешь полагаться только на синтетические данные, потеряешь разнообразие. В-третьих, это всё равно требует тщательной работы с данными, никаких волшебных таблеток.

Но даже с этими ограничениями — это просто революция в подходе. Ты больше не зависишь от того, насколько мощный сервер у тебя в наличии.

Главный вывод

Phi-4 показывает одно простое и гениальное правило: умные данные важнее, чем просто больших данных. Ты не можешь потягаться с Google на железе? Пожалуйста, побей их на качестве подготовки. Команда из 5-10 человек с хорошей стратегией может создать модель, которая переспорит монстры с миллиардами параметров. Это не просто результат — это надежда для всех, кто не располагает ресурсами OpenAI.

Интересуешься AI и хочешь не отставать от новостей в этом бешеном мире? Тут появляются исследования, экспертные мнения и реальные примеры применения — всё, чтобы не потеряться в потоке информации.🔔 Следи за новостями о методах обучения моделей, практических инструментах для AI и стратегиях, которые работают — подпишись на «ProAI» в Telegram!