31 подписчик

Лидер GPT-4o mini Кевин Лу ушел из OpenAI к Мира Муратти

19 августа 202519 авг 2025

6 мин

OpenAI продолжает выпускать «выпускников»: из компании ушел Кевин Лу — исследователь, стоявший во главе GPT-4o mini и участвовавший в разработке o*-mini и o3. Он присоединился к стартапу Thinking Machines Lab, который основала бывшая CTO OpenAI Мира Муратти. Компания в июле 2025-го привлекла колоссальные 2 млрд долларов раннего финансирования (ведущий инвестор — a16z) при оценке около 12 млрд. Команду уже публично поприветствовали ключевые участники экосистемы. Кевин Лу — один из заметных адептов «малых моделей», усиленного обучения и синтетических данных. До OpenAI он занимался последовательным принятием решений и глубоким обучением в Hudson River Trading и Meta AI (запрещённой в России), а бакалавриат окончил в Калифорнийском университете в Беркли. Его практический фокус — сокращать дистанцию между идеями из статей и реальной пользовательской ценностью. Главная мысль Лу: ИИ упирается не в архитектуры, а в данные — то есть в Интернет В июле Лу опубликовал резонансный текст «The only i

Компания в июле 2025-го привлекла колоссальные 2 млрд долларов раннего финансирования (ведущий инвестор — a16z) при оценке около 12 млрд. Команду уже публично поприветствовали ключевые участники экосистемы.

Кевин Лу — один из заметных адептов «малых моделей», усиленного обучения и синтетических данных. До OpenAI он занимался последовательным принятием решений и глубоким обучением в Hudson River Trading и Meta AI (запрещённой в России), а бакалавриат окончил в Калифорнийском университете в Беркли. Его практический фокус — сокращать дистанцию между идеями из статей и реальной пользовательской ценностью.

Главная мысль Лу: ИИ упирается не в архитектуры, а в данные — то есть в Интернет

В июле Лу опубликовал резонансный текст «The only important technology is the Internet» (ссылка: kevinlu.ai/the-only-important-technology-is-the-internet). Там он формулирует тезис, который для части сообщества звучит почти крамольно: не архитектурные инновации определяют траекторию прогресса ИИ, а доступ к масштабным, разнообразным, близким к реальности данным — и способ, которым мы эти данные «потребляем». Идеальный источник такого материала — Интернет.

По Лу, путь последних лет — это череда «парадигм данных и вычислений». На раннем этапе, когда вычислительные бюджеты были доминирующим ограничением, выигрывали методы, которые лучше масштабирутся с compute.

Затем индустрия сместилась в data-bound режим: при фиксированном бюджете обучения именно широта и богатство данных определяют асимптотическую кривую качества. В такой парадигме «лучший» трансформер не так важен, как умение максимально эффективно «прокачать» модель разнообразным миром.

Отсюда и ревизия культа архитектур. Да, после Transformer появлялись альтернативы — SSM, Mamba и прочие варианты субквадратичного внимания, которые привлекательны на инференсе. Но в пределе, утверждает Лу, все «разумно устроенные» методы стремятся к схожей асимптотике, если их кормить одинаково богатыми данными. Следовательно, искать следующий «волшебный блок» менее выгодно, чем улучшать воронку данных и сами «режимы потребления» данных.

Две доминирующие парадигмы потребления данных: NTP и RL

Лу предлагает смотреть на прогресс ИИ как на освоение все новых способов «есть данные». Исторические вехи он интерпретирует именно так: AlexNet «переформулировал» ImageNet под задачу предсказания следующего элемента; GPT-2 научился предсказывать следующий токен в потоке интернет-текста; нативная мультимодальность (GPT-4o, Gemini 1.5) расширила этот поток на изображения и аудио; ChatGPT через RLHF начал «переваривать» человеческие предпочтения; DeepSeek-R1 — детерминированные проверяемые вознаграждения в узких доменах.

В итоге сегодня доминируют два канала: предсказание следующего токена (NTP) и обучение с подкреплением (RL). Интернет почти идеально сопрягается с NTP: это гигантская, последовательная, структурированная «лента» данных, где HTML, диалоги, коды и multimodal-потоки естественно складываются в последовательности, создавая «естественный курс» обучения. Интернет, по сути, — «дуал» NTP: имея такой источник, исследователь почти неизбежно приходит к парадигме следующего токена.

С RL всё сложнее. Лу задается вопросом: что станет для RL тем же, чем Интернет стал для NTP? Идеальная «дуальная» среда для RL должна обладать теми же свойствами: огромным разнообразием, естественной градацией сложности, устойчивым PMF (продукт–рынок), экономической масштабируемостью. Примеры — игры, торговые симуляции, метрики удержания и вовлеченности — дают локальные успехи, но пока не складываются в «планетарный» источник вознаграждений уровня Интернета.

«Учебники — это хорошо, но Интернет — лучше как асимптотика»

Дискуссия о «качество против количества» данных неизбежно приводит к сравнению учебников и Интернета. Серия Phi («Textbooks Are All You Need») показала впечатляющие результаты в малых моделях, опираясь на отфильтрованные, «педагогически выверенные» данные — но и там фильтрация и синтез опирались на модели, обученные на Интернете (например, GPT-4).

В больших масштабах учебников не хватает по широте мира, стилевому многообразию и мультиязычию; Интернет же — это компрессия реальности, способная дать модели «искру» творчества и широкий контекст.

Резонный вывод Лу: в низкоданных сценариях учебники и специально кураленные корпуса отлично работают; но если цель — предельная, «асимптотическая» производительность и общий интеллект, Интернет остаётся незаменим.

Демократия, разнообразие и… роль «губернаторов Интернета»

Интернет децентрализован: любой может добавить знания. Именно поэтому он охватывает культуры, субкультуры, низкоресурсные языки и маргинальные дискурсы. Эта «энтропия» данных критична для обучения моделей различению добра и зла.

Лу ссылается на результаты, показывающие, что для действительно «выравненных» моделей важно предобучение и на «плохих» данных: без экспозиции к токсичному речь модель хуже понимает, что именно считать токсичным и почему.

Пример с 4chan иллюстрирует парадокс: локально вредные источники глобально повышают способность модели к фильтрации и этической навигации — если их правильно «обрамить» в процессе обучения и дообучения.

Отсюда вытекает политико-продуктовый тезис: решения «интернет-стюардов» — платформ, поисковиков, агрегаторов, модераторов — неизбежно формируют ландшафт будущих AGI. Сужая разнообразие, мы обедняем обучающую энтропию; стирая массивы данных, мы вычеркиваем целые пласты мира из памяти моделей.

Горький урок масштабирования: продукт и исследование должны срастись

Лу напоминает про «bitter lesson»: побеждают методы, которые масштабируются с данными и вычислениями. Чтобы это работало, продуктовая оболочка имеет решающее значение. Люди пользуются Интернетом потому, что он полезен и дешев в доступе — и именно благодаря этому он непрерывно генерирует новые данные.

Если заменить Интернет на «ручные» датасеты, мы встаём в позу демиурга, решающего, какие навыки «нужны» модели. Реальность показывает обратное: востребованные способности порождаются там, где есть живая, экономически устойчивая экосистема данных.

Коротко: Интернет полезен для обучения, потому что он разнообразен, задаёт естественный «курс», имеет продукт–рынок фит и экономически доступен. Этот «простый принцип», доведённый до планетарного масштаба, и дал нам современный ИИ.

Что это значит для Thinking Machines и рынка

Переход Лу к Thinking Machines можно читать как ставку на «данные как стратегическое ядро». Для команды Мира Муратти его опыт в RL, малых моделях и синтетике — это способ строить более «экономичные» пути от теории к продукту: учить модели потреблять Интернет и его производные эффективнее, совмещать NTP с «правильными» циклами RL, где вознаграждения максимально проверяемы, и поднимать потолок малых архитектур за счёт умной диеты данных.

Более широкий вывод для индустрии прост и резок. Если вы исследователь — меньше обольщайтесь «новыми блоками», больше думайте о каналах данных, их качестве, правовом статусе и масштабируемости. Если вы строите продукт — проектируйте его так, чтобы он становился источником и катализатором данных, а не тупиком. Если вы регулятор или платформа — ваши решения о доступе, модерации и архивировании в буквальном смысле переписывают будущие способности ИИ.

Лу формулирует задачу на десятилетие: найти для RL «интернет-уровневый» дуал — среду вознаграждений, столь же разнообразную, доступную и масштабируемую. Пока у нас есть два столпа — NTP и RL — и только один из них опирается на планетарный источник. Когда появится второй, темпы прогресса могут снова резко ускориться.

Хотите создать уникальный и успешный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.

ИИ сегодня — ваше конкурентное преимущество завтра!

Тел. +7 (985) 982-70-55

E-mail sms_systems@inbox.ru

Сайт https://www.smssystems.ru/razrabotka-ai/