31 подписчик

Полугодовой обзор рынка LLM-2025: o3, агенты и замедление scaling

26 июня 202526 июн 2025

3 мин

Введение: «Один день для AI — три года для людей» В первой половине 2025 года индустрия больших языковых моделей (LLM) вступила в новую фазу: темпы появления новых моделей замедлились, а внимание сместилось с простого наращивания масштабов к качественным технологическим прорывам и практическим улучшениям. Об этом в своём аналитическом обзоре пишет Nathan Lambert, исследователь Allen Institute for AI. 1. o3: качественный скачок в поиске и использовании инструментов OpenAI с моделью o3 совершила заметный технологический прорыв. Главное новшество — уникальные поисковые возможности: o3 умеет не просто отвечать на вопросы, а целенаправленно и настойчиво искать нужную информацию, просматривая десятки сайтов, словно «охотничья собака, взявшая след». Это не просто расширение вычислительных мощностей, а результат внедрения RLVR (reinforcement learning with verifiable rewards) — обучения с подкреплением, где модель учится использовать инструменты и искать информацию максимально эффективно. Пока

Введение: «Один день для AI — три года для людей»

В первой половине 2025 года индустрия больших языковых моделей (LLM) вступила в новую фазу: темпы появления новых моделей замедлились, а внимание сместилось с простого наращивания масштабов к качественным технологическим прорывам и практическим улучшениям. Об этом в своём аналитическом обзоре пишет Nathan Lambert, исследователь Allen Institute for AI.

1. o3: качественный скачок в поиске и использовании инструментов

OpenAI с моделью o3 совершила заметный технологический прорыв. Главное новшество — уникальные поисковые возможности: o3 умеет не просто отвечать на вопросы, а целенаправленно и настойчиво искать нужную информацию, просматривая десятки сайтов, словно «охотничья собака, взявшая след».

Это не просто расширение вычислительных мощностей, а результат внедрения RLVR (reinforcement learning with verifiable rewards) — обучения с подкреплением, где модель учится использовать инструменты и искать информацию максимально эффективно.

Пока ни одна другая лаборатория не представила сопоставимую по качеству модель поиска. Если до конца лета ситуация не изменится, это подтвердит технологическое лидерство OpenAI в области интеграции поиска и инструментов в LLM.

Для открытого и академического сообщества ключевой вызов — как создать аналогичную систему, где модель действительно мотивирована искать информацию, а не просто имитировать поиск. Важно не только качество RL-данных, но и доступ к надёжным поисковым индексам (например, Bing для OpenAI, Brave для Anthropic).

2. Агентные системы: надёжность и практическая польза

В 2025 году на первый план вышли LLM-агенты — системы, которые могут выполнять сложные задачи, многократно обращаясь к модели и используя разные инструменты. Пример — Claude Code (Anthropic), который стал эталоном стабильности и удобства для пользователей.

Главная тенденция: теперь улучшения достигаются не за счёт гигантских новых моделей, а за счёт доработки и «донастройки» уже существующих систем на реальных пользовательских сценариях. Если агент регулярно ошибается в каком-то подзадаче, лаборатории быстро собирают новые данные, переобучают модель — и надёжность резко растёт. Это позволяет быстро доводить отдельные функции до 99% стабильности.

В результате, даже без скачка в бенчмарках, агенты становятся всё более полезными в реальных задачах. Ожидается, что такие системы будут и дальше быстро эволюционировать, а их практическая ценность — расти.

3. Scaling law: замедление роста и новые стандарты

2025 год стал годом замедления масштабирования моделей. Лидеры рынка (OpenAI, Anthropic, Google) больше не увеличивают параметры LLM столь агрессивно, как раньше. Например, Claude 4 по размеру может быть даже меньше, чем Claude 3.5, а GPT-4.5 — лишь исследовательский превью. Gemini Ultra от Google пока не вышел в массовый доступ.

Причина — повышение эффективности обучения и оптимизация архитектур. Теперь индустрия предлагает целую линейку моделей разного размера и назначения:

микромодели (Gemini Flash Lite, GPT-4.1 Nano)
малые модели (Gemini Flash, Claude Haiku)
стандартные (GPT-4o, Gemini Pro)
большие (Claude Opus, Gemini Ultra)

Это позволяет гибко выбирать баланс между ценой, скоростью и качеством.

Крупные лаборатории теперь делают ставку не на «размер ради размера», а на оптимизацию, снижение стоимости и повышение скорости вывода. Новые масштабные скачки (scaling) возможны, но, вероятно, будут происходить раз в несколько лет — и только если коммерциализация ИИ будет идти успешно.

4. Прогнозы и выводы

Технологический фокус смещается: от экстенсивного роста к качественным улучшениям, интеграции инструментов и надёжности агентов.
Рынок стандартизируется: появляются чёткие классы моделей по размеру и назначению, что облегчает выбор для бизнеса и разработчиков.
Scaling больше не главное: эффективность и практическая польза важнее простого увеличения параметров.
Открытые вызовы: академическому сообществу предстоит догнать лидеров по качеству поиска и интеграции инструментов.

Главный итог:
2025 год — это время, когда индустрия LLM переходит от гонки масштабов к гонке качества, надёжности и реальной пользы для пользователя. Настоящие прорывы теперь происходят не только в лабораториях, но и в том, как модели и агенты решают реальные задачи.

Хотите создать уникальный и успешный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.

ИИ сегодня — ваше конкурентное преимущество завтра!

Тел. +7 (985) 982-70-55

E-mail sms_systems@inbox.ru

Сайт https://www.smssystems.ru/razrabotka-ai/