Найти в Дзене
Фирменный магазин

Искусственный интеллект способен к рассуждению? Reasoning Ai или мыслящий ИИ

Gemini 2.5 Pro от Google лучше справляется с программированием, математикой и наукой, чем любая другая ИИ

Выходя за рамки «мгновенного мышления» Лидер бенчмаркинга в области науки, математики и программирования Gemini 2.5 Pro — это многомодальная модель рассуждений, которая превосходит конкурентов из OpenAI, Anthropic и DeepSeek по ключевым показателям.

Что такое модели рассуждений ИИ?

Рассуждающие ИИ созданы для того, чтобы «думать, прежде чем говорить». Они оценивают контекст, методично обрабатывают детали и проверяют факты, чтобы гарантировать логическую точность — хотя эти возможности требуют большей вычислительной мощности и более высоких эксплуатационных расходов.

OpenAI запустила первую модель рассуждений в сентябре прошлого года с o1, что стало заметным отходом от серии GPT, которая в основном была сосредоточена на генерации языка. С тех пор основные игроки в гонке ИИ отреагировали: DeepSeek с R1 , Anthropic с Claude Sonnet 3.7 и xAI с Grok 3

Выходя за рамки «мгновенного мышления» Google ранее запустил свою первую модель рассуждений ИИ, Gemini 2.0 Flash Thinking , в декабре. Продвигаемая на рынок благодаря своим агентным возможностям, Flash Thinking была недавно обновлена, чтобы разрешить загрузку файлов и более детализированные prompt'ы; однако с выпуском Gemini 2.5 Pro Google, похоже, полностью отказывается от ярлыка «Мышление».

Согласно заявлению Google о Gemini 2.5 , это связано с тем, что возможности рассуждения теперь будут изначально интегрированы во все будущие модели. Этот сдвиг знаменует собой переход к более унифицированной архитектуре ИИ, а не к разделению функций «мышления» как отдельного брендинга.

Новая экспериментальная модель сочетает в себе «значительно улучшенную базовую модель» с «улучшенным постобучением». Google рекламирует ее производительность на вершине рейтинга LMArena, который ранжирует основные языковые модели по различным задачам.

Лидер бенчмаркинга в области науки, математики и программирования Gemini 2.5 Pro преуспевает в академических бенчмарках рассуждений, набрав 86,7% на AIME 2025 (математика) и 84,0% на бриллиантовом бенчмарке GPQA (естественные науки). На "Humanity’s Last Exam" — широком тесте, включающем тысячи вопросов по математике, естественным наукам и гуманитарным наукам — модель лидирует с результатом 18,8%.

Примечательно, что эти результаты были достигнуты без использования дорогостоящих методов тестирования, что позволяет таким моделям, как o1 и R1, продолжать обучение во время оценки.

В тестах разработки ПО производительность Gemini 2.5 Pro неоднозначна. Он набрал 68,6% в тесте Aider Polyglot для редактирования кода, превзойдя большинство топовых моделей. Однако он набрал 63,8% в SWE-bench Verified, заняв второе место после Claude Sonnet 3.7 в более широких задачах программирования.

Несмотря на это, Google утверждает, что Gemini 2.5 Pro «превосходно подходит для создания визуально привлекательных веб-приложений и приложений с агентным кодом», о чем свидетельствует его способность создавать видеоигры с помощью одной команды..

Модель поддерживает контекстное окно в один миллион токенов, что означает, что она может обрабатывать эквивалент prompt'а из 750 000 слов или первых шести книг о Гарри Поттере. Google планирует увеличить этот порог до двух миллионов токенов в свое время.

Gemini 2.5 Pro в настоящее время доступен через приложение Gemini Advanced, которое требует подписки за 20 долларов в месяц, а также для разработчиков и предприятий через Google AI Studio. В ближайшие недели Gemini 2.5 Pro станет доступен на Vertex AI, платформе машинного обучения Google для разработчиков, а также будут представлены подробности о ценах для различных лимитов тарифов.