OpenAI пополнила линейку рассуждающих ИИ, представив o3 и o4-mini. Их научили применять все доступные в ChatGPT инструменты, а по бенчмаркам новинки лидируют. Оцениваем возможности нейронок, а также их плюсы и минусы в реальных сценариях. Главное новшество — поддержка в моделях о-семейства всех агентных функций сайта, включая поиск в сети, распознавание изображений, исполнение Python-кода и память о чатах. Раньше всё это умела только GPT-4o, но теперь решения встроены и в механизм рассуждений. Его принцип остался неизменен: больше времени и ресурсов выделяют на продумывание ответа, что теоретически даёт прирост в сложных задачах. Флагманская o3 опередила Gemini 2.5 Pro по многим метрикам (кодинг, математика, визуальные задания, наука). Например, в Aider Bench, оценивающем качество кода, o3-high демонстрирует 81,3% точности против 72,9% у варианта Google. Миниатюрная o4-mini ориентирована на эффективность и выдаёт отличные результаты для своих размеров. В указанном тесте она набирает 68
Анализ картинок и передовая мощь. Что умеют модели o3 и o4-mini от OpenAI?
18 апреля 202518 апр 2025
57
2 мин