OpenAI выпустила передовые языковые модели серии o1. ИИ обучен пошагово решать сложные задачи и не требует длинных инструкций. Рассказываем обо всех возможностях таких нейросетей.
Прорыв в заданиях высокого уровня
В линейке представлены старший вариант (o1-preview) и более лёгкая версия (o1-mini). В них внедрили новый механизм действия Chain of Thought. Он предусматривает разбивку вопроса на несколько подзадач. Пошаговое решение занимает до нескольких минут и требует много ресурсов. Но результаты того стоят: o1 в разы превосходит GPT-4o в сценариях соревновательного программирования, олимпиадных задачах по математике и научных запросах уровня PhD (78-89% правильных решений против 11-56%). По части кодинга модель близка к золотым медалистам международных конкурсов.
Такая точность достигается путём анализа и автокорректировки каждого этапа. Текст «размышлений» при этом не выводится, даются лишь краткая его выжимка и сам ответ. Впрочем, новинки не позиционируют в качестве альтернативы GPT-4o (последняя лучше подходит для повседневных поручений и взаимодействия со множеством языков). Тогда как o1 направлена на ресурсоёмкие и комплексные процессы. Модели на сайте ассистента доступны подписчикам тарифов Plus и Team. Число запросов в неделю: 30 для o1-preview и 50 для o1-mini. Через API пользователи пятого уровня могут отправлять до 20 промптов в минуту. Однако цены за каждый миллион токенов кусаются:
- o1-preview: вход — $15, выход — $60;
- o1-mini: вход — $3, выход — $12.
В ближайшие недели доступ к mini-версии нейронки откроют всем пользователям бесплатной вариации ChatGPT.
Тесты и рекомендации по применению
Согласно официальным советам OpenAI, инструкции для o1 должны быть короткими и прямолинейными, ведь для хороших результатов длинные объяснения не нужны. Стоит вносить разделители вроде тройных кавычек, XML-тегов и заголовков разделов — наличие структуры ускорит распознавание. Классический промпт-инженеринг больше не пригодится. Методы цепочки рассуждений уже встроены в модель. Поскольку выдача занимает больше минуты, разумно делать упор на высокоуровневые задачи (исследования, кодинг, математика), а простые вопросы предоставить GPT-4o — с ними она справится даже лучше.
При загрузке документов рекомендуют избавляться от ненужного контекста: если из десяти страниц релевантна только одна, остальные могут негативно сказаться на работе системы. В продуктовых бенчмарках, оценивающих эффективность ИИ в сценариях для бизнеса, o1 заняла первое место. Значительный прирост заметен, например, в создании маркетинговых стратегий. Примечательно, что публике сейчас доступна только preview-версия ИИ. Внутри OpenAI уже тестируют полноценную o1, которая будет ещё умнее.