На днях исследовательская организация Epoch AI представила новый тест для искусственного интеллекта под названием FrontierMath. Математический тест вызвал небывалый ажиотаж в научном сообществе, так как содержит сотни задач высочайшего уровня сложности, которые ведущие ИИ-модели смогли решить менее чем в 2% случаев, по данным Epoch AI. Авторы FrontierMath проверили ведущие ИИ-модели, такие как GPT-4o (лежащий в основе ChatGPT), на способность решать уникальные математические задачи, на которые у экспертов в этой области обычно уходит от нескольких часов до нескольких дней. Предварительные результаты тестирования FrontierMath, опубликованные в научной статье, ясно показывают ограниченные возможности современных ИИ-моделей. Даже при наличии доступа к средам программирования, как Python, лучшие языковые модели, такие как Claude 3.5 Sonnet, GPT-4o, o1-preview и Gemini 1.5 Pro, продемонстрировали крайне низкие результаты. Это резко контрастирует с их успехами на более простых математических
Новый математический тест FrontierMath поставил в тупик все передовые ИИ-модели и кандидатов наук
13 ноября 202413 ноя 2024
24
3 мин