#Google DeepMind представил Aletheia, ИИ-агент, специализирующийся на математике, который набрал 91,9% баллов в IMO-ProofBench Advanced, одном из самых сложных общедоступных бенчмарков для доказательств в стиле олимпиад. #Aletheia работает на Gemini Deep Think и использует цикл генерации доказательств, их проверки и последующего исправления ошибок. DeepMind заявляет, что она превосходит даже новейшие конфигурации #Gemini Deep Think Advanced, при этом используя меньше вычислительных ресурсов. Помимо бенчмарков, агент официально решил четыре задачи из списка Эрдёша, причем одна из них ранее не была решена в литературе. Он также написал полную математическую статью с правильными результатами и помог исследователям в реальной академической работе. @PrimeSci
🧠 #DeepMind создает ИИ, набравший 91,9% баллов в элитном тесте на доказательство математических теорем
15 февраля15 фев
~1 мин