Найти в Дзене
PrimeSci

🧠 #DeepMind создает ИИ, набравший 91,9% баллов в элитном тесте на доказательство математических теорем

#Google DeepMind представил Aletheia, ИИ-агент, специализирующийся на математике, который набрал 91,9% баллов в IMO-ProofBench Advanced, одном из самых сложных общедоступных бенчмарков для доказательств в стиле олимпиад. #Aletheia работает на Gemini Deep Think и использует цикл генерации доказательств, их проверки и последующего исправления ошибок. DeepMind заявляет, что она превосходит даже новейшие конфигурации #Gemini Deep Think Advanced, при этом используя меньше вычислительных ресурсов. Помимо бенчмарков, агент официально решил четыре задачи из списка Эрдёша, причем одна из них ранее не была решена в литературе. Он также написал полную математическую статью с правильными результатами и помог исследователям в реальной академической работе. @PrimeSci

🧠 #DeepMind создает ИИ, набравший 91,9% баллов в элитном тесте на доказательство математических теорем

#Google DeepMind представил Aletheia, ИИ-агент, специализирующийся на математике, который набрал 91,9% баллов в IMO-ProofBench Advanced, одном из самых сложных общедоступных бенчмарков для доказательств в стиле олимпиад.

#Aletheia работает на Gemini Deep Think и использует цикл генерации доказательств, их проверки и последующего исправления ошибок. DeepMind заявляет, что она превосходит даже новейшие конфигурации #Gemini Deep Think Advanced, при этом используя меньше вычислительных ресурсов.

Помимо бенчмарков, агент официально решил четыре задачи из списка Эрдёша, причем одна из них ранее не была решена в литературе. Он также написал полную математическую статью с правильными результатами и помог исследователям в реальной академической работе.

@PrimeSci