Впервые после релиза рассуждающих моделей обеих компаний состоялось серьезное мероприятие, и можно независимо оценить качество решений моделей. Сайт: https://botforbusiness.ru Телеграмм: https://t.me/b4b70bot Голосовые и чат-боты работают за вас!!! Состоялось American Invitational Mathematics Examination (AIME), первая часть. Это олимпиадные задачами по математике. Напомню, что рассуждающие модели специально предназначены именно для узко специализированных задач, в том числе – по математике. Результаты выложены на Matharena Таблица показывает, как разные модели справились с олимпиадой. Каждая модель решала каждую задачу 4 раза (независимо от других своих попыток). Зелёный – модель справилась 4/4 раз, желтый – справилась 1 раз, красный — 0 раз из 4. В колонке «Acc» отображена средняя точность моделей. В колонке Cost – стоимость рассуждений. Как видим, модели OpenAI серьезно превосходят модели DeepSeek по уровню точности ответов. Хотя по стоимости DeepSeek выигрывает; однако модель R1 «ж