3 подписчика

Кто лучше решает задачи: DeepSeek или ChatGPT?

11 февраля 202511 фев 2025

1 мин

Впервые после релиза рассуждающих моделей обеих компаний состоялось серьезное мероприятие, и можно независимо оценить качество решений моделей. Сайт: https://botforbusiness.ru Телеграмм: https://t.me/b4b70bot Голосовые и чат-боты работают за вас!!! Состоялось American Invitational Mathematics Examination (AIME), первая часть. Это олимпиадные задачами по математике. Напомню, что рассуждающие модели специально предназначены именно для узко специализированных задач, в том числе – по математике. Результаты выложены на Matharena Таблица показывает, как разные модели справились с олимпиадой. Каждая модель решала каждую задачу 4 раза (независимо от других своих попыток). Зелёный – модель справилась 4/4 раз, желтый – справилась 1 раз, красный — 0 раз из 4. В колонке «Acc» отображена средняя точность моделей. В колонке Cost – стоимость рассуждений. Как видим, модели OpenAI серьезно превосходят модели DeepSeek по уровню точности ответов. Хотя по стоимости DeepSeek выигрывает; однако модель R1 «ж

Оглавление

Кто судьи?
Каков результат?
Пожалуйста, поддержите меня, поставьте лайк! 🙏

Впервые после релиза рассуждающих моделей обеих компаний состоялось серьезное мероприятие, и можно независимо оценить качество решений моделей.

Сайт: https://botforbusiness.ru Телеграмм: https://t.me/b4b70bot Голосовые и чат-боты работают за вас!!!

Кто судьи?

Состоялось American Invitational Mathematics Examination (AIME), первая часть. Это олимпиадные задачами по математике. Напомню, что рассуждающие модели специально предназначены именно для узко специализированных задач, в том числе – по математике.

Результаты выложены на Matharena

Каков результат?

Таблица показывает, как разные модели справились с олимпиадой. Каждая модель решала каждую задачу 4 раза (независимо от других своих попыток). Зелёный – модель справилась 4/4 раз, желтый – справилась 1 раз, красный — 0 раз из 4.

В колонке «Acc» отображена средняя точность моделей. В колонке Cost – стоимость рассуждений.

Как видим, модели OpenAI серьезно превосходят модели DeepSeek по уровню точности ответов.

Хотя по стоимости DeepSeek выигрывает; однако модель R1 «жрет» больше, чем o3-mini (хотя на то она и mini, обычная модель пожирает в 10 раз больше).

В тестировании также принимали участие модели QwQ-32B (модель от Alibaba, которая вышла в ноябре 2024), gemini-2.0-flash (от Google, вышла на днях), claude-3.5-sonnet (Anthropic).

Но все эти модели существенно проигрывают моделям DeepSeek и OpenAI по точности, хотя цена вычислений невысока. Однако модели не справились с задачами, и если так посмотреть, то затраты высокие.

Модель от Mistral не принимала участия, т.к. У них нет рассуждающей модели.

Пожалуйста, поддержите меня, поставьте лайк! 🙏

#чат-боты для бизнеса
#автоматизация бизнеса
#создание чат-ботов
#разработка чат-ботов
#чат-бот телеграм
#чат-бот для Авито
#чат-бот для продаж
#сhаtbоt
#автоматизация продаж
#искусственный интеллект для бизнеса
#gрt чат-бот
#интеграция чат-ботов
#маркетинг с чат-ботами
#онлайн-консультант
#чат-бот для соцсетей
#бот для приема заказов
#чат-бот для кафе и ресторанов
#чат-бот для онлайн-школ
#СRМ автоматизация
#бот для Теlеgrаm