283 подписчика

DeepSeek-R1 — доказано будущее физики и науки.

1 февраля 20251 фев 2025

3 мин

Потрясная новость прошлась по научному сообществу, пошатнув самооценку некоторых учёных! После неё возникает вопрос: отпадет ли необходимость набирать аспирантов в будущем? Каким образом DeepSeek-R1 и ChatGPT влияют на науку и физику? Крупная языковая модель DeepSeek-R1 с открытым исходным кодом, разработанная компанией “Deep Exploration”, вызывает широкий интерес благодаря своим продвинутым способностям обработки информации. Ранее заявленные способности к “глубокому мышлению” и “логическим рассуждениям” демонстрировались такими моделями как GPT-4 (или его вариант) от OpenAI, Claude от Anthropic и ChatGPT от OpenAI. Модели показали впечатляющие результаты в различных тестах, проводимых в академической среде и за ее пределами. Особого внимания заслуживает модель Google AlphaGeometry, которая удостоилась серебряной медали на Международной математической олимпиаде, набрав 28 из 42 баллов. Достижение искусственным интеллектом позволяет говорить о наличии у него высокого уровня аналитиче

Оглавление

Испытание ИИ: DeepSeek-R1, GPT-4 и Claude решают задачи по теоретической физике
Крупная языковая модель DeepSeek-R1
Тестирование по физике моделей DeepSeek-R1, GPT-4 и Claude

Испытание ИИ: DeepSeek-R1, GPT-4 и Claude решают задачи по теоретической физике

Крупная языковая модель DeepSeek-R1

Крупная языковая модель DeepSeek-R1 с открытым исходным кодом, разработанная компанией “Deep Exploration”, вызывает широкий интерес благодаря своим продвинутым способностям обработки информации. Ранее заявленные способности к “глубокому мышлению” и “логическим рассуждениям” демонстрировались такими моделями как GPT-4 (или его вариант) от OpenAI, Claude от Anthropic и ChatGPT от OpenAI.

Модели показали впечатляющие результаты в различных тестах, проводимых в академической среде и за ее пределами. Особого внимания заслуживает модель Google AlphaGeometry, которая удостоилась серебряной медали на Международной математической олимпиаде, набрав 28 из 42 баллов.

Достижение искусственным интеллектом позволяет говорить о наличии у него высокого уровня аналитических способностей. Возникает вопрос: какие дальнейшие возможности будут открыты в области искусственного интеллекта, и какие изменения ждут систему подготовки научных кадров в будущем?

Соревнование по теоретической физике завершилось в конце января. Семь задач, разработанных специально для этого конкурса (за исключением одной), вызвали живой отклик участников. Они оценили практическую направленность задач, отличную от привычных тестовых вопросов.

Тестирование по физике моделей DeepSeek-R1, GPT-4 и Claude

Один из участников, опытный пользователь ИИ, предложил проверить, как с ними справятся большие языковые модели. Идея показалась заманчивой, тем более что выпуск DeepSeek-R1, который взорвал AI-сообщество, пришелся как раз на это время. DeepSeek-R1, а также GPT-4 от OpenAI и Claude от Anthropic были выбраны для сравнительного тестирования.

Не буду останавливаться на конкретном описании вопросов и задач, предложенных для решения ИИ, скажу только то, что это стандартные задачи по теоретической физике уровня университетской международной олимпиады.

В таблице ниже представлены результаты тестирования больших языковых моделей.

Результаты тестов языковых моделей

DeepSeek-R1

DeepSeek-R1 продемонстрировала наивысшую эффективность, показав отличные результаты в решении первых трех и шестого вопросов – лучше, чем люди. За седьмой вопрос модель получила меньший балл, как представляется, из-за того, что вместо построения доказательства, она лишь повторила само утверждение, которое требовалось доказать. Несмотря на это, анализ процесса ее работы показывает, что она предпринимала правильные шаги, которые, однако, не были выражены в окончательном ответе.

GPT-o1

GPT-4 o1 продемонстрировала результаты, сопоставимые с DeepSeek-R1. Потеря баллов обусловлена ошибками в расчетах, допущенными при решении второй и третьей задач. В отличие от DeepSeek-R1, ответы GPT-4 обладают большей схожестью с человеческим стилем решения задач, что положительно сказалось на оценке последнего вопроса, основанного на вербальной интерпретации.

Claude-sonnet

Результаты Claude-sonnet можно охарактеризовать как крайне неравномерные. На начальном этапе тестирования, при решении первых двух задач, модель показала нулевой результат. Однако, в последующих задачах, ее производительность приблизилась к уровню GPT-4 (o1), демонстрируя аналогичные закономерности в потере баллов.

Сильные и слабые стороны ИИ: анализ результатов тестирования в теоретической физике

DeepSeek-R1 показала результаты, сравнимые с тройкой лучших человеческих результатов (получила специальную награду), но не дотянулась до максимума в 125 баллов.

GPT-4 (o1) вошла в пятерку лучших (специальная награда), а Claude-sonnet - в десятку (excellence Award). Несмотря на очевидные преимущества в скорости и способности находить верные идеи, ИИ, как показывает тестирование, склонны к неожиданным ошибкам.

DeepSeek-R1, например, не смогла правильно сформулировать доказательство в седьмом вопросе, ограничившись повторением вывода. Также все протестированные модели, похоже, не полностью понимают, что такое “строгое” доказательство. Кроме того, модели демонстрируют непостоянство, как показал опыт с Claude-sonnet, который дал верный ответ в предварительных тестах, но ошибся в финальном. В связи с этим, для более надежной оценки, рекомендуется проводить тестирование несколько раз и использовать средний результат.

Спасибо, что дочитали до конца! Ставьте лайки и подписывайтесь на канал, чтобы быть в курсе всех событий и расширить свои знания о нашей невероятной Вселенной! 🌌🚀