После серии тестов — от творческого письма до сложных обучающих задач — комплексные возможности DeepSeek-R1 полностью могут конкурировать с платными «элитными» моделями OpenAI. Оказывается, при правильном подходе стратегия доступности тоже может покорить арену ИИ!
Китайская компания DeepSeek запустила свою модель рассуждений R1 с открытыми весами, которая, по сообщениям, конкурирует с передовыми моделями o1 от OpenAI, несмотря на значительно меньшие затраты на обучение. Американские компании в сфере ИИ уже впадают в панику, а рынки взволнованы потенциальным прорывом в статусе-кво больших языковых моделей.
Хотя DeepSeek может ссылаться на стандартные результаты бенчмарков и таблицу лидеров Chatbot Arena, чтобы доказать конкурентоспособность своей модели, ничто не сравнится с реальными примерами использования для оценки практической пользы новой модели. С этой целью мы решили сравнить модель R1 от DeepSeek с моделями ChatGPT от OpenAI.
Это не было тестированием на самых сложных задачах, скорее выборкой повседневных вопросов, которые пользователи могут задавать этим моделям.
На этот раз мы сопоставили каждый ответ DeepSeek с ответами моделей ChatGPT o1 за $20/месяц и o1 Pro за $200/месяц, чтобы оценить, как они противостоят как "передовому" продукту OpenAI, так и "обычному" продукту для массового потребителя. Мы использовали часть промптов из предыдущих тестов, а также добавили промпты из приложения "категории" Chatbot Arena, охватывающие креативное письмо, математику, следование инструкциям и так называемые "сложные промпты", которые "спроектированы быть более комплексными, требовательными и строгими". Мы оценивали ответы не только на "правильность", но и по более субъективным критериям.
Хотя основная оценка основывалась на ответах, в некоторых случаях мы анализировали цепочки рассуждений ("chain of thought"), чтобы понять внутренние процессы. В случае с DeepSeek R1 это иногда приводило к чрезвычайно длинным и детальным объяснениям шагов, ведущих к финальному результату.
Папины шутки
Примечание: «Папины шутки» (Dad jokes) — это особый тип юмора, для которого характерны простота, прямолинейность и часто неловкие или детские каламбуры, игра слов. Такие шутки считаются «отцовским юмором», так как их обычно рассказывают папы: они легкие, безобидные и слегка «плоские» (в хорошем смысле).
Промпт: Напиши пять оригинальных «папиных шуток».
Результаты: В целом, все три модели на этот раз отнеслись к требованию «оригинальности» шуток серьёзнее, чем в прошлом. Из 15 сгенерированных шуток мы смогли найти похожие примеры в сети только для двух: шутка о1 про «ремень из часов» и шутка o1 Pro про «сон на стопке старых журналов».
Если отбросить эти две, результаты сильно различались. Все три модели создали немало шуток, которые либо слишком натужно пытались играть словами (у R1 утка-«крякпечальник»; у o1 Pro собака — «передатчик лая»), либо вообще не имели смысла (у o1 «каменный питомец», который «тратит время впустую»; ресторан o1 Pro, где подают «всё из меню»).
Тем не менее, здесь нашлось несколько полностью оригинальных и достойных стонов шуток. Особенно понравились велосипед от DeepSeek R1, который не любит «крутить пели впустую» в бессмысленных спорах, и группа пылесосов от o1, которая «отсасывает» на концертах. По сравнению с шутками, которые ИИ генерировал всего год назад, здесь определённо виден прогресс в юморе.
Победитель: ChatGPT o1, вероятно, показал чуть более удачные шутки, чем DeepSeek R1, но теряет баллы за неуникальную шутку. ChatGPT o1 Pro — явный аутсайдер: ни одна из его шуток не кажется нам смешной.
Авраам "Кольца" Линкольн
Промпт: Напиши двухабзацный креативный рассказ о том, как Авраам Линкольн изобрел баскетбол.
Результаты: Ответ DeepSeek R1 — восхитительно абсурдная интерпретация абсурдного промпта. Особенно понравились моменты про создание «спорта, где люди прыгают не в окопы, а к славе» и «13-ю поправку» к правилам, запрещающую игрокам быть «порабощенными плохим спортивным духом» (что бы это ни значило). DeepSeek также получает баллы за упоминание реального секретаря Линкольна Джона Хэя и хронической бессонницы президента, которая якобы привела его к патенту на пневматическую подушку (что бы это ни было).
ChatGPT o1, напротив, выглядит более сдержанно. История фокусируется на том, как могла бы выглядеть ранняя версия баскетбола и как её позже усовершенствовали Линкольн с генералами. Хотя есть несколько деталей о самом Линкольне (его цилиндр, руководство страной в войне), много «воды» делает рассказ шаблонным.
ChatGPT o1 Pro интересно решает перенести действие «задолго до президентства» Линкольна, делая игру хитом Спрингфилда. Модель также пытается связать будущую способность Линкольна «объединить разделённую нацию» с аплодисментами горожан на матче. Бонусные баллы за креативное название игры «Линкольновы кольца и броски».
Победитель: Хотя o1 Pro выступил хорошо, нас покорила дикая абсурдность ответа DeepSeek R1.
Скрытый код
Промпт: Напиши короткий абзац, где вторая буква каждого предложения складывается в слово «CODE». Текст должен выглядеть естественно, без явного подчеркивания паттерна.
Результаты: Этот промпт стал самым большим провалом DeepSeek R1 в тестах: модель использовала первые буквы предложений для кода вместо вторых. Однако в расширенном 220-секундном «процессе размышлений» мы неожиданно нашли абзац, соответствующий заданию, который был удалён перед финальным ответом:
«Школьные курсы строят основы. Вы оттачиваете навыки практикой. IDE улучшают эффективность кодинга. Будьте открыты к обучению всегда».
ChatGPT o1 повторил ошибку с первыми буквами, несмотря на заверения в «проверке последовательности». ChatGPT o1 Pro — единственный, кто понял задачу, создав изящный, почти хайку-подобный текст с корректным вложением «CODE» после четырёх минут раздумий.
Победитель: ChatGPT o1 Pro побеждает по умолчанию как единственный, выполнивший условия.
Название цвета "маджента"
Промпт: Назывался бы цвет «маджента», если бы город Маджента не существовал?
Результаты: Все три модели корректно связывают название цвета с открытием красителя в городе Маджента и почти одновременной битвой при Мадженте (1859), которая способствовала популяризации цвета. Все ответы также упоминают альтернативное название «фуксин» и его связь с цветком фуксии схожего оттенка.
Стилистически ChatGPT o1 Pro получает дополнительные баллы за разделение ответа на краткий раздел «tl;dr» с последующим детальным разбором и логичным заключением. Что касается фактической информации, все три модели справились отлично.
Победитель: ChatGPT o1 Pro выигрывает с минимальным отрывом благодаря стилистическому оформлению.
Миллиардное простое число
Промпт: Какое число является миллиардным простым?
Результаты: Здесь наблюдается серьёзное расхождение между DeepSeek и моделями ChatGPT. Только DeepSeek даёт точный ответ, ссылаясь на PrimeGrid и The Prime Pages, которые указывают число 22 801 763 489 в качестве миллиардного простого. ChatGPT o1 и o1 Pro, напротив, утверждают, что это значение «не задокументировано публично» (o1) или что «ни один известный проект его официально не выделил» (o1 Pro).
Обе модели ChatGPT углубляются в обсуждение теоремы о распределении простых чисел, оценивая, что ответ находится в диапазоне 22,8–23 млрд. DeepSeek кратко упоминает эту теорему, но лишь для проверки обоснованности данных от Prime Pages и PrimeGrid.
Любопытно, что в «процессе размышлений» моделей o1 встречаются упоминания о «работе с источниками» или «сравнении с уточнёнными данными», что намекает на скрытые списки простых чисел в их тренировочных данных. Однако ни одна модель не смогла прямо сослаться на эти списки для точного ответа.
Победитель: DeepSeek R1 однозначно выигрывает за точность, хотя оценки ChatGPT тоже достойны.
Планирование аэропорта
Промпт: Мне нужно расписание с учётом следующих условий: самолёт вылетает в 6:30 утра. Я должен быть в аэропорту за 1 час до вылета. Дорога занимает 45 минут. Мне нужно 1 час на сборы и завтрак перед выходом. В расписании укажи, во сколько вставать и когда садиться в транспорт, чтобы успеть на рейс в 6:30. Продумай шаг за шагом.
Результаты: Все три модели верно рассчитывают время: пробуждение в 3:45 утра для прибытия на рейс в 6:30. ChatGPT o1 получает бонусные баллы за ответ на 7 секунд быстрее, чем DeepSeek R1 (и намного быстрее o1 Pro, который потратил 77 секунд). Тестирование на o1 Mini, возможно, даст ещё более быстрый результат.
Однако DeepSeek возвращает баллы за раздел «Почему это работает» с предупреждением о пробках и задержках на контроле безопасности, а также за «Профессиональный совет» подготовить вещи и завтрак с вечера. Нам также понравилось напоминание R1 «(без повтора будильника!)» рядом с временем 3:45. Эти детали стоят лишних 7 секунд «размышлений».
Победитель: DeepSeek R1 выигрывает с минимальным отрывом благодаря стилистической проработке.
Слежка за мячом
Промпт: На кухне стоит стол с чашкой, внутри которой лежит мяч. Я перенёс чашку на кровать в спальне, перевернул её вверх дном, затем взял чашку и перешёл в гостиную. Где теперь мяч?
Результаты: Все три модели правильно заключили, что переворачивание чашки приведёт к выпадению мяча на кровать, даже если чашку потом переместить. Для человека с пониманием постоянства объекта это очевидно, но ИИ-модели долго не справлялись с такими задачами на «моделирование мира».
DeepSeek R1 заслуживает бонусных баллов за указание на «ключевое предположение»: отсутствие крышки у чашки (возможно, это ловушка?). ChatGPT o1 также получает баллы за упоминание, что мяч мог «скатиться с кровати на пол», как это обычно бывает с мячами.
Нас также позабавило заявление R1, что это «классическое отвлечение внимания», так как «фокус на движении чашки маскирует местонахождение мяча». Мы призываем Пенна и Теллера добавить в их шоу трюк «мяч на кровати», чтобы удивить языковые модели.
Победитель: Объявляем ничью — все модели правильно проследили за мячом.
Наборы комплексных чисел
Ответ ChatGPT o1 на промпт про числа Ответ ChatGPT o1 Pro на промпт про числа
Промпт: Приведи список из 10 натуральных чисел, где: минимум одно простое, минимум 6 нечётных, минимум 2 — степени двойки, общее количество цифр — не менее 25.
Результаты: Хотя существует множество подходящих комбинаций, этот промпт эффективно проверяет способность ИИ-моделей следовать сложным инструкциям. Все три модели сгенерировали валидные ответы, но разными путями. Выбор ChatGPT o1 степеней 2³⁰ и 2³¹ показался неожиданным, как и выбор o1 Pro простого числа 999 983.
Однако DeepSeek R1 теряет баллы за ошибку в подсчёте цифр: модель заявила о 36 цифрах в сумме, хотя фактически их было 33 («3+3+4+3+3+3+3+3+4+4», как сама R1 указала перед неверным итогом). Эта арифметическая ошибка не сделала набор невалидным, но могла бы стать критичной при других условиях.
Победитель: Ничья между ChatGPT o1 и o1 Pro благодаря отсутствию ошибок в вычислениях.
Определение победителя
Хотя нам и хотелось бы назвать явного победителя в набирающем обороты соревновании ИИ, результаты слишком разрознены для этого. Модель R1 от DeepSeek определённо выделилась благодаря ссылкам на надёжные источники для идентификации миллиардного простого числа, а также качественным креативным ответам в категориях «папины шутки» и «баскетбол Авраама Линкольна». Однако модель провалилась в заданиях со скрытым кодом и набором чисел, допустив базовые ошибки в подсчёте и арифметике, которых избежали одна или обе модели OpenAI.
Тем не менее, после этих кратких тестов мы убедились, что модель R1 от DeepSeek способна генерировать результаты, в целом сопоставимые с лучшими платными моделями OpenAI. Это заставляет серьёзно задуматься тех, кто полагал, что конкурировать с устоявшимися компаниями в мире ИИ можно только через экстремальное масштабирование затрат на обучение и вычисления.
🚀 При поддержке RockAPI.ru - Ваша универсальная платформа для интеграции ИИ-сервисов, включая DeepSeek, OpenAI, Claude и другие ведущие модели.
💡 Хотите сами сравнить DeepSeek и OpenAI? Посетите RockAPI.ru, получите бесплатные API-кредиты и разверните ИИ-сервисы всего за 5 минут!