Сперва главное:
🤖 Китайская лаборатория искусственного интеллекта DeepSeek выпустила новую модель под названием DeepSeek V3. Модель демонстрирует высокие результаты в популярных тестах и эффективно справляется с текстовыми задачами, такими как кодирование и написание эссе.
🤖 Однако есть проблема: модель идентифицирует себя как ChatGPT, чат-бот платформы OpenAI. В пяти из восьми генераций DeepSeekV3 утверждает, что является ChatGPT (v4), и только три раза называет себя DeepSeekV3. Это может указывать на особенности распределения обучающих данных.
🧐 Существует предположение, что DeepSeek V3 могла быть обучена на текстах, созданных GPT-4 через ChatGPT. Если это так, то модель могла запомнить некоторые ответы GPT-4 и теперь воспроизводит их дословно.
⚠️ Существует риск, что модель DeepSeek V3, обученная на данных ChatGPT/GPT-4, может усугубить некоторые предубеждения и недостатки исходной модели.
Теперь подробнее:
Ранее на этой неделе хорошо финансируемая китайская лаборатория искусственного интеллекта DeepSeek выпустила «открытую» модель искусственного интеллекта, которая побеждает многих конкурентов в популярных тестах. Модель DeepSeek V3 большая, но эффективная, легко справляется с текстовыми задачами, такими как кодирование и написание эссе.
Также кажется, что она думает, что является ChatGPT.
Сообщения в X и собственные тесты TechCrunch показывают, что DeepSeek V3 идентифицирует себя как ChatGPT, платформу чат-ботов с искусственным интеллектом от OpenAI. На просьбу уточнить, DeepSeek V3 настаивает на том, что это версия модели OpenAI GPT-4, выпущенная в 2023 году.
Это действительно так. В 5 из 8 генераций DeepSeekV3 утверждает, что является ChatGPT (v4), а моделью DeepSeekV3 — только 3 раза.
Заблуждения идут глубоко. Если вы зададите DeepSeek V3 вопрос о API DeepSeek, он даст вам инструкции по использованию API OpenAI. DeepSeek V3 даже рассказывает некоторые шутки, как GPT-4 — вплоть до кульминационных моментов (панчей).
Так что же происходит? Такие модели, как ChatGPT и DeepSeek V3, являются статистическими системами. Обученные на миллиардах примеров, они изучают закономерности в этих примерах, чтобы делать прогнозы — например, как «кому» в электронном письме обычно предшествует «это может касаться».
DeepSeek не раскрыла подробностей об источнике обучающих данных для DeepSeek V3. Но существует множество общедоступных наборов данных, содержащих текст, созданный GPT-4 через ChatGPT. Если DeepSeek V3 была обучена на них, модель могла запомнить некоторые выходные данные GPT-4 и теперь воспроизводит их дословно.
«Очевидно, что модель где-то видит необработанные ответы от ChatGPT, но непонятно, где именно, — сказал Майк Кук, научный сотрудник Королевского колледжа в Лондоне, специализирующийся на искусственном интеллекте, в интервью TechCrunch. — Это может быть «случайностью»... но, к сожалению, мы видели случаи, когда люди напрямую обучали свои модели на выходных данных других моделей, пытаясь использовать их знания».
Кук отметил, что практика обучения моделей на выходных данных конкурирующих систем искусственного интеллекта может быть «очень плохой» для качества модели, поскольку это может привести к галлюцинациям и вводящим в заблуждение ответам, подобным приведённым выше. «Подобно тому, как делаем ксерокопию с ксерокопии, мы теряем всё больше и больше информации и связи с реальностью», — сказал Кук.
Возможно, это также противоречит условиям обслуживания этих систем. Условия OpenAI запрещают пользователям её продуктов, включая клиентов ChatGPT, использовать выходные данные для разработки моделей, конкурирующих с собственными моделями OpenAI.
OpenAI и DeepSeek не сразу ответили на запросы о комментариях. Однако генеральный директор OpenAI Сэм Альтман опубликовал в X сообщение, которое было воспринято как насмешка над DeepSeek и другими конкурентами. «Относительно легко скопировать то, что, как вы знаете, работает, — написал Альтман. — Чрезвычайно трудно сделать что-то новое, рискованное и сложное, когда не знаешь, сработает ли это».
Конечно, DeepSeek V3 далеко не первая модель, которая неправильно идентифицирует себя. Gemini от Google и другие иногда утверждают, что являются конкурирующими моделями. Например, получив запрос на мандаринском диалекте, Gemini говорит, что это китайский чат-бот Wenxinyiyan от компании Baidu.
И это потому, что веб-сайт, на котором компании, занимающиеся искусственным интеллектом, берут большую часть своих обучающих данных, засоряется искусственным интеллектом. Контент-фермы используют искусственный интеллект для создания кликбейта. Боты наводняют Reddit и X. По некоторым оценкам, к 2026 году 90 % Интернета может быть создано с помощью искусственного интеллекта.
Такое «загрязнение», если хотите, затрудняет тщательную фильтрацию выходных данных искусственного интеллекта из наборов обучающих данных. Вполне возможно, что DeepSeek обучила DeepSeek V3 непосредственно на тексте, созданном ChatGPT. В конце концов, Google однажды обвинили в том же самом.
Хейди Хлааф, главный специалист по искусственному интеллекту в некоммерческой организации AI Now Institute, сказала, что экономия средств от «переработки» знаний существующей модели может быть привлекательной для разработчиков, независимо от рисков.
«Даже несмотря на то, что интернет-данные сейчас полны результатов работы искусственного интеллекта, другие модели, которые случайно будут обучаться на результатах работы ChatGPT или GPT-4, не обязательно будут демонстрировать результаты, напоминающие персонализированные сообщения OpenAI, — сказала Хлааф. — Если окажется, что DeepSeek частично использовала модели OpenAI для перегонки, это не будет удивительно».
Однако более вероятно, что большое количество данных ChatGPT/GPT-4 попало в обучающий набор DeepSeek V3. Это означает, что модели нельзя доверять в плане самоидентификации. Но более тревожной является возможность того, что DeepSeek V3, бездумно поглощая и повторяя выходные данные GPT-4, может усугубить некоторые предубеждения и недостатки модели.