Найти в Дзене
Электромозг

У нейросети GPT появился серьёзный конкурент — Qwen!

Оглавление

Думаете, на нейросетевых моделях GPT от OpenAI свет клином сошёлся? Нет, конечно, вы так не думаете :-) Ведь вы уже давно знаете, что кроме OpenAI свои модели развивают и другие компании — Google, Microsoft, Яндекс, Сбер и т.п. Ко многим из нейросетевых моделей разработчики предоставляют веб-интерфейсы (по подписке или бесплатно с ограничениями), чтобы все пользователи смогли пользоваться ими через свои браузеры.

Сэм Альтман — глава OpenAI
Сэм Альтман — глава OpenAI

Так вот, 9 января 2025-го года китайская компания Alibaba Cloud предоставила бесплатный доступ через веб-интерфейс к своим моделям Qwen 2.5. Для её использования достаточно зарегистрироваться на вышеуказанном сайте по своему E-Mail, указав дополнительно своё имя и придумав пароль, или использовать для своей идентификации аккаунты Google или Github, если таковые у вас имеются.

Модели Qwen понимают по-русски и имеют очень дружественный, и действительно удобный веб-интерфейс:

-2

В отличие от моделей GPT от компании OpenAI, доступ к моделям Qwen полностью бесплатен. На него не нужно оформлять подписку или пользоваться различными ухищрениями, каждое из которых имеет некоторое ограничение. Вместе с тем, качество ответов Qwen2.5 вполне сравнимы с уровнем GPT-4o.

Единственное, что пока не умеет Qwen — нет доступа к генерации изображений. Однако этот функционал запланирован и тоже будет реализован в ближайшее время, «Coming soon», как написано на сайте.

В процессе общения с Qwen я столкнулся с интересным моментом. Нейросеть в контексте ответа на какой-то вопрос упомянула неверную информацию, перепутав принадлежность некоторого продукта к одной из компаний. Когда я напрямую спросил, кому принадлежит продукт, нейросеть ответила:

Извините за путаницу в предыдущих ответах. Давайте уточним:

и далее уже написала всё правильно. То есть, нейросеть может сделать серьёзную ошибку, но помнит контекст и проверяет свои новые ответы на соответствие предыдущим.

Qwen основан на GPT?

Нет, это разные модели. Давайте немного разберёмся с этими всеми моделями, чтобы понимать, о чём вообще идёт речь.

Для работы с текстом в настоящее время применяется т.н. Большая Языковая Модель (Large Language Model, LLM), основанная на архитектуре трансформеров (Transformers). Трансформеры были впервые представлены в статье «Attention is All You Need» в 2017 году и с тех пор стали стандартом для создания передовых моделей обработки естественного языка.

Первыми языковыми моделями на трансформерах была GPT-1, появившаяся в июне 2018 года и BERT (Bidirectional encoder representations from transformers) от Google, представленная в октябре 2018 года.

Так вот, и GPT, BERT и Qwen, как и многие другие современные языковые модели — все основаны на архитектуре трансформеров и каждая обучена на отдельно собранных наборах данных. Qwen обучена на уникальных наборах данных, собранных и подготовленных Alibaba Cloud.

Источники данных для обучения Qwen:

  1. Внутренние данные Alibaba: Alibaba Cloud имеет доступ к большому объему данных через свои различные платформы и сервисы, такие как электронная коммерция, облачные вычисления, финтех и другие. Эти данные могут быть использованы для обучения модели, чтобы сделать её более специфичной для определенных задач и регионов.
  2. Публичные и открытые источники: Как и многие другие крупномасштабные языковые модели, Qwen может использовать публично доступные текстовые массивы, такие как Wikipedia, книгоподобные данные (например, Project Gutenberg), научные статьи (например, arXiv) и другие открытые источники.
  3. Специализированные данные: Для улучшения производительности в определенных доменах или языках, Qwen может быть обучена на специализированных наборах данных, которые содержат информацию по конкретным темам или языкам.
  4. Данные пользователей и взаимодействия: В процессе использования модели пользователями и их взаимодействий с ней, могут собираться дополнительные данные, которые затем используются для дальнейшей настройки и улучшения модели.

Особенности обучения Qwen:

  • Масштабируемость: Alibaba Cloud имеет значительные ресурсы для масштабирования процесса обучения, что позволяет создавать очень большие модели с миллиардами параметров.
  • Локализация и многоязычность: Qwen может быть специально обучена на данных, относящихся к различным языкам и регионам, что делает её особенно полезной для глобальных пользователей.

Различие моделей от Alibaba Cloud

Через веб-интерфейс предоставлен доступ к пяти моделям: Qwen2.5-Plus, QVQ-72B-Preview, QwQ-32B-Preview, Qwen2.5-Coder-32B-Instruct и Qwen2-VL-Max. Причём получать ответы на свои вопросы можно одновременно от нескольких моделей, достаточно добавить их в текущие в левом верхнем углу интерфейса. Ответы встанут рядом и их удобно будет сравнить.

Qwen2.5-Plus — универсальная модель для общения, держит контекст беседы.

QVQ-72B-Preview — модель с открытым исходным кодом для мультимодального мышления, которая показала исключительные результаты в различных тестах. Ориентирована на улучшение возможностей визуального мышления. Сессия диалога ограничивается одним вопросом-ответом.

QwQ-32B-Preview (Qwen with Questions) — экспериментальная исследовательская модель с открытым исходным кодом и 32 миллиардами параметров, демонстрирует впечатляющие аналитические возможности и отлично справляется с решением сложных задач в области математики и программирования. Сессия диалога ограничивается одним вопросом-ответом.

Qwen2.5-Coder-32B-Instruct — способной генерировать программный код наравне с GPT-4, а во многих случаях и лучше. Хорошо работает более чем на 40 языках, включая нишевые языки, такие как Haskell и Racket. Анализирует код, исправляет ошибки. Держит контекст беседы.

Qwen2-VL-Max — анализирует изображения и видеофайлы. Держит контекст беседы.

А как быть с YandexGPT и GigaChat?

Эти модели также являются самостоятельными архитектурами, основанными на архитектуре трансформеров и каждая обучена на отдельно собранных наборах данных.

Каждый разработчик пишет свою модель с использованием специальных фреймворков и библиотек, таких, как фреймворки PyTorch или TensorFlow и библиотеки Horovod или DeepSpeed.

По сути, в фреймворках и библиотеках уже содержится реализация некоторой базовой модели нейросети на архитектуре трансформеров и её функционал. Единственно — она не обучена. Каждый разработчик, используя эти фреймворки и библиотеки, создаёт систему, по сути, уже из довольно больших «кирпичей». Поэтому понять, насколько та или иная модель ушла от каких-то базовых вариантов, можно разве что только по качеству её работы после обучения.

Ну и, разумеется, очень важен и тот материал, на котором нейросеть обучена. Если это какие-то готовые международные датасеты — это одно. Если это самостоятельно собранные данные с учётом местной специфики — уже другое.

Например, модель «Кандинский 3.1» от Сбера при просьбе нарисовать, скажем, двух полковников, будет постоянно рисовать военных в форме, похожей на форму США с нашивками, похожими на флаг США. Если попросить её нарисовать двух советских полковников, то она будет рисовать непонятных солдат на фоне огромного флага СССР.

Чтобы заставить модель «Кандинский» нарисовать реально российских офицеров, придётся скрупулёзно прописать, что нужно изобразить мужчин, одетых в форму российских/советских офицеров и т.п. И то не каждый результат будет соответствовать требующемуся.

В общем, очевидно, что Кандинского тренировали на изображениях, полученных из западных источников. Отсюда я предполагаю, что требующийся датасет был куплен уже в готовом виде, хотя могу и ошибаться.

Заключение

В общем, теперь мы можем пользоваться искусственным интеллектом на основе нейросетей совершенно бесплатно. По крайней мере, какое-то время, которое компания Alibaba Cloud отведёт на демонстрацию возможностей своих моделей и привлечение внимания к своим API-сервисам и другим продуктам.

И ещё, по поводу искусственного интеллекта... Большинство моих читателей, судя по статистике, предоставляемой Дзеном, застали поздний СССР. В связи с этим, вам, быть может, чисто в историческом смысле будет интересен контент (наполнение) моего нового приключенческого канала «Инсайдер Глубинного Государства» на платформе ВКонтакте, где я начал публиковать свои старые рукописи того времени.

В детстве и юности, которые пришлись на 70-е, 80-е и 90-е годы, я любил фантазировать о приключениях себя и своих друзей, и записывал эти фантазии в виде различных рассказов длиной в несколько глав. Так вот, в одном из этих «произведений», публикация которого по главам происходит там в настоящее время, речь идёт и о компьютерах, и о неком изделии с искусственным интеллектом.

Черновик рукописи 1991-го года
Черновик рукописи 1991-го года

Вообще, очень интересно читать свои тогдашние представления об этих технологиях, ведь на момент начала написания того рассказа (1991 год), который описывает приключения советских подростков 1986-го года, у меня даже компьютера ещё не было. Он появился только спустя год, и это был БК 0010-01. Так что писалось всё изначально вручную.

В 1993-м году тексты большинства законченных рассказов были перепечатаны с рукописей на БК 0010-01 и сохранены на пятидюймовую дискету в кодировке KOI-8R. В 1994-м году у меня появился первый IBM PC-AT i80386DX40, и содержимое дискеты было сохранено на жёсткий диск и переведено в кодировку OEM 866. В 2003-м году тексты были переведены в формат Word, и с тех пор не трогались.

Канал (точнее, сообщество в терминологии ВКонтакте) «Инсайдер Глубинного Государства» появился не так давно, и подписчиков на нём практически нет :(((, поэтому оно пока не попало даже в рекомендательную систему VK. Было бы здорово, если бы мы с вами сдвинули эту ситуацию с мёртвой точки вашими подписками на него (если у вас есть аккаунт ВКонтакте, разумеется, и вы сочтёте это для себя возможным), а также поделитесь ссылкой у себя в ленте и среди друзей, которых может заинтересовать подобная литература.

На этом всё. Ставьте нравлики, подписывайтесь на этот канал а также на сообщество «Инсайдер Глубинного Государства» во ВКонтакте и делитесь своим мнением в комментариях тут и там. Удачи! :-)