7085 подписчиков

Что за DeepSeek и почему их новая модель — прорыв в ИИ?

29 января 202529 янв 2025

2 мин

Мы и раньше видели новости о достижениях китайских компаний в области LLM, но вышедшая на днях модель DeepSeek-R1 удивляет даже на фоне предыдущих громких релизов. Компания не только бросила вызов лидерам индустрии на Западе, но и подтвердила высокий уровень китайских разработок. Обо всём по порядку. R1 — это «думающая» модель с 671 миллиардом параметров, одна из самых больших на рынке. Бенчмарки и тесты показывают, что по качеству она сравнима с одной из самых продвинутых моделей от OpenAI — o1 (правда, та уже относится к предыдущему поколению), с особенно сильными результатами в математике и кодинге. Достижения модели — результат в том числе необычного и инновационного подхода к обучению. R1 обучалась исключительно методом обучения с подкреплением (Reinforcement Learning), без привычного этапа предварительного обучения на огромном массиве данных. Это позволило R1 развить эмерджентные свойства, то есть экспериментировать и действовать не так, как задумали авторы. Она способна к «самоа

R1 — это «думающая» модель с 671 миллиардом параметров, одна из самых больших на рынке. Бенчмарки и тесты показывают, что по качеству она сравнима с одной из самых продвинутых моделей от OpenAI — o1 (правда, та уже относится к предыдущему поколению), с особенно сильными результатами в математике и кодинге.

Достижения модели — результат в том числе необычного и инновационного подхода к обучению. R1 обучалась исключительно методом обучения с подкреплением (Reinforcement Learning), без привычного этапа предварительного обучения на огромном массиве данных. Это позволило R1 развить эмерджентные свойства, то есть экспериментировать и действовать не так, как задумали авторы. Она способна к «самоанализу» и произвольно увеличивает время «размышлений», Chain of Thought, для решения сложных задач (её этому не учили).

Ключевыми преимуществами R1 являются низкая стоимость — API DeepSeek стоит примерно на 90% дешевле OpenAI и Anthropic, и открытый исходный код. Это позволяет пользователям адаптировать модель под свои задачи и использовать её в коммерческих проектах, что особенно важно для стартапов и бизнеса. Отдельно стоит отметить перевод на китайский — вроде как пока она показывает лучший результат в этой области. Единственный нюанс — стоит иметь в виду при работе с моделью, что на вопросы про Китай она либо не отвечает, либо поддерживает официальную позицию КПК.

Откуда вообще взялись DeepSeek? Компания была основана в 2023 году в Ханчжоу, став частью хедж-фонда High-Flyer. Генеральный директор DeepSeek — Лян Вэнфэн, выпускник факультета компьютерных наук, «китайский Сэм Альтман». Откуда конкуретно они получают финансирование — загадка. Однако известно, что компанию спонсируют разные фонды: конкретного списка нет, как и известных источников государственного финансирования. Сам Лян Вэнфэн заявил об отсутствии проблем с деньгами, зато пожаловался на недостаток чипов для обучения из-за санкций США.

После релиза R1 CEO DeepSeek встретился с премьер-министром Китая. Делать выводы пока рано, но это может свидетельствовать об официальной государственной поддержке компании со стороны КПК. Хотя уже понятно, что DeepSeek, с её демпинговыми ценами, прорывными идеями в разработке ИИ и философией продвижения продуктов с открытым исходным кодом — стала одной из самых значимых компаний Китая и мира в сфере искусственного интеллекта.

А ведь год только начался…

Каждый ваш лайк и подписка помогают нам увеличить аудиторию и создавать еще больше достоверного и интересного контента.

Электроника

81,9 тыс интересуются