157 подписчиков

DeepSeek запускает ИИ, превосходящий Meta и OpenAI

28 декабря 202428 дек 2024

3 мин

Обучение модели V3 DeepSeek заняло два месяца, на что ушло 5,58 млн долларов США, при этом было использовано значительно меньше вычислительных ресурсов, чем у конкурентов. Выпуск новой большой языковой модели (LLM) китайским стартапом DeepSeek произвел фурор в мировой индустрии искусственного интеллекта (ИИ), поскольку тесты показали, что она превзошла конкурирующие модели от таких компаний, как Meta Platforms и создатель ChatGPT OpenAI . Компания из Ханчжоу сообщила в четверг в сообщении WeChat, что ее одноименная модель LLM DeepSeek V3 имеет 671 миллиард параметров и была обучена примерно за два месяца стоимостью 5,58 миллиона долларов США, используя значительно меньше вычислительных ресурсов, чем модели, разработанные более крупными технологическими компаниями. LLM относится к технологии, лежащей в основе генеративных служб ИИ, таких как ChatGPT. В ИИ большое количество параметров имеет решающее значение для того, чтобы LLM мог адаптироваться к более сложным шаблонам данных и делать

Обучение модели V3 DeepSeek заняло два месяца, на что ушло 5,58 млн долларов США, при этом было использовано значительно меньше вычислительных ресурсов, чем у конкурентов.

Выпуск новой большой языковой модели (LLM) китайским стартапом DeepSeek произвел фурор в мировой индустрии искусственного интеллекта (ИИ), поскольку тесты показали, что она превзошла конкурирующие модели от таких компаний, как Meta Platforms и создатель ChatGPT OpenAI .

Компания из Ханчжоу сообщила в четверг в сообщении WeChat, что ее одноименная модель LLM DeepSeek V3 имеет 671 миллиард параметров и была обучена примерно за два месяца стоимостью 5,58 миллиона долларов США, используя значительно меньше вычислительных ресурсов, чем модели, разработанные более крупными технологическими компаниями.

LLM относится к технологии, лежащей в основе генеративных служб ИИ, таких как ChatGPT. В ИИ большое количество параметров имеет решающее значение для того, чтобы LLM мог адаптироваться к более сложным шаблонам данных и делать точные прогнозы.

Комментируя технический отчет китайского стартапа о его новой модели искусственного интеллекта, ученый-компьютерщик Андрей Карпати, один из основателей OpenAI, написал в сообщении на социальной медиа- платформе X : «DeepSeek делает все легко… с открытым выпуском весов LLM передового уровня, обученного на смехотворно малом бюджете».

Открытые веса означают выпуск только предварительно обученных параметров или весов модели ИИ, что позволяет третьей стороне использовать модель только для вывода и тонкой настройки. Код обучения модели, исходный набор данных, детали архитектуры и методология обучения не предоставляются.

Разработка компанией DeepSeek мощной LLM — за малую долю капитальных затрат, которые обычно инвестируют такие крупные компании, как Meta и OpenAI — показывает, насколько далеко продвинулись китайские компании в сфере ИИ, несмотря на санкции США , которые заблокировали им доступ к передовым полупроводникам, используемым для обучения моделей.

Используя новую архитектуру, разработанную для достижения экономически эффективного обучения, DeepSeek потребовал всего 2,78 миллиона часов GPU — общее количество времени, которое графический процессор использует для обучения LLM — для своей модели V3. Процесс обучения стартапа использовал графические процессоры Nvidia H800 , разработанные для Китая .

Этот процесс занял существенно меньше 30,8 млн часов работы GPU, которые потребовались материнской компании Facebook Meta для обучения модели Llama 3.1 на более продвинутых чипах Nvidia H100, экспорт которых в Китай запрещён.

«DeepSeek V3 выглядит более мощной моделью, требующей всего 2,8 миллиона часов работы GPU», — написал Карпати в своем посте X.

Технический отчет по V3, опубликованный DeepSeek, показал, что его LLM превзошел Llama 3.1 от Meta и Qwen 2.5 от Alibaba Group Holding в серии контрольных тестов, оценивающих возможности системы ИИ по пониманию и генерации текста, экспертным знаниям в предметной области, кодированию и решению математических задач. Alibaba владеет South China Morning Post.

Те же тесты производительности показали, что результаты V3 совпадают с результатами OpenAI GPT-4o и Claude 3.5 Sonnet от поддерживаемой Amazon.com компании Anthropic .

DeepSeek был выделен в июле прошлого года компанией High-Flyer Quant , которая использует ИИ для управления одним из крупнейших количественных хедж-фондов в материковом Китае.

По данным сайта компании из Ханчжоу, High-Flyer потратила 200 миллионов юаней (27,4 миллиона долларов США) на разработку кластера искусственного интеллекта Fire Flyer I в период с 2019 по 2020 год, а затем потратила еще 1 миллиард юаней на создание Fire-Flyer II.

В своем заявлении в апреле прошлого года High-Flyer заявила, что целью разработки DeepSeek является создание «ИИ, который принесет пользу всему человечеству». Ранее DeepSeek запустила серию моделей ИИ, которые используются разработчиками для создания сторонних приложений, а также собственного чат-бота.

Подпишитесь на канал,чтобы не пропустить новые обзоры, советы по выбору гаджетов и полезные рекомендации.

dzen.ru

Технологии и электроника. Обзоры новых гаджетов, программного обеспечения и технологических инноваций. | Дзен