Весь мир напрягся, потом расслабился и снова напрягся. как китайцам удалось сделать такой рывок. Много не очень ясных моментов про цену, время сколько понадобилось на разработку DeepSeek всё это только со слов разработчиков, но есть открытые данные по архитектуре этого бота, ещё кое-какие публикации, по которым можно сделать некоторые предположения. Я обобщил, что удалось найти для людей из бизнеса и попытался очень простым языком рассказать, как устроено это чудо-техники.
Что это такое?
Представьте себе огромного робота, который умеет понимать и создавать тексты, почти как человек. Такой робот — это языковая модель DeepSeek. Однако, чтобы «натренировать» такого робота, нужно очень много вычислительной мощности и дорогостоящего оборудования. В этой статье мы расскажем простыми словами, как разработчики смогли значительно сократить расходы на обучение и работу модели DeepSeek, не потеряв при этом в качестве.
Чего хотели добиться китайцы?
Главная цель, которую ставили перед собой разработчики DeepSeek, заключалась в том, чтобы:
- Снизить затраты на обучение модели. Это значит, что обучение модели требует меньше дорогого оборудования.
- Уменьшить расходы на запуск модели. То есть, чтобы модель работала быстрее и дешевле, даже если используется большое количество видеокарт.
Как выглядит вся их задумка простыми словами.
Представьте себе спортивную команду, где все игроки работают слаженно и без простоев. Если один игрок долго ждет, пока другие выполнят свою часть работы, вся команда тормозится. Разработчики DeepSeek столкнулись с похожей проблемой при обучении своей модели. Им нужно было найти способ сделать так, чтобы все «игроки» — в данном случае видеокарты — работали одновременно и максимально эффективно, без потерь времени и ресурсов.
Что они хитрого придумали, до чего не догадались американцы.
В этом разделе будет чуть сложнее понять, поэтому можете просто бегло пробежаться, но уверен, что многих поразит как здорово они придумали. И так 5 крутых идей, на которых держится это чудо.
1. Работа на большом кластере видеокарт
Для обучения DeepSeek используется целый кластер из 2048 видеокарт. Эти видеокарты соединены специальными кабелями, которые позволяют им быстро обмениваться информацией. Это похоже на командную работу, где каждый участник знает, когда и что нужно сделать.
2. Особые программные решения
Чтобы управлять такой огромной группой видеокарт, разработчики применили специальные программы — так называемые фреймворки. Они помогают распределить задачи так, чтобы каждая видеокарта обрабатывала свою часть работы и не простаивала. Это как на конвейерной сборочной линии, где каждый работник выполняет свою задачу без остановок.
3. Оптимизация «внимания» модели
В обычных моделях применяется метод, называемый «тензорный параллелизм», когда задачи делятся между видеокартами. Но DeepSeek использует особую технологию, которую можно назвать «многоголовым латентным вниманием». Этот метод позволяет экономить память и ускоряет обработку данных. Можно представить, что вместо одного большого «мозга», который работает медленно, используется несколько маленьких, каждый из которых отвечает за свою задачу.
4. Экспертная система внутри модели
DeepSeek содержит множество «экспертов», каждый из которых специализируется на определённом виде задач, например, на написании текста или запоминании информации. Если один эксперт перегружен, создаются его дополнительные копии, чтобы нагрузка распределялась равномерно. Это напоминает ситуацию, когда в команде несколько специалистов по одной теме помогают друг другу в пиковые моменты.
5. Экономия памяти с помощью нового формата чисел
Обычно для хранения информации используют формат чисел BF16, который занимает много места в памяти. Разработчики DeepSeek решили перейти на формат FP8, который требует меньше памяти. Конечно, меньше памяти — это риск потерять точность, но с помощью специальных методов (называемых «тонкой квантизацией» и «увеличенной аккумуляцией») удалось сохранить качество вычислений. Это как если бы вы писали черновик на бумаге меньшего размера, но при этом использовали особый способ записи, чтобы ничего не потерялось.
Выводы
Разработчики DeepSeek сумели добиться значительного сокращения затрат на обучение и работу модели за счёт:
- Эффективного использования большого количества видеокарт. Все «игроки» работают синхронно, как хорошо отлаженная спортивная команда.
- Инновационных программных решений, которые позволяют равномерно распределить задачи и избежать простоев.
- Оптимизации обработки данных за счёт применения новых методов, таких как многоголовое внимание и экспертное распределение нагрузки.
- Экономии видеопамяти благодаря использованию нового числового формата FP8 с дополнительными мерами для сохранения точности.
Таким образом, несмотря на то, что архитектура модели основана на известных идеях, благодаря грамотной оптимизации и инновационному подходу разработчики DeepSeek смогли создать мощный инструмент, который работает почти так же хорошо, как самые передовые аналоги, но стоит значительно дешевле.
Эта история показывает, что даже в мире сложных технологий можно найти способы сделать работу более эффективной и экономичной, если правильно организовать процесс и использовать современные инновационные методы.
Или как мы говорим в России "Век живи - век учись, а ....."
Подписывайтесь на Телеграм-канал "Агатов Борис Tech - Магазин 4.0"