Модель R1 от Китайского разработчика DeepSeek наделала шуму на неделе. Капитализация американских технологических компаний рухнула на триллион долларов в день анонса модели. И вот почему:
R1 показывает результаты на уровне или лучше топовой модели OpenAI o1
Обучение R1 стоило 6 млн долл против сотен млн долл в случае o1, что рушит экономику разработчиков чипов типа Nvidia
R1 имеет открытые веса, а это значит, что любой может скачать ее из интернета, установить, и платить только за электричество, не платя маржу разработчику; Стоимость токенов R1 в таком случае почти в 30 раз ниже, чем у o1, что рушит экономику разработчиков закрытых базовых моделей
О ужас! R1 - китайская, что является психологическим ударом по самомнению считающих себя великими и недосягаемыми американцев
В чем фишка R1? Давайте разберем:
🟡Обучение с подкреплением (reinforcement learning)- позволяет выставить цель и награждать модель за достижение цели. При этом модель сама методом проб и ошибок учится тому, как достичь цели. Например, если цель - это корректно решенное математическое задание, то модель будет пробовать много разных подходов, пока не поймет, как решается придти к корректному решению этой задачи. Такой подход используется для обучения роботов понимаю оптимальных действий в незнакомой ситуации, для создания ботов, выигрывающих в игры (atari, GO) и в автономных автомобилях. Я сам обожаю reinforcement learning, и всегда считал, что он незаслуженно получает мало внимания несмотря на его гибкость. Наконец это меняется.
🟡Chain-of-thought - принцип, что если попросить модель объяснить каждый этап того, как она пришла к ответу, то ответ будет более точный, чем если она будет думать не кусками над каждым шагом, а над всей проблемой целиком; DeepSeek использовала такие цепочки, сгенерированные одной моделью, для обучения другой модели.
🟡Mixture of Experts - архитектура MoE разделяет большую модель на более мелкие специализированные подмодели или «экспертов». Это позволяет модели развивать экспертные знания в различных проблемных областях. Подход MoE позволяет R1 масштабироваться до 671 миллиарда параметров без пропорционального увеличения вычислительных затрат: во время генерации ответа активируется только 37 миллиардов параметров. Эта выборочная активация имеет решающее значение для эффективного использования ресурсов.
🟡Дистилляция - техника для снижения количества параметров модели, что сильно уменьшает стоимость ее использования без особой потери качества. Обучающаяся модель использует ответы другой модели чтобы научиться. Прелесть в том, что можно сгенерировать очень много отличных ответов одной моделью и скормить ее другой, что увеличивает насмотренность обучаемой модели. Я открыл для себя этот подход на одной из лекций сотрудника DeepMind в Стэнфорде еще год назад, и тогда был поражен тем, к чему это может привести. Вот приводит.
Модель R1 от Китайского разработчика DeepSeek наделала шуму на неделе. Капитализация американских технологических компаний рухнула на триллион долларов в день анонса модели. И вот почему:
R1 показывает результаты на уровне или лучше топовой модели OpenAI o1
Обучение R1 стоило 6 млн долл против сотен млн долл в случае o1, что рушит экономику разработчиков чипов типа Nvidia
R1 имеет открытые веса, а это значит, что любой может скачать ее из интернета, установить, и платить только за электричество, не платя маржу разработчику; Стоимость токенов R1 в таком случае почти в 30 раз ниже, чем у o1, что рушит экономику разработчиков закрытых базовых моделей
О ужас! R1 - китайская, что является психологическим ударом по самомнению считающих себя великими и недосягаемыми американцев
В чем фишка R1? Давайте разберем:
🟡Обучение с подкреплением (reinforcement learning)- позволяет выставить цель и награждать модель за достижение цели. При этом модель сама методом проб и ошибок учится тому, как достичь цели. Например, если цель - это корректно решенное математическое задание, то модель будет пробовать много разных подходов, пока не поймет, как решается придти к корректному решению этой задачи. Такой подход используется для обучения роботов понимаю оптимальных действий в незнакомой ситуации, для создания ботов, выигрывающих в игры (atari, GO) и в автономных автомобилях. Я сам обожаю reinforcement learning, и всегда считал, что он незаслуженно получает мало внимания несмотря на его гибкость. Наконец это меняется.
🟡Chain-of-thought - принцип, что если попросить модель объяснить каждый этап того, как она пришла к ответу, то ответ будет более точный, чем если она будет думать не кусками над каждым шагом, а над всей проблемой целиком; DeepSeek использовала такие цепочки, сгенерированные одной моделью, для обучения другой модели.
🟡Mixture of Experts - архитектура MoE разделяет большую модель на более мелкие специализированные подмодели или «экспертов». Это позволяет модели развивать экспертные знания в различных проблемных областях. Подход MoE позволяет R1 масштабироваться до 671 миллиарда параметров без пропорционального увеличения вычислительных затрат: во время генерации ответа активируется только 37 миллиардов параметров. Эта выборочная активация имеет решающее значение для эффективного использования ресурсов.
🟡Дистилляция - техника для снижения количества параметров модели, что сильно уменьшает стоимость ее использования без особой потери качества. Обучающаяся модель использует ответы другой модели чтобы научиться. Прелесть в том, что можно сгенерировать очень много отличных ответов одной моделью и скормить ее другой, что увеличивает насмотренность обучаемой модели. Я открыл для себя этот подход на одной из лекций сотрудника DeepMind в Стэнфорде еще год назад, и тогда был поражен тем, к чему это может привести. Вот приводит.
Все эти подходы не новые и были известны последние пару лет. DeepSeek была первой кто комбинировала их для результата. А я постараюсь в будущих постах подробнее рассказать о RL, COT, MoE и дистилляции. Оставайтесь с нами)