За последние два года - за время невероятной популярности Generative AI - появилось много перспективных компаний, создающих новые прорывные модели. Последний пример - это китайский стартап DeepSeek, благодаря которому у нас есть открытые аналоги OpenAI GPT-4o и o1. С теми же (что проверено бенчмарками) возможностями в плане выполнения текстовых инструкций, задач на математику, логику и кодинг. Становится любопытно, почему не особенно известный до сих пор стартап делает модели лучше, чем OpenAI? OpenAI, получивший недавно 100 миллиардов долларов инвестиций на инфраструктуру, по их заявлению. А DeepSeek еще и выкладывает эти модели в опенсорс с MIT лицензией, бери и пользуйся. В чем их секрет? Вспомним, на чем держится опенсорсная разработка больших языковых моделей (да и других, не только языковых моделей на базе трансформера). Уже старый эксперимент в Стэнфорде с Альпакой показал неожиданную способность небольшой LLM на архитектуре Llama обучаться до качества тогдашней флагманской моде
Почему DeepSeek способен конкурировать с OpenAI и как повторить их опыт
29 января 202529 янв 2025
2 мин