Ещё в 2022 году создание большой языковой модели (LLM) было передовым достижением в области искусственного интеллекта (ИИ). Три года спустя экспертов уже не так просто впечатлить. Чтобы действительно выделиться на переполненном рынке, лаборатории ИИ нужно не просто создать высококачественную модель, но и сделать это дёшево. В декабре китайская компания DeepSeek попала в заголовки СМИ, сократив стоимость обучения пограничной модели с 61,6 млн долларов (стоимость Llama 3.1, LLM) до всего 6 млн долларов. В препринте, опубликованном в феврале, исследователи из Стэнфордского университета и Вашингтонского университета утверждают, что добились на несколько порядков лучших результатов, обучив свой LLM s1 всего за 6 млн долларов. Другими словами, на обучение DeepSeek потребовалось 2,7 млн часов компьютерного времени, а на обучение s1 — чуть меньше семи часов. Цифры поражают воображение, но сравнение не совсем прямое. В то время как чат-бот DeepSeek v3 был обучен с нуля — несмотря на обвинени
Развитие ИИ. Крупные языковые модели становятся все дешевле
13 февраля 202513 фев 2025
4
3 мин