6 подписчиков

Развитие ИИ. Крупные языковые модели становятся все дешевле

13 февраля 202513 фев 2025

3 мин

Ещё в 2022 году создание большой языковой модели (LLM) было передовым достижением в области искусственного интеллекта (ИИ). Три года спустя экспертов уже не так просто впечатлить. Чтобы действительно выделиться на переполненном рынке, лаборатории ИИ нужно не просто создать высококачественную модель, но и сделать это дёшево. В декабре китайская компания DeepSeek попала в заголовки СМИ, сократив стоимость обучения пограничной модели с 61,6 млн долларов (стоимость Llama 3.1, LLM) до всего 6 млн долларов. В препринте, опубликованном в феврале, исследователи из Стэнфордского университета и Вашингтонского университета утверждают, что добились на несколько порядков лучших результатов, обучив свой LLM s1 всего за 6 млн долларов. Другими словами, на обучение DeepSeek потребовалось 2,7 млн часов компьютерного времени, а на обучение s1 — чуть меньше семи часов. Цифры поражают воображение, но сравнение не совсем прямое. В то время как чат-бот DeepSeek v3 был обучен с нуля — несмотря на обвинени

В декабре китайская компания DeepSeek попала в заголовки СМИ, сократив стоимость обучения пограничной модели с 61,6 млн долларов (стоимость Llama 3.1, LLM) до всего 6 млн долларов. В препринте, опубликованном в феврале, исследователи из Стэнфордского университета и Вашингтонского университета утверждают, что добились на несколько порядков лучших результатов, обучив свой LLM s1 всего за 6 млн долларов. Другими словами, на обучение DeepSeek потребовалось 2,7 млн часов компьютерного времени, а на обучение s1 — чуть меньше семи часов.

Цифры поражают воображение, но сравнение не совсем прямое. В то время как чат-бот DeepSeek v3 был обучен с нуля — несмотря на обвинения в краже данных от OpenAI, американского конкурента, и коллег, — s1 вместо этого «дообучен» на уже существующей модели Qwen2.5 LLM, разработанной Alibaba, другой ведущей китайской лабораторией в области ИИ. Другими словами, до начала обучения s1 модель уже могла писать, задавать вопросы и создавать код.

Подобное «копирование» может привести к экономии, но само по себе не может сократить расходы до однозначных цифр. Чтобы сделать это, американской команде пришлось отказаться от доминирующей парадигмы в исследованиях ИИ, согласно которой считается, что чем больше данных и вычислительных мощностей доступно для обучения языковой модели, тем выше её производительность. Вместо этого они предположили, что меньший объём данных достаточно высокого качества может выполнять ту же работу. Чтобы проверить это предположение, они собрали подборку из 59 000 вопросов, охватывающих всё — от стандартизированных тестов по английскому языку до задач по теории вероятностей для выпускников, — с целью сузить их до наиболее эффективного набора упражнений.

Чтобы понять, как это сделать, одних вопросов недостаточно. Нужны ещё и ответы. Поэтому команда попросила другую модель искусственного интеллекта, Gemini от Google, ответить на вопросы, используя так называемый логический подход, при котором “мыслительный процесс” модели используется совместно с ответом. Это дало им три набора данных для обучения s1: 59 000 вопросов, сопровождающие их ответы и “цепочки мыслей”, которые связывали их.

Затем они почти все это выбросили. Поскольку s1 была основана на Qwen AI от Alibaba, все, что эта модель уже могла решить, было ненужным. Все, что было плохо отформатировано, также было отброшено, как и все, что было решено с помощью модели Google без особых усилий. Если какая-либо проблема не добавляла разнообразия к общему набору обучающих данных, она также исключалась. Конечным результатом стала упрощенная система из 1000 вопросов, которая, как доказали исследователи, может обучить модель так же эффективно, как и модель, обученная всем 59 000 вопросов, - и за небольшую часть затрат.

Таких трюков предостаточно. Как и все модели рассуждений, s1 «думает» перед тем, как ответить, прорабатывая задачу, прежде чем объявить, что она завершена, и представить окончательный ответ. Но многие модели рассуждений дают более точные ответы, если им дать больше времени на обдумывание. Такой подход называется «вычисления во время тестирования». Поэтому исследователи нашли самый простой способ заставить модель продолжать рассуждать: когда она объявляет, что закончила думать, просто удалите это сообщение и вместо него добавьте слово «Подождите».

Эти приёмы тоже работают. Увеличение продолжительности мышления в четыре раза позволяет модели набирать более чем на 20 процентных пунктов больше баллов как по математике, так и по естественным наукам. Из-за того, что модель вынуждена думать в 16 раз дольше, она не может получить ни одной оценки на сложном экзамене по математике, а набирает 60% баллов. Конечно, усердное мышление обходится дороже, и затраты на логические выводы увеличиваются с каждым дополнительным “ожиданием”. Но поскольку обучение доступно так дешево, дополнительные расходы могут того стоить.

Исследователи говорят, что их новая модель уже превосходит первую попытку OpenAI в этой области, сентябрьскую предварительную версию o1, по показателям математических способностей. Повышение эффективности — это новый рубеж.