Найти в Дзене
Нейроношная

Что такое Small Language Model (SLM) и почему это следующий прорыв в развитии ИИ

В войнах ИИ, где технологические гиганты соревнуются в создании все более крупных языковых моделей, появляется удивительная новая тенденция: малое — это большое новое. Поскольку прогресс в области больших языковых моделей (LLM) демонстрирует некоторые признаки застоя, исследователи и разработчики все чаще обращают свое внимание на Small Language Model (SLM). Эти компактные, эффективные и легко адаптируемые модели ИИ бросают вызов представлению о том, что, чем больше, тем лучше, обещая изменить подход к разработке ИИ. Недавние сравнения производительности, опубликованные Vellum и HuggingFace, показывают, что разрыв в производительности между LLM быстро сокращается. Эта тенденция особенно очевидна в таких конкретных задачах, как: -вопросы с несколькими вариантами ответов, -рассуждения и математические задачи, где различия в производительности между ведущими моделями минимальны. Например, в вопросах с несколькими вариантами ответов Claude 3 Opus, GPT-4 и Gemini Ultra набирают более 83%, т
Small Language Model (SLM)
Small Language Model (SLM)

В войнах ИИ, где технологические гиганты соревнуются в создании все более крупных языковых моделей, появляется удивительная новая тенденция: малое — это большое новое. Поскольку прогресс в области больших языковых моделей (LLM) демонстрирует некоторые признаки застоя, исследователи и разработчики все чаще обращают свое внимание на Small Language Model (SLM). Эти компактные, эффективные и легко адаптируемые модели ИИ бросают вызов представлению о том, что, чем больше, тем лучше, обещая изменить подход к разработке ИИ.

Недавние сравнения производительности, опубликованные Vellum и HuggingFace, показывают, что разрыв в производительности между LLM быстро сокращается.

Эта тенденция особенно очевидна в таких конкретных задачах, как:

-вопросы с несколькими вариантами ответов,

-рассуждения и математические задачи, где различия в производительности между ведущими моделями минимальны.

Например, в вопросах с несколькими вариантами ответов Claude 3 Opus, GPT-4 и Gemini Ultra набирают более 83%, тогда как в задачах на рассуждение Claude 3 Opus, GPT-4 и Gemini 1.5 Pro превышают точность 92%.

Создание будущего ИИ с использованием кросс-функциональной экспертизы

Интересно, что даже меньшие модели, такие как Mixtral 8x7B и Llama 2 – 70B, показывают многообещающие результаты в определенных областях, таких как рассуждение и ответы на вопросы с несколькими вариантами ответов, где они превосходят некоторые из своих более крупных аналогов. Это говорит о том, что размер модели может быть не единственным определяющим фактором производительности и, что другие аспекты, такие как архитектура, данные для обучения и методы тонкой настройки, могут играть значительную роль.

Поскольку разрыв в производительности продолжает сокращаться, а все больше моделей демонстрируют конкурентоспособные результаты, возникает вопрос, действительно ли LLM начинают выходить на плато. Если эта тенденция сохранится, она может иметь значительные последствия для будущего развития и развертывания языковых моделей, потенциально смещая фокус с простого увеличения размера модели на исследование более эффективных и специализированных архитектур.

Недостатки LLM

LLM, хотя они, несомненно, мощные, имеют существенные недостатки.

1. Обучение LLM требует огромного количества данных, требующих миллиардов или даже триллионов параметров.

Это делает процесс обучения чрезвычайно ресурсоемким, а вычислительная мощность и потребление энергии, необходимые для обучения и запуска LLM, ошеломляют. Это приводит к высоким затратам, что затрудняет участие небольших организаций или отдельных лиц в разработке ядра LLM.

На мероприятии MIT в прошлом году генеральный директор OpenAI Сэм Альтман заявил, что стоимость обучения GPT-4 составляет не менее 100 миллионов долларов.

Сложность инструментов и методов, необходимых для работы с LLM, также представляет собой крутую кривую обучения для разработчиков, что еще больше ограничивает доступность. Для разработчиков существует длительный период времени от обучения до построения и развертывания моделей, что замедляет разработку и эксперименты.

2. Склонность LLM к “галлюцинациям” — генерации результатов, которые кажутся правдоподобными, но на самом деле не являются правдой или фактами.

Это происходит из-за того, как LLM обучаются предсказывать следующее наиболее вероятное слово на основе шаблонов в обучающих данных, а не иметь истинного понимания информации.

В результате, LLM могут уверенно производить ложные утверждения, выдумывать факты или комбинировать несвязанные концепции бессмысленными способами.

3. Масштаб и природа черного ящика LLM также могут сделать их сложными для интерпретации и отладки, что имеет решающее значение для создания доверия к выходным данным модели. Предвзятость в обучающих данных и алгоритмах может привести к несправедливым, неточным или даже вредным выходным данным.

Как видно на примере Google Gemini, методы, позволяющие сделать LLM «безопасными» и надежными, также могут снизить их эффективность. Кроме того, централизованная природа LLM вызывает опасения по поводу концентрации власти и контроля в руках нескольких крупных технологических компаний.

Появление малых языковых моделей (SLM)

SLM — это более оптимизированные версии LLM с меньшим количеством параметров и более простым дизайном. Они требуют меньше данных и времени на обучение — начиная от минут и до нескольких часов, в отличие от дней для LLM. Это делает SLM более эффективными и простыми для внедрения на месте или на меньших устройствах.

Одним из ключевых преимуществ SLM является их пригодность для конкретных приложений. Поскольку они имеют более узкую область применения и требуют меньше данных, их можно настраивать для конкретных доменов или задач быстрее и проще, чем большие модели общего назначения.

Такая настройка позволяет компаниям создавать SLM, которые высокоэффективны для их конкретных нужд, таких как анализ настроений, распознавание именованных сущностей или ответы на вопросы, специфичные для домена.

Специализированная природа SLM может привести к повышению производительности и эффективности в этих целевых приложениях по сравнению с использованием более общей модели.

Еще одним преимуществом SLM является их потенциал для повышения конфиденциальности и безопасности.

Благодаря меньшей кодовой базе и более простой архитектуре SLM легче поддаются аудиту и менее склонны к непреднамеренным уязвимостям. Это делает их привлекательными для приложений, обрабатывающих конфиденциальные данные, например, в здравоохранении или финансах, где утечки данных могут иметь серьезные последствия.

Кроме того, сниженные вычислительные требования SLM делают их более пригодными для локального запуска на устройствах или локальных серверах, а не для использования облачной инфраструктуры. Такая локальная обработка может дополнительно повысить безопасность данных и снизить риск раскрытия во время передачи данных.

SLM также менее склонны к “галлюцинациям” в пределах своей конкретной области по сравнению с LLM.

SLM обычно обучаются на более узком и более целевом наборе данных, который специфичен для их предполагаемой области или приложения, что помогает модели изучать закономерности, словарь и информацию, которые наиболее релевантны для ее задачи.

Такой фокус снижает вероятность генерации нерелевантных, неожиданных или непоследовательных выходных данных. С меньшим количеством параметров и более оптимизированной архитектурой SLM менее склонны к захвату или созданию ошибок в обучающих данных.

В феврале Google представила Gemma, новую серию небольших языковых моделей, разработанных для большей эффективности и удобства использования. Как и другие SLM, модели Gemma могут работать на различных повседневных устройствах, таких как смартфоны, планшеты или ноутбуки, без необходимости в специальном оборудовании.

Потенциал SLM

Поскольку сообщество ИИ продолжает изучать потенциал небольших языковых моделей, преимущества более быстрых циклов разработки, улучшенной эффективности и возможности адаптации моделей к конкретным потребностям становятся все более очевидными. SLM готовы демократизировать доступ к ИИ и стимулировать инновации в различных отраслях, предоставляя экономически эффективные и целевые решения.

Развертывание SLM на периферии открывает новые возможности для персонализированных и безопасных приложений в реальном времени в различных секторах, таких как финансы, развлечения, автомобильные системы, образование, электронная коммерция и здравоохранение.

Обрабатывая данные локально и снижая зависимость от облачной инфраструктуры, периферийные вычисления с SLM обеспечивают более быстрое время отклика, улучшенную конфиденциальность данных и улучшенный пользовательский опыт. Этот децентрализованный подход к ИИ может трансформировать способ взаимодействия предприятий и потребителей с технологиями, создавая более персонализированный и интуитивный опыт в реальном мире. Поскольку LLM сталкиваются с проблемами, связанными с вычислительными ресурсами, и потенциально достигают плато производительности, рост SLM обещает поддерживать развитие экосистемы ИИ впечатляющими темпами.