Найти тему
Артем А

10 главных трендов в развитии больших языковых моделей, за которыми стоит следить


1. Мультимодальность: Большие языковые модели (LLMs) становятся все более мультимодальными, то есть способны обрабатывать и генерировать информацию в различных форматах, включая текст, аудио, изображения и видео. Это позволит им взаимодействовать с пользователем на более естественном уровне.

2. Сближение открытых и закрытых моделей: Разрыв между закрытыми коммерческими моделями (ChatGPT, Claude, Bard) и открытыми моделями с открытым исходным кодом постепенно сокращается. Открытые модели, такие как Code Llama 70B и Mistral AI 8x7B, демонстрируют высокую производительность на стандартных тестах.

3. Расцвет малых языковых моделей: Высокая стоимость обучения и эксплуатации больших LLM ограничивает их применение. Поэтому разрабатываются малые LLM с меньшим количеством параметров, которые могут выполнять задачи менее ресурсоемко. Примеры: Stable LM (1.6 млрд параметров) и Microsoft Phi-2 (2.7 млрд параметров).

4. Снижение стоимости: Разработчики стремятся снизить стоимость обучения и эксплуатации LLM. OpenAI снизил цены на модель GPT 3.5 Turbo на 50% для ввода и на 25% для вывода. Anthropic также снизил стоимость Claude 2.

5. Прямая оптимизация предпочтений: Вместо обучения с подкреплением на основе обратной связи от людей (RLHF) начинает использоваться прямая оптимизация предпочтений (DPO). Это позволяет напрямую тренировать LLM на выполнение желаемых действий без использования сложных систем вознаграждения.

6. Автономные агенты: Автономные агенты, способные самостоятельно взаимодействовать с LLM и выполнять задачи, получают все большее развитие. Они могут использоваться для создания сайтов, проведения исследований и т.д., но при этом создают новые риски, например, в кибербезопасности.

7. Модели "видение-язык-действие" для роботов: Инвестиции в робототехнику растут, и все больше LLM используются для управления действиями роботов. Например, Google DeepMind разработала модель Robotics Transformer 2, которая позволяет роботу понимать команды и выполнять действия.

8. Индивидуальные чат-боты: Поставщики LLM предлагают все больше возможностей для создания собственных чат-ботов. OpenAI запустил GPT Store, где можно делиться индивидуальными версиями ChatGPT. Hugging Face позволяет создавать чат-ботов на основе любых открытых LLM.

9. Генеративное ИИ в потребительских приложениях: LLM внедряются в различные продукты для потребителей и предприятий. Aim Research прогнозирует, что к 2024 году 40% корпоративных приложений будут иметь встроенный чат-бот с ИИ, а к 2030 году 70% приложений будут выдавать результаты в реальном времени. Например, Grammarly использует генеративное ИИ для создания контента по запросу, а HubSpot предлагает инструменты на базе ИИ для создания текстов, заголовков и т.д.

10. Поиск информации для улучшения LLM: Исследователи используют метод Retrieval Augmented Generation (RAG) для подключения LLM к внешним базам знаний. Это позволяет модели получать доступ к актуальной информации и улучшать качество ответов. Исследования показывают, что использование RAG повышает качество ответов.

Вывод:
Большие языковые модели быстро развиваются. Мультимодальность, повышение эффективности и снижение стоимости делают их более доступными. Несмотря на то, что до настоящего искусственного интеллекта им еще далеко, LLM демонстрируют значительный прогресс, и их применение будет расти по мере появления новых сценариев использования.

Разработка больших языковых моделей