Найти в Дзене
4pda.to

GPT-3 исполнилось пять лет. Как развились языковые модели за это время?

В июне 2020 года OpenAI представила GPT-3. Именно на этой модели базировалась дебютная версия ChatGPT. С тех пор ИИ-ассистенты прошли через серьёзную эволюцию, став эффективнее и умнее. Рассказываем о ключевых апгрейдах в отрасли. Самый очевидный прирост касается объёма данных, с которым могут взаимодействовать LLM. GPT-3 на 175 млрд параметров обладала контекстным окном в 2048 токенов; размер её базы данных составлял 300 млрд. Сегодня датасеты насчитывают триллионы токенов, а GPT 4.1 и Gemini 2.5 Pro способны похвастать миллионным контекстом. То есть знаний, которые единовременно умещаются в памяти, стало гораздо больше. Другое важное улучшение — экономия ресурсов. Многие современные модели содержат в десятки раз меньше параметров, чем GPT-3, но выдают схожую производительность. Всё благодаря оптимизации размеров и качества информационных массивов. Наконец, инструментарий у виртуальных помощников стал куда разнообразнее. Раньше GPT-3 просто формировала текст, последовательно предсказы
Оглавление
   GPT-3 исполнилось пять лет. Как развились языковые модели за это время?
GPT-3 исполнилось пять лет. Как развились языковые модели за это время?

В июне 2020 года OpenAI представила GPT-3. Именно на этой модели базировалась дебютная версия ChatGPT. С тех пор ИИ-ассистенты прошли через серьёзную эволюцию, став эффективнее и умнее. Рассказываем о ключевых апгрейдах в отрасли.

-2

От простой генерации текста до гибкого инструмента

Самый очевидный прирост касается объёма данных, с которым могут взаимодействовать LLM. GPT-3 на 175 млрд параметров обладала контекстным окном в 2048 токенов; размер её базы данных составлял 300 млрд. Сегодня датасеты насчитывают триллионы токенов, а GPT 4.1 и Gemini 2.5 Pro способны похвастать миллионным контекстом. То есть знаний, которые единовременно умещаются в памяти, стало гораздо больше.

Другое важное улучшение — экономия ресурсов. Многие современные модели содержат в десятки раз меньше параметров, чем GPT-3, но выдают схожую производительность. Всё благодаря оптимизации размеров и качества информационных массивов. Наконец, инструментарий у виртуальных помощников стал куда разнообразнее. Раньше GPT-3 просто формировала текст, последовательно предсказывая следующее уместное слово. Теперь доступны следующие функции:

  • Мультимодальность. На вход принимаются изображения, звук и видеоряд. Визуальный контент может нативно генерироваться и в ответ. Пример — GPT-4o.
  • Рассуждения. Механизм Reasoning дал крупный прирост в сложных задачах. Продумывание ответов шаг за шагом позволяет лучше писать код, справляться с математикой и не только.
  • Deep Research. Модели научились вызывать веб-поиск и проводить детальные исследования по любой теме.
  • Загрузка файлов, Python, память о чатах. Удобно загружать собственные документы и исполнять код в виртуальной среде. Запоминание релевантных сведений из прошлых диалогов помогает с персонализацией ответов.
  • Агентские навыки. Ассистенты вроде Operator и Codex способны автоматизировать часть работы в сети, выполняя действия в браузере.

Подход к обучению в целом сейчас более комплексный. Благодаря таким продвинутым методам, как RLHF (учитывание отзывов людей), ИИ лучше следует инструкциям, реже ошибается, заточен под конкретные задания и приятнее форматирует выдачу. Компактные нейронки с открытым кодом легко запускать даже на смартфоне, тогда как раньше на рынке доминировали проприетарные решения.

-3

Бенчмарки и примеры

Наглядно прогресс демонстрируют цифры в стандартизированных замерах. В метрике общего интеллекта и понимания языков MMLU та же GPT-3 набирала 43,9%. Актуальные модели нарастили результат вдвое. Gemini 2.5 Pro, Claude Opus 4 и o3 близки к 90-процентной отметке в том же тесте. Программирование высокого уровня стало доступнее массам. Если дебютный вариант ChatGPT особо не справлялся с такими сценариями, передовые аналоги способны выдавать неплохой код.

Ощутимая разница, которую сложнее измерить, касается человечности и эмоционального интеллекта моделей. Пользователи отмечают, что их настроение распознаётся лучше, а дружелюбная атмосфера поддерживается естественнее. Вдобавок за счёт более нюансированной цензуры «нежелательные» темы не отсекаются сходу. В этом плане заметна гибкость в ответах.