О появлении GPT-3 (третье поколение алгоритма обработки естественного языка от OpenAI) объявили в мае 2020 года. А теперь генеральный директор OpenAI Сэм Альтман заявил, что на подходе GPT-4 — релиз состоится уже в этому году
Уже точно известно, что у GPT-4 не будет 100 трлн параметров (то есть, в 500 раз больше, чем заложено в GPT-3). Новая модель будет не намного больше GPT-3 — где-то между GPT-3 и Gopher (175-280 млрд параметров). Кроме того, GPT-4 будет полносвязной, но при этом обычной языковой моделью, а не мультимодальной, как DALL-e или MUM.
Megatron-Turing NLG, созданный Nvidia и Microsoft в прошлом году, до недавнего времени удерживал звание крупнейшей монолитной языковой модели с 530 млрд параметров — это уже в три раза больше, чем GPT-3 (теперь PaLM от Google удерживает титул рекордсмена с 540 млрд).
Но больше, не значит лучше. Преимущества моделей меньшего размера, но с лучшими результатами, разрабы уже осознали. Например, MT-NLG, несмотря на свои размеры, не является лучшим с точки зрения производительности: модель не смогла показать лучшие результаты ни в одной категории. Модели поменьше вроде Gopher (280 млрд параметров) или Chinchilla (70 млрд) в решении задач оказались намного лучше MT-NLG.
Кроме того, обычно языковые модели страдают от недооптимизации: обучение настолько дорогое, что компаниям приходится искать компромисс между точностью модели и стоимостью ее обучения. Вторая проблема, вытекающая из первой — ограниченный анализ поведения модели. Google, Microsoft, Facebook и другие тратили миллионы на все более крупные модели, вредя и экологии, и самим себе. Теперь компании во главе с DeepMind и OpenAI изучают другие подходы. Они пытаются найти оптимальные модели, а не просто большие.