#ai_inside #paper Тут DeepMind выпустили сразу три статьи — и все про генеративные модели (GPT-3 like). Вот о чем понаписали в первой: (о второй и третьей — в следующих постах) Статья #1. Обзор качества генеративных моделей в зависимости от их размера (кол-ва параметров) и Gopher Мы привыкли считать, что чем больше нейросеть, тем лучше она работает (ну, при условии хорошего обучения). Самая большая версия GPT-3 имеет 175 миллиардов параметров и считается лучшей нейронкой для генерации текста. Кажется, чтобы сделать еще более крутую нейросеть для текстовых задач, нужно просто добавить еще параметров. Однако не все так однозначно. Существуют разные виды задач, которые решаются NLP моделями вроде GPT-3: это и просто генерация текста, это question answering, классификация токсичного языка, факт-чекинг и т.д. И, оказывается, не для всех этих задач увеличение числа параметров сети делает качество сети лучше. В DeepMind сравнили качество различных версий языковых моделей на различных задачах