Архитектура: дом без перепланировок и «кухня» обучения Начнем с базы. Самое интересное: архитектура, то есть «план», по которому проектируются модели, почти не менялся с 2019 года (времена GPT-2). Никаких больших научных открытий с тех пор не было. Все улучшения — это работа с деталями. Аналогия: дом, в котором периодически делают косметический ремонт и покупают новую мебель, но фундамент никто не трогает. Мы выжимаем максимум из идей семилетней давности. И ждем новых. ⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯⎯ Как «воспитывают» нейросети: от интернет-форумов до диссертаций Расскажу немного об этапах обучения языковой модели: 1. Pre-training (Предобучение). Я думала, что это что-то вроде «запихнуть в модель весь интернет». Отчасти так и есть, и часть информации забывается, как и у людей при обучении. Но еще на этом этапе идет жесткая фильтрация. Например, посты с Reddit (огромный англоязычный форум, где обсуждают всё — от квантовой физики до рецептов пирогов) специально очищают от орфографических ошибок и