1293 подписчика
Понравилось. Делаем свой собственный chatGPT. Итак:
"На фоне непрерывного хайпа с ChatGPT народ спрашивает - а что стоит самому эту штуку сделать. Итак:
Для средненькой LLM модели (Llama 2 7) - допустим в 150 млн параметров, Вам надо:
1) Найти офлайновые текстовые корпусы из интернета. Например из wiki - это где то 30TB текста (chunk of the Internet), если ограничиться только английским и размеченным - то можно уложиться в 10TB
2) Запустить обучение на кластере нейропроцессоров. Берем NVIDIA RTX™ A6000 GPU Instances On Lambda Cloud. Сама программа несложная - максимум 1000 строк на pytorch/tensorflow (Llama 2 на с++). Но чтобы обучиться в разумное время - за пару недель - нужна производительность 1^24 FLOPS. Это 6000 GPU и время обучения ~ 12 суток. Цена такой железки ~ 2 млн $ , в аренду будет около ~ 35 тыс. $
3) Получаем размеченную матрицу параметров "базовая модель" - в принципе ее можно получать раз в год или реже. Но матрица будет кривая и в ней будут т.н. "галлюцинации". Плюс вспоминаем что нейросети - нелинейная функция с высокой специфичностью ("гиперспецифичность")- при попадании входных значений за рамки выборки обучений - результат будет неожиданный. Докручиваем это руками.
4) Ручной тюнинг. Увы но делается руками и ее делать надо хотя бы раз в неделю. Либо нанимаем специально обученных людей - либо делаем Open API - и натравливаем миллионы волонтеров. Оценочно для нашей 150 млн параметрической матрицы нужно не менее 100 тыс качественных QA.
5) Еще по уму надо сделать защиту от ее "переобучения" в неправильную сторону (LLM Security) - jailbreak, prompt injections, backdoor и пр, чтобы нас не засудили пользователи.
Ну в общем то и все. Правда в реальности ChatGP 3.5 и 4 используют гораздо больше параметров. Оценочно (точную цену точно никто не скажет) - железка для их расчетов стоит ~ 600 млн $ (день работы ~ 1 млн $) , и использует около 2 млн GPU с производительностью 5 * 10 ^ 26 FLOPS . И конечно учитываем зарплату 700 разработчиков и менеджмента"
1 минута
30 ноября 2023