🧠 3 человека

28 мая28 мая

1 мин

4 видеокарты. Третья большая LLM в России — JustGPT 2023 год. CEO Just AI зашёл и сказал: «Костя, нам нужна своя большая русскоязычная LLM. Третья в стране — после Яндекса и Сбера». В команде нас было трое, включая меня. Двое других уже на других проектах. Собственных GPU — четыре RTX 4090. Звучало абсурдно. Согласился. Как выкрутились: 🔸 Не учили модель с нуля. Взяли Llama 2 на 70B — лучшую открытую модель момента — и адаптировали её под русский. Без чистки она продолжала выдавать «разогрейку» вместо «разогрева» и «амиusing» среди синонимов к «смешной». 🔸 Своих 4090 не хватало даже близко, только для отладки пайплайна на меньших версиях модели. Арендовали A100 на Selectel и прогнал на них пайплайн обучения 70B. 🔸 Полный файнтюн в наших сроках был исключён. Использовал LoRA-адаптеры — не трогаем веса базы, обучаем параллельные матрицы низкого ранга. Это физически позволило проекту состояться. 🔸 За данные — спасибо команде и лингвистам Just AI: инструктивные датасеты, фильтров

🧠 3 человека. 4 видеокарты. Третья большая LLM в России — JustGPT

2023 год. CEO Just AI зашёл и сказал: «Костя, нам нужна своя большая русскоязычная LLM. Третья в стране — после Яндекса и Сбера». В команде нас было трое, включая меня. Двое других уже на других проектах. Собственных GPU — четыре RTX 4090. Звучало абсурдно. Согласился.

Как выкрутились:

🔸 Не учили модель с нуля. Взяли Llama 2 на 70B — лучшую открытую модель момента — и адаптировали её под русский. Без чистки она продолжала выдавать «разогрейку» вместо «разогрева» и «амиusing» среди синонимов к «смешной».

🔸 Своих 4090 не хватало даже близко, только для отладки пайплайна на меньших версиях модели. Арендовали A100 на Selectel и прогнал на них пайплайн обучения 70B.

🔸 Полный файнтюн в наших сроках был исключён. Использовал LoRA-адаптеры — не трогаем веса базы, обучаем параллельные матрицы низкого ранга. Это физически позволило проекту состояться.

🔸 За данные — спасибо команде и лингвистам Just AI: инструктивные датасеты, фильтрованный OpenAssistant, переводы, синтетика.

🔸 Тестировали по своему бенчмарку — 200 инструкций на 11 тем, GPT-4 в роли судьи. Russian SuperGLUE для генеративных моделей не годится. Mera еще не появился

Результат через 3 месяца:

JustGPT — 146/200 верных. YandexGPT — 143. GigaChat — 123. По русскому языку лидировали мы — 12/13.

Позже независимый обзор vc.ru резюмировал: «Самые четкие и слаженные ответы мы смогли получить от нейросети JustGPT».

Стратегическая цель — заявить, что в России есть третий крупный игрок на LLM-рынке, кроме Яндекса и Сбера — была достигнута