Добавить в корзинуПозвонить
Найти в Дзене
СамолётЪ

Робот Макс – наш ответ ChatGPT? Технологический суверенитет — это наличие в стране компаний, способных влиять на глобальную повестку

Когда я писал в Самолёте в конце января о тогдашней главной технологической сенсации, которой стал китайский ИИ-стартап DeepSeek со своей бесплатной языковой моделью R1, то закончил статью цитатой депутата Госдумы Михаила Делягина, полной оптимистического визионерства по поводу способности России установить в новом, распадающемся мире, контроль над собственным «макрорегионом», основываясь на собственном ИИ – «основе суверенитета» - уже даже не технологического, а просто суверенитета. Сегодня можно попытаться прикинуть, какие у России есть для этого возможности. Когда в понедельник, 27 января, малоизвестный широкой аудитории китайский стартап, появившийся только в 2023 году, оставил индекс NASDAQ 100 без триллиона капитализации, возможно, в российских высоких кабинетах задавались вопросом: «Почему какой-то DeepSeek, а не «Яндекс» или «Сбер»?». Хотя, может быть, и не задавались – вон сколько у начальства забот! Но на самом деле вопрос-то не праздный. Потому что специалистам хорошо извест
Оглавление
Коллаж СамолётЪ
Коллаж СамолётЪ

В Российской Федерации есть множество выдающихся специалистов в области математики и программирования. В стране разработаны технологии беспилотного вождения, создан поисковик, который может соперничать с Google, а также голосовые помощники и умные колонки, с которыми общаться интереснее, чем с Alexa и Siri. Тем не менее в России не существует генеративных нейросетей, способных конкурировать с последними версиями ChatGPT или удивить всех, как это сделал китайский DeepSeek. В чём причина?

Когда я писал в Самолёте в конце января о тогдашней главной технологической сенсации, которой стал китайский ИИ-стартап DeepSeek со своей бесплатной языковой моделью R1, то закончил статью цитатой депутата Госдумы Михаила Делягина, полной оптимистического визионерства по поводу способности России установить в новом, распадающемся мире, контроль над собственным «макрорегионом», основываясь на собственном ИИ – «основе суверенитета» - уже даже не технологического, а просто суверенитета.

Сегодня можно попытаться прикинуть, какие у России есть для этого возможности.

Наш ответ ChatGPT

Когда в понедельник, 27 января, малоизвестный широкой аудитории китайский стартап, появившийся только в 2023 году, оставил индекс NASDAQ 100 без триллиона капитализации, возможно, в российских высоких кабинетах задавались вопросом: «Почему какой-то DeepSeek, а не «Яндекс» или «Сбер»?». Хотя, может быть, и не задавались – вон сколько у начальства забот!

Но на самом деле вопрос-то не праздный. Потому что специалистам хорошо известно, что «Яндекс», выпустил языковую модель YaLM ещё летом 2021 года, а «Сбер» взявлся за свой RuGPT даже раньше «Яндекса». Но ни тот, ни другой в мировой гонке за первенство в сфере искусственного интеллекта теперь как будто не участвуют. За рубежом о российских нейросетях не пишут. Российские же СМИ рассказывают досужим читателям, как GigaChat от «Сбера» помогает Владимиру Путину отбирать вопросы для «Прямой линии», YandexGPT отказывается отвечать Дмитрию Медведеву на вопросы о Степане Бандере, а Робот Макса - цифровой помощник на Госуслугах – становится посредником между вологжанами и чиновниками – подает за граждан заявление на заготовку древесины…

То есть не могут похвастаться большими достижениями – генеративные сети обеих российских компаний лишь немногим превзошли GPT-3.5, которую OpenAI выпустила ещё в конце 2022-го.

Между тем оба российских технологических гиганта одними из первых начали разрабатывать технологии обработки естественного языка. Даже те самые большие языковые модели, которые сейчас активно используются в сфере искусственного интеллекта, «Сбер» и «Яндекс» начали тестировать задолго до того, как OpenAI выпустила свой ChatGPT. А уж тем более задолго до того, как основатель китайского DeepSeek Лян Вэньфэн собрал свою команду учёных.

Например, «Сбер» ещё в 2020 году выпускал модели семейства RuGPT, а «Яндекс» с 2021 года обучал сервис «Балабоба» генерации текстов с помощью модели YaLM.

Когда же российский искусственный интеллект начал отставать?

Все, Что Вам Нужно – это Внимание

Историю развития генеративных нейросетей принято отсчитываь с 2017 года, когда группа исследователей из Google опубликовала научную работу под названием «Attention Is All You Need». До этого момента существовали технологии, позволяющие генерировать текст, но предложенная учёными архитектура Transformer радикально изменила представление о том, на что теоретически способны нейросети.

Transformer предложил механизм «самовнимания», который позволяет модели видеть весь контекст и понимать связи между словами в тексте. В отличие от предыдущих подходов, когда нейросети обрабатывали текст последовательно, слово за словом, Transformer способен анализировать весь текст сразу и определять наиболее важные слова для понимания общего смысла. Это делает генерацию и обработку текста более точной и быстрой, поскольку модель может работать с несколькими словами одновременно, а не обрабатывать их по отдельности.

Тогда, восемь лет назад, научный прорыв заметили лишь инженеры, работавшие над технологиями обработки естественного языка, — и стали искать ему практическое применение. Но нашли не сразу.

Первая более-менее крупная модель — GPT-3 от OpenAI со 175 млрд параметров — появилась в 2020 году. Как поясняют специалисты, это была модель, прошедшая лишь первый этап обучения или предобучение: она знала что-то о мире и могла генерировать тексты, но еще не могла быть полноценным ассистентом. Всех умиляло, что сеть может генерировать тексты, похожие на человеческие, но ей нельзя было дать задачу и ждать решения. А если спросить: «сколько будет два плюс два», она вполне могла дать ответ не «четыре», а «сколько будет два плюс три».

Так что даже в тот момент ещё было совершенно не очевидно, какой потенциал есть у этой технологии. Тем более, что первый этап обучения трансформера оказался очень дорогим. Например, еще в 2020 году на обучение той же GPT-3, то есть модели, которая ещё мало что умела, потребовалось, по разным оценкам, от $5 до $12 млн, а обучалась она на кластере в 10 тысяч графических процессоров (GPU) Nvidia.

Вероятно, поэтому до 2022 года LLM были многообещающим, но не ключевым направлением, которое требовало значительных вложений и научных изысканий. «Яндекс», например, уделял больше внимания развитию технологий автономного вождения.

Тем не менее летом 2022 года «Яндекс» выложил в открытый доступ свою нейросеть YaLM на 100 млрд параметров — тогда это была самая большая опенсорс-модель для русского языка. Но она, как отмечали эксперты, была слабой, недообученной и очень громоздкой – её размер мешал развернуть систему на серверах клиентов.

У компании не было ни опыта, ни средств: российские разработчики изучали научные работы конкурентов и пытались повторить их результаты, но на менее мощном оборудовании и с меньшим бюджетом. Результаты получались хуже и медленнее.

Всё изменилось в конце ноября 2022 года, когда OpenAI представила ChatGPT. Это событие стало поворотным моментом для всей отрасли.

Совсем отставшие?

За два месяца ChatGPT набрал первые 100 млн пользователей, а о революции в сфере искусственного интеллекта заговорили по всему миру. Главная револуционность была в подходе - большая модель стала универсальной, её не нужно было переобучать под каждую задачу, нужно было просто давать ей новые инструкции.

Революционность подхода оценили и в России. Но сразу же столкнулись с проблемой дефицита вычислительных мощностей у российских игроков. «Яндекс» и «Сбер» не раскрывают данные о запасах своих графических процессоров, но специалисты полагают, что их недостаточно для тренировки больших моделей.

Рынок России оказался не готов к буму нейросетей: поставщики вычислительных ресурсов не ожидали, что в 2022 году станет сложнее приобретать оборудование.

Не было сделано никаких предварительных закупок дорогостоящих графических процессоров (GPU), которые используются для обучения нейросетей. Стоимость таких видеокарт может достигать 30–40 тысяч долларов за единицу, и это без учёта дополнительных расходов на параллельный импорт.

Кроме того, российским разработчикам приходилось полагаться на собственные мощности, так как в России нет рынка аренды оборудования с необходимыми характеристиками. Западные игроки покинули рынок, отмечают эксперты. Убеждённые: всё, что делают российские разработчики, сейчас не идёт ни в какое сравнение с тем, что происходит в США и Китае.

«Сотни видеокарт для дообучения — это нормальная практика, но для создания действительно большой модели на претрен может не хватить и тысяч», — поясняет автор телеграм-канала «что-то на DL-ском» Карина Романова.

Ещё одна важнейшая проблема, с которой столкнулись и «Яндекс», и «Сбер», — это квалифицированные специалисты. «Вдруг» выяснилось, что людей, способных разрабатывать что-то принципиально новое, в мире вообще не так уж много — и большая часть из них уже работает в OpenAI и его американских конкурентах.

Кроме того, ни «Яндекс», ни «Сбер» не располагают достаточным объёмом «чистых данных», то есть информации, очищенной от разметки, бессмысленных SEO-текстов и дубликатов, как поясняет создатель «Сайги» Илья Гусев. Проблема заключается в сборе и обработке данных.

Существует два способа сбора данных. Первый — подготовить множество небольших и относительно чистых дата-сетов и объединить их в один большой. Второй — взять архив интернета и тщательно очистить его.

Для первого способа требуется много времени и усилий для сбора небольших дата-сетов, а для второго — большое количество вычислительных мощностей для отладки алгоритмов очистки.

«Сбер», насколько известно, использовал первый способ, и он не очень хорошо масштабируется. «Яндекс» в более выгодном положении благодаря наличию поиска, но это касается только русского языка, но не хорошо для модели, которая могла бы работать на множестве языков.

Вся эта совокупность факторов и привела к отставанию отечественных разработчиков ИИ, которое, по некоторым оценкам, уже составляет «полтора поколения». И с учётом высоких процентных ставок в стране ситуация будет только ухудшаться: требуются большие инвестиции, деньги стали дорогими, а ликвидность отсутствует», — отмечает автор книги Machine Learning System Design Валерий Бабушкин.

На эту же проблему указывает и директор Фонда развития интернет-инициатив (ФРИИ) Кирилл Варламов, когда говорит, как сложно «заинтересовать инвесторов при ставке депозита 23% годовых». Он же отмечает, что «в значимом количестве ниш нам нечем заменить иностранный софт, существующие продукты — это недостаточно зрелые решения».

Однако в пресс-службе «Сбера» уверенно заявляют: «Наша новая модель GigaChat MAX по многим параметрам превосходит ряд зарубежных сервисов в задачах на русском языке. Кроме того, наш сервис одним из первых в мире успешно прошёл выпускной экзамен высшего медицинского учреждения».

Но об этом, похоже, знают только в «Сбере». За последние 30 лет в стране так и не появилась целостная система выращивания технологических вендоров, способных обеспечить технологический суверенитет в стране, констатирует Варламов. И поясняет:

«Технологический суверенитет появится, когда в стране возникнут компании, способные влиять на глобальную повестку за счет технологий, за счет того, что являются глобальным технологическим вендором, владельцем глобальной платформы. И если мы хотим играть в такую игру, значит надо выращивать таких вендоров. У Китая, например, их несколько десятков».

Для этого нужны деньги, вычислительные ресурсы и знающие люди. И пока всего этого нет, а внутренний рынок вендоров находится в «замороженном» состоянии, бодрый робот Макс помогает вологжанам покупать дрова…

#технологии #искусственныйинтеллект

Друзья, делитесь своим мнением, ставьте лайки, подписывайтесь на наш канал! Только ваша поддержка позволяет нам работать.

СамолётЪ