Добавить в корзинуПозвонить
Найти в Дзене
Кочетов Алексей

Наконец-то в России открыли дорогу к созданию мощных суверенных ИИ

В правительстве наконец-то поняли, что ИИ из ничего не появляется, а российские «Алисы» и «Гигачаты» явно отстают на 2 поколения от мирового ИИ уровня.
Итак, в сфере законодательства российского ИИ подъехали, наконец-то, хорошие новости. Правительство только что фактически разрешило обучать ИИ на любых данных.
А также были удалены, на мой взгляд, самые тяжёлые ограничения, которые просто убивали

В правительстве наконец-то поняли, что ИИ из ничего не появляется, а российские «Алисы» и «Гигачаты» явно отстают на 2 поколения от мирового ИИ уровня.

Итак, в сфере законодательства российского ИИ подъехали, наконец-то, хорошие новости. Правительство только что фактически разрешило обучать ИИ на любых данных.

А также были удалены, на мой взгляд, самые тяжёлые ограничения, которые просто убивали качество моделей и делали жизнеспособность таких стартапов, как мой «маленький ИИ-проект», почти неподъёмным.

Я уже и так выдрессировал Маркиза на предмет безопасности, маркировки ИИ-контента, пользовательских правил и прочих ограничений противоправного использования, а также требований для гос/КИИ-сектора.

Теперь что изменилось.

-2

Ранее было основное и строгое требование:

«Суверенные и национальные модели должны были разрабатываться и обучаться в РФ, гражданами РФ и российскими юрлицами, на данных российского происхождения. Это прямо было в статье 7».

Это означает, что любой разработчик ИИ в России самоизолируется в русскоязычной базе причем именно в России. Это 1% от общей мировой базы. В то время как китайцы и американцы обучают свои модели даже на пиратских ресурсах, и им вообще пофигу. Взять тот же Perplexity, они без зазрения совести использовали все доступные данные для обучения их поисковой модели. И что? $22 млрд капитализации на сегодня. Вот что.

Общепризнано, что всего мирового объема датасета уже не хватает для более качественного обучения LLM-моделей.
В 2023 - 2025 годах на этот счет проводилось масса исследований.  "Не закончится ли у нас объем данных? Ограничения масштабируемости LLM на основе данных, сгенерированных человеком."
В 2023 - 2025 годах на этот счет проводилось масса исследований. "Не закончится ли у нас объем данных? Ограничения масштабируемости LLM на основе данных, сгенерированных человеком."

А в России некий «волшебник» решил, что на 1% от мирового датасета можно создать конкурента западным ИИ. Реально волшебник.

В новой редакции закона требования к наборам данных попросту убрали. Теперь разработчики смогут использовать любые доступные данные. Убрали и требование, чтобы разработкой и обучением занимались именно граждане России. Теперь достаточно создания российского юрлица и соответствия законам России, разумеется, нашим традиционным ценностям, а какого гражданства будет соучредитель юрлица - уже не важно, главное чтобы юр лицо было зарегистрировано в Российской юрисдикции.

Если что, Аравинд Шринивас, создатель Perplexity, - гражданин Индии, который 3 года ждал свою грин-карту в США.
Если что, Аравинд Шринивас, создатель Perplexity, - гражданин Индии, который 3 года ждал свою грин-карту в США.

Теперь в обучении российских ИИ можно использовать международные датасеты, open-source решения, мультиязычные корпуса, любой код, любые научные тексты и технические материалы и т. п. УРА!

Если раньше некий воспаленный мозг решил, что для ИИ-сервиса с аудиторией более 500 000 пользователей в сутки нужно обязательно выполнять требования статьи 10.1 закона об информации, то есть фактически регистрироваться как организатору распространения информации (ОРИ), то в новых правилах для ИИ этот пункт убрали. Теперь с того же российского ИИ-стартапа это снимает один из самых токсичных регуляторных и технических барьеров: не нужны будут СОРМ, стартапу не придется тянуть на себе сопоставимую тому же Яндексу и Сберу инфраструктурную тяжесть и затраты.

-5

То есть если раньше ИИ стартап преодолевал планку в 500 тысяч посетителей в сутки, то можно было его закрывать, так как расходы на необходимые датасеты для хранения всякого рода информации коллапсировали любую экономику проекта. Ну нету у стартапов таких ресурсов, какие есть в ВК, Яндексе и Сбере. И то ВК государство субсидирует на сотни миллиардов рублей.

-6

И вот вопрос: а кто в России занимается разработкой своих ИИ-решений, своих LLM? Не делает очередной агрегатор нейросетей, очередной агент, основанный на GPT и т. п. А вот свою модель?

В России сегодня это делают Яндекс, Сбер, ИТ-Технологии и Лаборатория Касперского.

И если быть до конца честным, то весь рынок «российских LLM» — это не собственные модели от а до я, созданные полностью с нуля, а лишь дообученные версии открытых базовых моделей вроде LaMa, Qwen, DeepSeek, Mistral и т.п.

Теперь представьте, что появился суверенный ИИ-стартап с собственным с нуля разработанным решением, который вырос до аудитории свыше 500 тысяч посетителей в сутки, и теперь обязан хранить всю информацию о заходах и сгенерированном контенте в течение трех лет. Это же сколько серверов нужно, сколько затрат уйдет на их обслуживание? ИИ ведь - это не просто страничка на сайте или группа в контакте, пользователи постоянно генерируют новые терабайты информации в сутки, и не только текст (который можно сжать на 99%), но и изображения, аудио, видео, проекты и т. п. И всё это нужно хранить 3 года для каждого пользователя, даже если сам пользователь удалил эти файлы из своего чата.

Ну реально волшебник сочинял... О чем думал составитель этого прекрасного пункта для ИИ - загадка вселенной.

Что это лично даёт мне как разработчику ИИ Маркиза? Ну, для начала нужно понимать, что Маркиз в первую очередь - это ядро системы. Оно представляет собой LLM, написанную и обученную полностью с нуля ( от а до я). Там не используются классические трансформеры, а работает моя собственная система гауссовского распределения информации и её последующая интерференция. На входящий слой подаётся первичная информация, и чем она качественнее, тем качественней будет её обработка и финальный результат.

Как работает классический трансформер в современных LLM.
Как работает классический трансформер в современных LLM.

Сейчас ядро Маркиза использует сторонние LLM-модели в качестве структурированной информации на первый входной слой. Это GPT, Claude, DeepSeek, Qwen, Gemini, Grok и т. д. И уже с этой информацией идет работа.

Я прекрасно понимал, что создать свой аналог того же DeepSeek в России нереально (санкции + законы РФ). Это не получилось ни у Яндекса, который сам использовал наработки китайских DeepSeek и Qwen (их архитектуру) и американского GPT (специфика обучения данным и тип трансформеров) в своей Алисе AI (Яндекс GPT), ни у Сбера, который просто взял опенсорсный Qwen, дисцелировал его веса и просто переучил на своём датасете. Но по структуре это тот же Qwen, только называется "ГигаЧат".

У Сбера денег куры не клюют, и то он не смог создать свое архитектурное решение для LLM, а пошел менее затратным путем, взяв уже созданную в Китае модель и переобучив на свой лад.

-8

Яндексу вообще всё можно, так как он входит в пул компаний, которым был выделен льготный государственный кредит в рамках поддержки IT-отрасли + прочие плюшки. И вообще ему можно брать модели той же запрещенной и террористической в России Meta и использовать в своей экосистеме.

-9

Модель Llama-3.3-70B-Instruct - это открытая LLM, но она создана, согласно реестру России, экстремистами и террористами. Но Яндексу можно ее использовать и даже брать деньги за нее.

Парадоксально...
Парадоксально...

Потому я пошел именно по пути создания ядра, которое будет работать уже с нужной информацией, которая загружается туда сторонними нейросетями. Можно и лично информацию загружать, например свои файлы, тоже всё будет обрабатываться.

Увы, но и обучение ядра работать с информацией и получать новые навыки идет тоже с мировых датасетов, в основном американских и китайских LLM-моделей.

Потому у меня, если по-честному, возникал тупик. Ибо я строю свою ИИ-систему, которая подключает GPT, Claude, DeepSeek и другие модели через API как данные на первый входной слой нейросети Ядра. Более того, всё обучение, разработка, данные, происхождение датасетов - всё должно быть именно российское и в РФ, то моя идея была попросту несовместима с реальностью в России, потому что Маркиз задуман не как одна закрытая суверенная модель, а как мультимодальный интеллект-хаб, к которому можно и нужно подключать любое количество инструментов, как российских, так и зарубежных и опенсорсных.

Да, в теории на основе ядра «Маркиза» можно создать свою суверенную нейросеть, которая будет работать без сторонних LLM. Но на это нужны миллиарды рублей, мировой датасет для обучения и огромные вычислительные мощности. В общем, на будущее задел и посыл ясен.

А пока Маркиз использует сторонние LLM, но выбрать какую-либо модель подключенному к Ядру и работать с ней отдельно нельзя. Маркиз — это не агрегатор нейросетей, не оркестратор, это не совет моделей и прочей ерундистики. Это мультимодальная ИИ-платформа.

  • М.А.Р.К.И.З. (Многофункциональный Ассистент Реализации Комплексных Интеллектуальных Задач).

Ядро собирает информацию из всех доступных источников, включая подключенные нейросети, но именно выбрать, например, GPT или Claude, как в том же Perplexity, невозможно. Внутри ядра вся информация интерферирует и структурируется, дополняется и т.п.

Если оплатить подписку в 20 баксов в месяц, можно выбрать модели. А если занести туда 200 баксов в месяц, можно выбрать и GPT-5.5, и Opus 4.7.
Если оплатить подписку в 20 баксов в месяц, можно выбрать модели. А если занести туда 200 баксов в месяц, можно выбрать и GPT-5.5, и Opus 4.7.

Главная цель «Маркиза» на данном этапе разработке - это сверхглубокая аналитика любых незапрещенных тем, глубокое исследование и глубокий поиск информации.

Так вот, теперь законодательство России, если законопроект примут, позволяет «Маркизу» развиваться как российский ИИ-сервис, даже если внутри он использует разные модели через API.

Ограничение «только российские данные, созданные гражданами РФ на территории РФ» было откровенным вредительством и саботажем развития ИИ в России. Повторю еще раз: современные LLM требуют огромных мультиязычных датасетов, это и код, и математика, наука, инструкции, диалоги, документация, книги, юридические и технические тексты, изображения, аудио, видео со всего мира!!!

-12

Закон планируется с 1 сентября 2027 года.

\\ МАКС канал

\\ Телеграм канал