В правительстве наконец-то поняли, что ИИ из ничего не появляется, а российские «Алисы» и «Гигачаты» явно отстают на 2 поколения от мирового ИИ уровня.
Итак, в сфере законодательства российского ИИ подъехали, наконец-то, хорошие новости. Правительство только что фактически разрешило обучать ИИ на любых данных.
А также были удалены, на мой взгляд, самые тяжёлые ограничения, которые просто убивали качество моделей и делали жизнеспособность таких стартапов, как мой «маленький ИИ-проект», почти неподъёмным.
Я уже и так выдрессировал Маркиза на предмет безопасности, маркировки ИИ-контента, пользовательских правил и прочих ограничений противоправного использования, а также требований для гос/КИИ-сектора.
Теперь что изменилось.
Ранее было основное и строгое требование:
«Суверенные и национальные модели должны были разрабатываться и обучаться в РФ, гражданами РФ и российскими юрлицами, на данных российского происхождения. Это прямо было в статье 7».
Это означает, что любой разработчик ИИ в России самоизолируется в русскоязычной базе причем именно в России. Это 1% от общей мировой базы. В то время как китайцы и американцы обучают свои модели даже на пиратских ресурсах, и им вообще пофигу. Взять тот же Perplexity, они без зазрения совести использовали все доступные данные для обучения их поисковой модели. И что? $22 млрд капитализации на сегодня. Вот что.
Общепризнано, что всего мирового объема датасета уже не хватает для более качественного обучения LLM-моделей.
А в России некий «волшебник» решил, что на 1% от мирового датасета можно создать конкурента западным ИИ. Реально волшебник.
В новой редакции закона требования к наборам данных попросту убрали. Теперь разработчики смогут использовать любые доступные данные. Убрали и требование, чтобы разработкой и обучением занимались именно граждане России. Теперь достаточно создания российского юрлица и соответствия законам России, разумеется, нашим традиционным ценностям, а какого гражданства будет соучредитель юрлица - уже не важно, главное чтобы юр лицо было зарегистрировано в Российской юрисдикции.
Теперь в обучении российских ИИ можно использовать международные датасеты, open-source решения, мультиязычные корпуса, любой код, любые научные тексты и технические материалы и т. п. УРА!
Если раньше некий воспаленный мозг решил, что для ИИ-сервиса с аудиторией более 500 000 пользователей в сутки нужно обязательно выполнять требования статьи 10.1 закона об информации, то есть фактически регистрироваться как организатору распространения информации (ОРИ), то в новых правилах для ИИ этот пункт убрали. Теперь с того же российского ИИ-стартапа это снимает один из самых токсичных регуляторных и технических барьеров: не нужны будут СОРМ, стартапу не придется тянуть на себе сопоставимую тому же Яндексу и Сберу инфраструктурную тяжесть и затраты.
То есть если раньше ИИ стартап преодолевал планку в 500 тысяч посетителей в сутки, то можно было его закрывать, так как расходы на необходимые датасеты для хранения всякого рода информации коллапсировали любую экономику проекта. Ну нету у стартапов таких ресурсов, какие есть в ВК, Яндексе и Сбере. И то ВК государство субсидирует на сотни миллиардов рублей.
И вот вопрос: а кто в России занимается разработкой своих ИИ-решений, своих LLM? Не делает очередной агрегатор нейросетей, очередной агент, основанный на GPT и т. п. А вот свою модель?
В России сегодня это делают Яндекс, Сбер, ИТ-Технологии и Лаборатория Касперского.
И если быть до конца честным, то весь рынок «российских LLM» — это не собственные модели от а до я, созданные полностью с нуля, а лишь дообученные версии открытых базовых моделей вроде LaMa, Qwen, DeepSeek, Mistral и т.п.
Теперь представьте, что появился суверенный ИИ-стартап с собственным с нуля разработанным решением, который вырос до аудитории свыше 500 тысяч посетителей в сутки, и теперь обязан хранить всю информацию о заходах и сгенерированном контенте в течение трех лет. Это же сколько серверов нужно, сколько затрат уйдет на их обслуживание? ИИ ведь - это не просто страничка на сайте или группа в контакте, пользователи постоянно генерируют новые терабайты информации в сутки, и не только текст (который можно сжать на 99%), но и изображения, аудио, видео, проекты и т. п. И всё это нужно хранить 3 года для каждого пользователя, даже если сам пользователь удалил эти файлы из своего чата.
Ну реально волшебник сочинял... О чем думал составитель этого прекрасного пункта для ИИ - загадка вселенной.
Что это лично даёт мне как разработчику ИИ Маркиза? Ну, для начала нужно понимать, что Маркиз в первую очередь - это ядро системы. Оно представляет собой LLM, написанную и обученную полностью с нуля ( от а до я). Там не используются классические трансформеры, а работает моя собственная система гауссовского распределения информации и её последующая интерференция. На входящий слой подаётся первичная информация, и чем она качественнее, тем качественней будет её обработка и финальный результат.
Сейчас ядро Маркиза использует сторонние LLM-модели в качестве структурированной информации на первый входной слой. Это GPT, Claude, DeepSeek, Qwen, Gemini, Grok и т. д. И уже с этой информацией идет работа.
Я прекрасно понимал, что создать свой аналог того же DeepSeek в России нереально (санкции + законы РФ). Это не получилось ни у Яндекса, который сам использовал наработки китайских DeepSeek и Qwen (их архитектуру) и американского GPT (специфика обучения данным и тип трансформеров) в своей Алисе AI (Яндекс GPT), ни у Сбера, который просто взял опенсорсный Qwen, дисцелировал его веса и просто переучил на своём датасете. Но по структуре это тот же Qwen, только называется "ГигаЧат".
У Сбера денег куры не клюют, и то он не смог создать свое архитектурное решение для LLM, а пошел менее затратным путем, взяв уже созданную в Китае модель и переобучив на свой лад.
Яндексу вообще всё можно, так как он входит в пул компаний, которым был выделен льготный государственный кредит в рамках поддержки IT-отрасли + прочие плюшки. И вообще ему можно брать модели той же запрещенной и террористической в России Meta и использовать в своей экосистеме.
Модель Llama-3.3-70B-Instruct - это открытая LLM, но она создана, согласно реестру России, экстремистами и террористами. Но Яндексу можно ее использовать и даже брать деньги за нее.
Потому я пошел именно по пути создания ядра, которое будет работать уже с нужной информацией, которая загружается туда сторонними нейросетями. Можно и лично информацию загружать, например свои файлы, тоже всё будет обрабатываться.
Увы, но и обучение ядра работать с информацией и получать новые навыки идет тоже с мировых датасетов, в основном американских и китайских LLM-моделей.
Потому у меня, если по-честному, возникал тупик. Ибо я строю свою ИИ-систему, которая подключает GPT, Claude, DeepSeek и другие модели через API как данные на первый входной слой нейросети Ядра. Более того, всё обучение, разработка, данные, происхождение датасетов - всё должно быть именно российское и в РФ, то моя идея была попросту несовместима с реальностью в России, потому что Маркиз задуман не как одна закрытая суверенная модель, а как мультимодальный интеллект-хаб, к которому можно и нужно подключать любое количество инструментов, как российских, так и зарубежных и опенсорсных.
Да, в теории на основе ядра «Маркиза» можно создать свою суверенную нейросеть, которая будет работать без сторонних LLM. Но на это нужны миллиарды рублей, мировой датасет для обучения и огромные вычислительные мощности. В общем, на будущее задел и посыл ясен.
А пока Маркиз использует сторонние LLM, но выбрать какую-либо модель подключенному к Ядру и работать с ней отдельно нельзя. Маркиз — это не агрегатор нейросетей, не оркестратор, это не совет моделей и прочей ерундистики. Это мультимодальная ИИ-платформа.
- М.А.Р.К.И.З. (Многофункциональный Ассистент Реализации Комплексных Интеллектуальных Задач).
Ядро собирает информацию из всех доступных источников, включая подключенные нейросети, но именно выбрать, например, GPT или Claude, как в том же Perplexity, невозможно. Внутри ядра вся информация интерферирует и структурируется, дополняется и т.п.
Главная цель «Маркиза» на данном этапе разработке - это сверхглубокая аналитика любых незапрещенных тем, глубокое исследование и глубокий поиск информации.
Так вот, теперь законодательство России, если законопроект примут, позволяет «Маркизу» развиваться как российский ИИ-сервис, даже если внутри он использует разные модели через API.
Ограничение «только российские данные, созданные гражданами РФ на территории РФ» было откровенным вредительством и саботажем развития ИИ в России. Повторю еще раз: современные LLM требуют огромных мультиязычных датасетов, это и код, и математика, наука, инструкции, диалоги, документация, книги, юридические и технические тексты, изображения, аудио, видео со всего мира!!!
Закон планируется с 1 сентября 2027 года.
\\ МАКС канал