620 подписчиков
Будет ли в России свой ChatGPT?
С тех пор, как мне подарили подписку на ChatGPT3.5 и я понял, что он может вполне качественно делать кусочки программ на баше, я наконец заметил. что есть такая тема и начал её изучать. Что могу сказать на сегодня? Тезисно.
Во-первых, любая наука и инженерная деятельность состоит из двух слоёв - видимого и невидимого. Между ними идёт игра по замороченным правилам. Реальные достижения всегда находятся в невидимом слое и охраняются. Видимый слой служит опорой для невидимого, с одной стороны, и используется для дезинформации конкурентов, с другой. Видимый слой - это и есть публичная наука. Невидимый - это "ноу-хау". В качестве примеров - первые мастера фарфора в России (жили фактически в тюрьме), ключевой ингредиент в Кока-Коле (клопы). Или какие-нибудь адсорбционные холодильные машины. Эти машины применялись для датчиков в шпионских спутниках, и потому долго были засекречены наглухо. Хотя любой, кто в теме, легко мог бы их придумать заново, прийти к профессору хорошего вуза (с допуском к гостайне) и услышать, что это "неинтересная тема".
Большие языковые модели являются ярким примером инженерной деятельности. С одной стороны, вроде бы там много математики, с другой - сплошь и рядом рецепты из серии "возьми печень летучей мыши, пойманной при растущей Луне". И ценой каждого такого рецепта могут быть годы труда, миллионы машино-часов, бессонные ночи инженеров, удачные находки и яркие озарения. Даже если кому-то удастся украсть и слить уже обученную модель ChatGPT4 - это будет как программа без исходных текстов и документации. Недостаточно для повторения успеха.
И вот тут можно перейти к вопросу о том, будет ли в России свой ChatGPT? Сложно давать сроки ввиду очень быстрого развития области, но я думаю, что не скоро. Почему? Сеть учится не сама, её учат и это трудно. Здесь нужна реальная работа, а не переклейка этикеток. К реальной работе на сегодня в нашей стране способны очень немногие из-за деградации образования, старения и вымирания тех, кто учился ещё в СССР, и утечки мозгов. И кроме того, это очень дорого. Яндекс способен, но госпожа Бунина не может жить в одной стране, которая "воюет с соседями", а может жить в другой, несмотря на то же самое. И там таких господ Буниных по всей вертикали управления полно. (Хм, а я ведь это пишу в сервисе Яндекса). Про Сбер достаточно вспомнить, что Греф предлагал вообще перевести образование на английский. Получится ли у него "ИИ с другой картиной мира"?
Во-вторых. Допустим, нашли нормальную контору. Ну, скажем, Росатом. Допустим, повторили все гениальные находки и разработали движок. А дальше что? Если говорить об общих знаниях, то ChatGPT переварил Википедию. Русскоязычная Википедия, если верить злым языкам, создаётся в основном на Украине и в США (есть статистика по интенсивности редактирования статей). Здесь мне сложно не перейти на многоэтажный мат, но ничто не мешало хотя бы уж в 2015 году не спеша начать делать российский аналог Википедии. Самое простое: перевести англоязычную. Она, хоть и ангажирована, но гораздо честнее и качественнее русскоязычной. Или, взять все статьи из Википедии, отцензурировать их. Дальше, у нас в России полно словарей и энциклопедий по любым темам. Просто выкупить права и залить в движок (и откат тоже можно при этом получить, отличное же дело я предлагаю). Это всё трудозатраты, но оптимизированные и на порядок проще создания ChatGPT4. Но наша страна и это не осилила. Да что там говорить, даже с размеченным корпусом русского языка проблемы, а он тоже необходим для LLM. А если не сказано "А", т.е. нет входных данных для обучения сети, то не будет и "Б", т.е. обученной сети.
В-третьих, возвращаясь к "дорого". Система управления высокотехнологичными разработками у нашего государства работает не особо. Да, есть БПЛА Ланцет, он вроде хорошо куда надо попадает. Но это - внутриармейская кухня. В мирной жизни мы видим цикл: громкие анонсы - работа закипает - суд - отзыв грантов - посадка. От такого цикла ничего не родится. Я не вижу в магазине телефонов на Эльбрусах, хотя вроде на "Авроре" наконец-то выпустили.
Вот так.
3 минуты
3 февраля 2024