Сравним "наши" нейросети с "не нашими". А то мне эпизодически ставят в упрек, мол, негодяй вы сударь: весь такой клюквенно-квасной патриот, а пользуетесь зарубежными нейросетями. Нет бы нашими, родными разработками.
Я-то, конечно, рад бы ими пользоваться. Без шуток. И в ряде задач - пользуюсь. Умный дом на базе Алисы как-никак построен, 3 колонки в доме, управляющие всем и вся от отключения воды, до ТВ и кондиционеров.
Но реалии таковы, что по универсальности и удобству наши отечественные сервисы пока еще занимают позицию догоняющих, хотя вполне себе добротно исполняют многие базовые задачи без плясок с бубном, который неизменно-обязателен при использовании сервисов зарубежных.
Возьмем генерацию картинок, для примера.
Основной критерий обывателя к работе нейросети - это МАКСИМАЛЬНОЕ понимание простого промпта. Оттачивать навыки промпт-инжиниринга, расписывая все по крупице, конечно, дело полезное, но когда тебе нужна простенькая картинка для поста/новости/открытки... оно нам надо?
И вопреки убеждениям, что "наши" нейронки лучше работают именно с "нашим", русским контекстом, опыт говорит иначе.
Итак, приступим.
Возьмем простейший, обывательский и, скажем прямо, дилетантский промпт.
Вот он:
Русская деревня. Классический дом 1960-х годов. Возле дома стоит ВАЗ 2106 с советскими номерными знаками. Рядом – улыбающийся мужчина в рабочей одежде. Возле ворот стоит женщина в платочке и улыбается.
Промпт именно дилетантский, поскольку тут масса неявного. Где именно "рядом" стоит мужчина. В каком-таком платочке стоит женщина (специально не указано, что с головой, покрытой платочком) и так далее.
Начнем с "нашего". Все скрины далее "двойные" в режиме галереи - результат + скриншот отклика.
Алиса (ПРО-подписка имеется)
Машина корректная, обстановка, одежда - достойно. Разрешение - никакое, конечно. Лютые косяки с номерными знаками (это, как констатирую позже, натуральный бич нейронок). Ну и женщину слева (а я-таки заказывал одну!!), кажется, покусали за глаз пчелы. Возможно, это для реалистичности?
Идем дальше.
Гига-Чат (приложение-бот в ТГ)
Обстановка и машина - выглядят отлично. С номерами - полный пипец. Детализация лиц неестественная - мелкие и дальние планы ИИ не вывозит.
Imagine от Grok (trial-версия платного режима)
Сетка выдает несколько вариантов сразу. Увеличивать смысла нет - ни номера, ни автомобиль запросу не соответствуют. Окружение более-менее, но уж больно запущенное, чрезмерная какая-то и неестественная разруха.
Увы, непригодно и непоправимо.
NanoBanano 2 от Google (бесплатный доступ)
Тут все ожидаемо. Этожбанан.
Будто фото из реальной жизни где-нибудь в нашей глубинке с потрясающей детализацией, вроде сушащихся ковриков на крыльце, разных цветочков и т.д. Это при том, что я для "чистоты эксперимента" зашел с учетки без ПРО-подписки (ежедневно можно сделать 1-2 генерации).
Вариант с PRO-подпиской ниже. Найдите, как говорится, разницу.
Секрет подобного качества НаноБананы прост. Google свои визуальные модели обучает на базе данных... YouTube. Т.е. ВСЁ, что было когда-то загружено в этот видеохостинг, становится материалами для обучения искусственного интеллекта. Не одномоментно, конечно. Поэтапно. Отсюда беспрецедентная работа с надписями, мульти-культурными и национальными запросами и высочайший уровень детализации, который нейронка черпает из сотен миллионов реальных кадров.
ChatGPT
Весьма неплохо и реалистично. Непонятности с шильдиком авто и решеткой радиатора, отсылающей к фиату-прародителю "копейки", а так все более чем аутентично. Примечательно, что тут именно женщина, а не явная бабуля-пенсионерка - как в вариациях от Google.
Версия полностью бесплатная, даже без демонстрационных подписок. ДжиПиТи, к слову, лишь недавно сделал качественный скачок в плане детализации.
Qwen 3
Qwen недавно обновился, и, якобы, почти впритык наступает на пятки первому Банану. Ну, так люди говоря. Общий контекст неплох, более сложные задачи не тянет.
Даже с нашей сильно не взлетело:
Симпатично, но... это не ВАЗ-2106. А "Копейка". Номера ужс-ужс. Что-то не то с пропорциями людей и авто, хотя, допускаю, просто настоящий Русский Мужик в кадре. Пойдет как альтернатива, т.к. доступно из РФ без плясок с бубном.
C нейросетями поменьше можно сравнить чуть попозже, т.к. нет прямых доступов, а через разного рода неофициальных ботов не то. Неизвестно, что за модель/версия там на отклике.
Так вы критикуете?!
Упаси свыше подумать, что я взял и обругал наши нейросети.
Да, они по комплексному результату проиграли. В данный момент. В одной утрированной задаче.
Критическая проблема российских генеративных визуальных ИИ - они нормально не работают с... русским текстом! ГигаЧат вроде как пытается, но буквально 2-3 слова. Всё что больше - начинается веселье. Я не шучу сейчас.
Промпт:
Мужчина в белом плаще с капюшоном, в маске гая фокса анонимуса стоит в двери и разводит руками. Надпись внизу "Вы думали я ушел? А я вернулся!"
Результаты ниже. Первое - ГигаЧат, второе - Алиса. Слепки откликов прилагаю.
Пытался для закрытия первоапрельского розыгрыша картинку сделать. Ага, сделал. Пришлось "бананить" - результат ниже.
Вот это самый что ни на есть маразм... парадокс и главный тормоз, мешающий полноценному и массовому выходу отечественных нейронок на уровень чуть более продвинутого обывателя: рядовых дизайнеров, СММщиков, блогеров и так далее. Т.е. уровня выше картинок для чата и открыток в ОК. Вот уут да, мы проигрываем...
Но КОМУ проигрываем?!
- Гиганту-Google с нереальным массивом данных для обучения (это весь поиск и все видео мира) и капитализацией в 3.5+ трлн. баксов?
- OpenAi (ChatGPT) с капитализацией в, без малого, триллион долларов?
Умолчим про размеры дата-центров у описанных компаний. Ну... как по мне - им не стыдно проигрывать.
Сравнивать или критиковать на этом фоне те же Алису Яндекса или недавно (по меркам IT) включившийся в работу с ИИ Сбер со своим ГигаЧатом... ну это все равно что с полностью серьезными щщами противопоставлять 13-летний Телеграм и годовалый МАХ. Т.е. высшая степень одаренности.
Я верю и знаю, что у нас всё получится. Пока же есть возможность использовать не только наше, в угоду удобства, быстроты и оперативности - будем использовать всё. И сравнивать. Это нормальный процесс.
Самое смешное, что и Grok, и ChatGPT, и Gemini от Google для России запрещены. Не Россией, а теми самыми, "за бугром". Чтобы мы, дескать, не имели доступа к прогрессивным разработкам. Где-то запрещены формально - тупо по IP-адресу, а где-то жестко - сверяют не просто регистрационные данные учетной записи, но даже историю всех входов в учетную запись. Зашел из РФ - учетка на помойку с оплаченной подпиской...
И на этом фоне недавно прозвучало гениальное предложение - а давайте запретим "чужие ИИ". А то вдруг они там что-то "не то" генерируют.
Ау, господа! Они и так запрещены. Потенциальный (по факту - реальный) противник уже побеспокоился о том, чтобы отсечь нашу страну по максимуму от технологий. А вы, получается, ему подыгрываете? О как...
Ну да ладно.
Какие есть пожелания по теме ИИ? Что с чем сравнить? Что-то, возможно, поставлю на будущие материалы.