Найти в Дзене

Нейросети "для народа": личное мнение

Год заканчивается, можно потихоньку начать подводить итоги как прошедшего года, так и "пятилетки". Ну, о "пятилетке" говорить проблематично, поскольку широко нейросети "пошли в народ" всего года 3-4 назад, но "притянув за уши" все же можно. Примечание: все написанное здесь не претендует на объективность и является лишь моим личным (!!!) мнением. Давайте начнем издалека. Человек после рождения много чему учится. Учится есть, спать, звуки издавать, ручками-ножками шевелить. Открывает глазки, со временем начинает узнавать знакомые лица и образы. Гу-гу-кать начинает. Садится наконец-то, и приходит пора познавать этот мир и появляются более осмысленные игрушки, типа таких: Последняя игрушка примечательна тем, что она сделана с "защитой от дурака". В ней можно или собрать правильно, или не собрать вообще ничего. Что-то "не туда" просто не вставишь. Становится очевидным, что именно по такому принципу строятся интерфейсы нейросетей "для народа". Минимум надписей, подписей, кнопок, и всего, о

Год заканчивается, можно потихоньку начать подводить итоги как прошедшего года, так и "пятилетки". Ну, о "пятилетке" говорить проблематично, поскольку широко нейросети "пошли в народ" всего года 3-4 назад, но "притянув за уши" все же можно.

Примечание: все написанное здесь не претендует на объективность и является лишь моим личным (!!!) мнением.

Давайте начнем издалека.

Человек после рождения много чему учится. Учится есть, спать, звуки издавать, ручками-ножками шевелить. Открывает глазки, со временем начинает узнавать знакомые лица и образы. Гу-гу-кать начинает. Садится наконец-то, и приходит пора познавать этот мир и появляются более осмысленные игрушки, типа таких:

-2

Последняя игрушка примечательна тем, что она сделана с "защитой от дурака". В ней можно или собрать правильно, или не собрать вообще ничего. Что-то "не туда" просто не вставишь. Становится очевидным, что именно по такому принципу строятся интерфейсы нейросетей "для народа". Минимум надписей, подписей, кнопок, и всего, о чем "думать надо", чем проще, тем лучше!

Вот для текстовой нейросети:

Даже кнопки "Выполнить" нет. Можно даже не писать, а "сказать".
Даже кнопки "Выполнить" нет. Можно даже не писать, а "сказать".

Для "видео" немного посложнее:

Типичный интерфейс нейросети генерации видео "для народа".
Типичный интерфейс нейросети генерации видео "для народа".

Но все равно соблюдается принцип "чтобы кубик влез в свою ячейку", т.е. на уровне "для дебилов".

-5
Для примера приведу несколько скриншотов интерфейса одной из самых популярных оболочек для создания нейросетевых схем "ComfyUI", причем ЭТО ОДНИ ИЗ САМЫХ ПРОСТЫХ СХЕМ:
-6
-7

Для человека, не знакомого с нейросетями "в принципе", последние два фото являются полной "галиматьей", "непонятной мешаниной", которая "заплетает мозги и вааще ничего непонятно".

Пример реальной работы в интерфейсе "ComfyUI" (Pavel Elpa):

Вот те, кто пользуется последними "непонятными" интерфейсами и нейросетями, именно они и изготавливают те "процессы" и "интерфейсы" для всех остальных, настраивая их так, чтобы "кубик пролез в прямоугольное отверстие". Именно "для простого народа" и предназначены ВСЕ стандартные интерфейсы основной массы нейросетей, что для графики, что для видео, что для звука (музыка, речь и т.п.).

Для чего? Почему?

Да просто потому, что "обычный человек" ничего в нейросетях не понимает, в них не разбирается, да и учиться особо не хочет, ибо "это ж надо напрягаться!", а напрягаться не хочется (лень!). Ему бы "прям вот щас!" результат получить!

По мере упрощения интерфейса нейросетей (доведения их интерфейса до уровня понимания среднестатистическим пользователем!), они стали очередным увлечением и хайпом тех, кто САМ ничего не умел, и не умеет делать своими руками и головой. Виду отсутствия ли образования, опыта, денег, умений — это все равно. Главное, что без:

  • "Напиши тут подробно то, что ты хочешь получить, а я сделаю"

... эти люди САМИ ничего даже "близко похожего" обычными инструментами (камера, фотошоп, premiere, Ae) сделать не могут.

А, да! Еще кнопка "Выполнить!" нежна (куда же без нее)!

Примерно так выглядит типичный интерфейс общения с нейросетью, предназначенный для "необремененных умственными способностями представителей гомосапиенс".

Интерфейс генерации графики: просто введи описание того, что надо нарисовать и все, от тебя больше ничего не требуется.
Интерфейс генерации графики: просто введи описание того, что надо нарисовать и все, от тебя больше ничего не требуется.

И подобная картина с любыми WEB-интерфейсами нейросетей, предназначенных "для народа":

  • Напиши (расскажи в микрофон) что надо изобразить
  • Нажми кнопку "Выполнить"
  • Получи результат

В более сложных случаях (тут уже думать надо!!!) можно еще 1-2-3 фото в качестве "образца" закинуть и нейросеть постарается изобразить "это" примерно похожее на то, что ты "закинул" в качестве образца.

ВСЕ!!!

На этом уровень владения современными нейросетями "у народа" считается "высшей школой", и освоив эти несколько "упражнений" и сгенерировав несколько картинок-роликов-песенок уже "специалист по нейросетям" считает себя гуру и открывает собственные "курсы по обучению работе в нейросетях".

В его промо-страничке обязательно появляются его личные изображения "в огне", "переодетый", "с бородой" (как доказательство того, что он "это" умеет!), и человек "переходит в разряд НЕЙРО-Богов" отечественного сегмента.

Следующей "ступенью развития" является отсылка своих работа не всяческие конкурсы, фестивали и т.п., которые выдачей чего-то там якобы подтвердят его профессионализм в области нейросетей.

И, как результат, появилось огромное количество "нейро-цыган", считающих себя "гуру" в вопросах нейросетей. Я одного такого "преподавателя курсов" спросил "что такое SEED", но он не смог ответить, сие ему оказалось не знакомо. Занавес! (Я уж не говорю о детерминировании процессов с его помощью).

На самом деле, он всего лишь научился "правильно вставлять кубики" в подходящие для этого отверстия, не более.

За последний год (2025) произошло ожидаемое смещение расположения нейросетей с локальных компьютеров в область облачных сервисов крупных компаний, что вполне оправданно.

Причина?

Просто производительность вашего локального компа, какой бы крутой он не был, не может сравниться с производительностью стойки серверов с огромным количеством быстродействующей CUDA-памяти, которы "заточен" именно на обработку огромного количества специфических вычислений, которые проводит нейросеть. На локальном компе просто невозможно сделать быстро то, и в таком качестве, как это сделает облачный сервер.

Однако, при этом, огромное количество профессиональных специалистов "сидят" "на локалке" (или на рабочем сервере), и разрабатывают "мелкие штучки" именно на локалке (даже при слабом оборудовании).

Феномен?

Да. Именно феномен!

Но он оправданный. Поскольку профессиональный (!!!) специалист никогда не будет пользоваться теми инструментами, которые разработал сам. У него свои инструменты, и в 90% случаев для нейросетей это оказывается именно "ComfyUI", часто в связке с "n8n".

Примечание: если он при этом еще и владеет программированием на уровне, хотя бы "С#" или "С++", то ему вообще принцип работы с нейросетями становится ясен как открытая книга. (Про Python вообще не пишу, его знание и так подразумевается)

Как пример работы на "локалке", ниже пример отработки технологии "upscale" (Pavel Elpa) именно на локальном инструменте:

Примечание: слева — оригинал, справа — "повышение разрешения", фактически "перегенерация" всего ролика заново, но "лучше, чем оригинал".

Смотреть в ПОЛНОМ РАЗРЕШЕНИИ!

Workflow этого wsn22 апскейлера можно скачать тут:
https://github.com/Nestorchik/Dzen/releases/download/dzen/cseti_wan22_upscale_v1.json

Вот в этом примере "upscale" разработчик не "написал промпт" и не нажал кнопку "Сгенерировать" (как это делают "преподаватели курсов по ИИ" и "призеры международных фестивалей"), а составил "логику и порядок действий", которые прочитали "корявый" ролик, расшифровали его и алгоритм заново перегенерировал ролик "на лету" исправив косяки "нейросетевого гуру" и "наставника по нейросетям".

Как вывод — просто констатирую, что мир "специалистов по нейросетям" все более и более разделяется на "вставляющих кубики в прорези", и на тех, кто изготавливает "макеты и кубики, которые подходят друг к другу по прорезям" для использования теми, кто эти кубики "вставляет".

Есть еще третья категория специалистов, которые пишут софт, на котором работают те, кто создает готовые схемы и задает технологии обработки процессов нейросети, для тех, кто вставляет "кубики в прорези". Но эта группа по численности очень мала, даже по сравнению со второй группой.

И подходы к работе (для примера берем видео) совершенно разные. Если у первой группы "вставляльщиков кубиков" оценка их работы проводится ими же на уровне:

  • нравится/не нравится/гениально
  • прикольно/не прикольно/туфта

... то вторая группа более уже задается вопросами типа:

  • надо бы дым сделать более "тонким" и избежать его "зернистости"
  • баланс белого у балерины надо автоматом поправить на "белый" без сползания в "#f9f2c1"
  • брови ей, что ли подравнять?

Третья же группа прежде всего откроет файл с буквами как на фото:

-9

... потом загрузит следующее окно:

-10

... и скажет:

  • "HSL #f9f2c1 сдвиньте в #ffffff"

Именно третья группа будет работать с видео как с "набором атомов" просто потому, что для их менталитета объектно-ориентированная структура ближе и понятнее. Это они из esds потащат аудио-дорожку, и могут добавить лишний moov.

При этом ни вторая, ни тем более первая группа его не поймут. И не потому, что не хотят, а потому, что подобный язык вырабатывается лишь с десятилетиями постоянного опыта работы, чего первой группе "вообще не надо" (их цель — хайп здесь и сейчас!). Второй группе это не надо потому, что они заняты своей областью работы, которая им более интересна и "на их поле никто не залез".

А третья группа тогда просто промолчит, потому что им, в принципе, уже "все пoфиг", они смотрят на броуновское движение первых двух групп, тихо зевают и говорят своим соратникам:

  • "Эх... В наше то время мы по-другому веселились, не то, что нынешняя молодежь. Слабаки!".

... пьют свои стакан кефира, укутывают ноги клетчатым пледом и ложатся вздремнуть в кресло-качалку у камина...

Так вот: в России самая малочисленная группа — это третья. Они же являются самыми ценными и дефицитными специалистами в области нейросетей. Но малочисленны по причине постепенного вымирания.

Поэтому самой востребованной в своей массе является вторая группа.

Но что самое интересное, так это то, что самой заносчивой и честолюбивой, считающей себя "вершиной мира" является именно первая группа "вставляльщиков кубиков". Она хейтит всех остальных, поскольку общение с ними выставляет наружу их необразованность и "незнание предмета". Именно первая группа находится в положении человека, приписывающего себе способность быстро перемещаться своим "сложным научением садиться в такси и сидеть до окончания поездки", и не догадывающихся при этом, что в этом не их личная заслуга, а заслуга массы тех людей, которые придумали и изготовили автомобиль, изготовили бензин, научились управлять авто и придумали "услугу поездки в такси" для того, чтобы материализовать свои знания и умения.

Что будет дальше?

Дальше, с годами, скорее всего, работа с нейросетями будет все более и более упрощаться (хотя куда уж дальше). Спецы по технологиям будут ковать "наборы геометрических фигур со щелями для них", которые будут продавать основной массе, стремящейся к быстрому хайпу.

Части "технологов" надоест "составлять кроссворды" и они начнут и изучение низкоуровневых языков и плавно перейдут в третью категорию.

А третья категория вымрет, как вымерли мамонты, и снова, как всегда на этом свете и было, будет просто происходить плавное перетекание спецов по направлению от первой группы к третьей.

А "вставляльшиков кубиков" все равно всегда будет больше! )

P.S.
Ну и еще один итог 2025 года (а то меня уже в угол, как помойное ведро запинали, что не упомянул): произошла парадигма в мышлении с приходом контекстных моделей. Первой (на моей памяти), как "пробный шар", был "VisoMaster". Но потом "Остапа понесло":

-11
-12
-13
-14
-15
-16
-17

Но это уже совсем другая история... )))