Сейчас вы наверное уже в это не поверите, но первая версия Stable Diffusion вышла 22 августа 2022 года, это означает что генеративным нейросетям в массовом пользовании всего три года от роду. Однако сейчас те кто активно ими пользуются могут ощутить что прошла целая вечность и мы как будто пользуемся ими с детства.
На деле же нейросети только начинают набирать обороты, каждые три месяца какой нибудь прорыв, новые инструменты, техники, программы одна за одной что мы не успеваем уловить самую актуальную информацию. Нейросеть может устареть (а значит умереть) буквально за неделю, не успев показать свой истинный потенциал. Так же и с мышлением которое мы выстраиваем когда применяем их в своей работе. Только мы научились строить промпты, так они становятся труднее, и быстрее чем мы учимся, в некоторых случаях вообще становятся не нужны, всё переходит в "волшебные кнопки".
Это же касается и курсов по нейросетям. Сейчас в интернете пруд пруди курсов, которые выросли на интересе как грибы после дождя. В каждой рекламной колонке есть какой нибудь курс по Stable Diffusion и как на этом зарабатывать 100 миллионов рублей в день и вся эта баламуть с этим связанная.
В реальности текущей ИИ гонки курс успевает устареть ещё пока идёт, цикл жизнеспособности нейросети примерно три месяца, дальше на смену приходит другая, так же и с сервисами. По этому я очень не рекомендую оплачивать годовые подписки и приобретать курсы среднесрочных и полугодовых, годовых программ.
Я и сам занимаюсь кураторством и разработкой учебных программ с нейросетями, но я преподаю навыки, базу, понимание как они работают, а не инструкции по пользованию всякими сайтами. В этой статье я решил просвятить читателей этого журнала об устаревших нейросетях, чтобы вы не тратили своё время и тем более деньги на навыки, которые вам не пригодятся.
И так, начнём:
Stable Diffusion
Всеми знакомый интерфейс кто проходил курс по Stable Diffusion (Далее - SD).
Я до сих пор встречаю людей кто говорит что это и есть SD. Если после курса человек так считает, то у меня много вопросов к этому курсу. Так как это не SD.
Я объясню - Stable Diffusion это маркетинговое название диффузионной модели от кампании Stability AI. Сама модель (нейросеть) это просто файл, это не программа. А то что на изображении выше это интерфейс который может взаимодействовать с моделью. Так что модели можно запускать в самых разных интерфейсах. Интерфейс и модели можно считать полностью устаревшими, но обо всём по порядку. Пройдёмся по всем моделям этой фирмы
SD 1.5 - первая опенсорс линейка моделей. Навела много шума в диджитал, сразу сместила и уволила с работы очень много концепт художников. Сейчас эта профессия уже практически не существует, но до 2023 года было множество вакансий, люди кто умел хорошо рисовать на графических планшетах были сильно востребованы на рынке. Модель очень хорошо рисовала концепты, но не более, часто можно было наблюдать поломанную перспективу, в реализме модель рисовала очень плохо (шесть пальцев и прочие уродства), было ещё несколько релизов от Stability AI, SD 2.0, SD 2.1, но они выходили так быстро что люди за ними не успевали, в итоге на смену SD 1.5 пришла модель Stable Diffusion XL, сокращённо чаще всего можно встретить название SDXL.
SDXL - следующая устойчивая модель от Stability AI. Она уже хорошо рисовала в реализме, но по прежнему страдала рисованием шести пальцев, есть различные техники и плагины, которые исправляли это, множество тюнингованных версий (JuggernautXL, Zavychroma) и другие, так же огромный безграничный пул дополнений в виде LoRA. Модель просуществовала где то пол года и летом 2024 года вышла печально известная модель Stable Diffusion 3 Medium.
SD3 Medium - первая модель которая хорошо писала тексты на английском языке. Даже очень хорошо, могла писать длинные тексты и хорошо понимала контекст промпта, намного лучше предшественников. Но кампания Stability AI выкатили очень жёсткие требования в виде публикаций контента этой нейросети. А точнее запретили вовсе, тем самым вырыв яму себе под ногами. Было запрещено публиковать любые изображения на сайте Civitai что полностью перекрыло кислород сообществу опенсорс нейросетей. В это же время в кампании случился разлад ключевых сотрудников, в результате чего из кампании ушли ведущие ML инженеры и открыли собственную кампанию Black Forest Labs. И начали выпускать модели под названием FLUX, есть как премиальные версии с закрытыми весами, так и опенсорс модели DEV, такие действия вновь дали кислород опенсорс художникам и индустрия продолжида развиваться дальше.
На данный момент Stability AI по прежнему существуют, у них есть модели SD 3.5. Но популярность и востребованность этих моделей близка к нулю.
По этому сейчас если вы видите что вам предлагают курс по Stable Diffusion и Automatic1111. Знайте что вам предлагают просрочку.
BlackForestLabs - FLUX
Флюкс или Флакс. Кто как называет. Помню меня на собеседовании в кампанию где активно внедряли ComfyUI поправяли что нужно говорить "Флюкс" так как это немецкая кампания. Однако в англоязычном мире, а FLUX это английское слово, на английском языке слово ФЛЮКС просто не выговорить. Меня даже поставили в неловкое положение когда я говорил одно, а руководитель отдела говорил другое. Впрочем работать с этим отделом я всё равно не стал.
Ну да ладно. Итак, от Stability AI отделились инженеры, основали свою кампанию BlackForestLabs и начали выпускать линейку моделей FLUX.
Тут они сделали всё с умом, выпустили версии Max, Pro, Ultra, которые доступны только по API. И две версии в открытом доступе DEV и SCHNELL (шнелль).
И опенсорс вновь вдохнул свежий воздух и начал развиваться. На дев версию до сих пор каждый день выходят новые LoRA. Очень много изображений что вы видите сейчас в интернете, на рекламных баннерах это сделано как раз на этих моделях. Причём чаще всего на SCHNELL. если вы видите рекламные баннеры с подпиской "Russ" где девочка с медведем или тому подобное, знайте это точно эта история.
FLUX Dev в сочетании с LoRA и другими прикладными моделями активно используется в игровой индустрии, концепты, персонажи, 2D графика, очень много ассетов сейчас генерируется с помощью этой модели. Чаще всего это незаконно, поскольку есть Max, Pro, Ultra. Но к ним нету лор, они доступны только в API и их трудно применить в каком либо деле поскольку нету контроля.
FLUX существует уже больше года. За это время вышло очень много генеративных моделей (HiDream, QwenImage, Illustrous и многие другие). Но всё это меркнет со следующим поколением моделей. Об этом чуть позже.
И так, можно ли считать нейросети FLUX устаревшими?
И да и нет. Они активно используются, но новейшие версии вроде Seedream намного лучше, но самые новые чаще всего можно использовать только по API.
Все опенсорс модели сейчас чаще всего запускаются в интерфейсе ComfyUI.
В журнале NStor множество гайдов на тему как его установить и как им пользоваться, но давайте разберёмся не устарел ли он сейчас.
В начале этого года я уже отлично разбирался в этом софте и мог интегрировать его и почти все библиотеки в любую систему. Развернуть на Linux, сделать сервер с фронтендом и подключить ComfyUI как бекенд и настроить минисервис. Меня взяли работать в студию геймдева именно инженером и workflow инженером по Комфи, я выполнил большие объёмы работ, собрал крутые автоматизации которые экономили очень времени на создании графики, игровых ассетов. Я создавал workflow для художников, обучал их как этим пользоваться и обслуживал эту систему, поддерживал в рабочем состоянии.
На деле я и сейчас работаю в этой студии и обслуживаю эту систему до сих пор. Но активность сотрудников в этом инструменте стремительно упала, если раньше там были очереди, то сейчас в нём сидят пару часов в неделю. Такая себе перспектива и ещё и страх что с работы уволят. Но сейчас я там занимаюсь совсем другим а обслуживание машины идёт в фоновом режиме и то из-за пары очень хороших инструментов по улучшению изображений, апскейлингу и теперь созданием видеоассетов для референсов анимаций и ИИ аватаров для промороликов. Генерация аудио голосов, создание дикторов персонажей и многое другое. Но автоматизации устроены так, что занимает это минуты и контент уходит в другой софт для дальнейшего производства.
Что же случилось? Машина генерации работала без устали и вдруг она стала малоэффективной.
В июне этого года BlackForestLabs анонсировали и выпустили первую контекстную модель FLUX Kontext. Модель которая умеет редактировать изображение по запросу. Многие кричали это ИИ революция, на деле так и оказалось. В журнале есть статьи что она имеет, изменять атмосферу, свет, убирать текст, деревья, людей, двигать ракурсы и так далее, но круг редактирований довольно суженный, быстро нашлись ограничения и моделька оказалось не такой уж и технологичной и суперредактором. К тому же Dev версия в ComfyUI вообще особо мало что могла, часто просто игнорировала запросы. На момент выхода я писал в чате что с этими моделями ComfyUI начнёт терять свою актуальность. Ведь сама модель это и есть workflow внутри неё (образно). Но мне сказали что ComfyUI будет только лучше, результативнее и будут всякие новые крутые инструменты. Многие ринулись их собирать, модель как уникальная нода которая выполняет всё по промпту но сразу вылезло много ограничений.В этот же момент или чуть раньше OpenAI так же обновили DallE до контекстной модели, и все начали редактировать изображения прямо в чате, тут аудитория и перетекла как раз из Comfy и chatGPT.
Что с бизнесом и разработкой? Есть ещё люди которые начитаются старой информации и хотят открыть сайт на нейросетях и использовать на бэке Комфи. Но потом узнают о контекстных моделях и просто уходят на API интеграцию. Если мне пишут что хотят интегрировать Comfy какие нибудь стартаперы, я буквально отшиваюсь парой сообщений. Чтобы не тратить время. По скольку появились контекстные модели.
Всего 5 месяцев им. Но FLUX Kontext уже можно считать устаревшей. Поскольку её быстро заменила NanoBanana от Google и сейчас она является самой популярной контекстной моделью. Возможностей стало больше, редактирование точнее и лучше, а главное разрешение которое она выдаёт намного выше. 26 миллионов запусков на Replicate (говорит о высоком спросе).
Тысячи сервисов и интеграций в инструменты у этой модели.
Я и сам сейчас делаю инструменты построенные на базе NanoBanana и Reve. Однако я понимаю что сейчас эти модели на уровне SD 1.5. они ещё не работают с масками, многого не понимают, но что будет через год?
Как итог скажу вам что не покупайте дорогущие и длинные курсы по нейросетям, просто следите за актуальной информацией и лучше всего узнать как работают нейросети вы можете у них самих. Нужно их клацать, играть с ними. Тогда они становятся лёгкими и понятными.
Статью написал и опубликовал Pavel ELPA.