61 подписчик

Нейросети на максималках

2 апреля 20242 апр 2024

3 мин

Начнем с главного - какую нейросеть выбрать? Stable Diffusion — это модель искусственного интеллекта, предназначенная для генерации изображений на основе текстовых подсказок. Это позволяет пользователям создавать детализированные изображения из текстовых описаний, открывая новые возможности для творчества и дизайна. Модель использует глубокое обучение для интерпретации текстовых запросов и производства соответствующих визуальных изображений, опираясь на обширный набор обучающих данных. Но на это возможности SD не заканчиваются и в статье разберем, что еще можно делать в SD. Как запустить Stable Diffusion?

1. Pinokio — это браузер, созданный для упрощения процессов установки, запуска и автоматизации работы с AI-приложениями и моделями, делая их такими же простыми, как использование обычного веб-браузера. Это решение избавляет от необходимости использовать терминал, команды git clone, и другие сложные процедуры, связанные с работой с AI. Простомы словами весь процесс установки на ПК или

Начнем с главного - какую нейросеть выбрать?

Stable Diffusion — это модель искусственного интеллекта, предназначенная для генерации изображений на основе текстовых подсказок. Это позволяет пользователям создавать детализированные изображения из текстовых описаний, открывая новые возможности для творчества и дизайна. Модель использует глубокое обучение для интерпретации текстовых запросов и производства соответствующих визуальных изображений, опираясь на обширный набор обучающих данных. Но на это возможности SD не заканчиваются и в статье разберем, что еще можно делать в SD.

Как запустить Stable Diffusion?

1. Pinokio — это браузер, созданный для упрощения процессов установки, запуска и автоматизации работы с AI-приложениями и моделями, делая их такими же простыми, как использование обычного веб-браузера. Это решение избавляет от необходимости использовать терминал, команды git clone, и другие сложные процедуры, связанные с работой с AI. Простомы словами весь процесс установки на ПК или облачный сервер занимает минимум усилий и специальных знаний - программа все за вас автоматизирует.

2. ComfyUI - после установки Pinokio можно разворачивать нейросеть - я использую для SD - ComfyUI - это мощный и модульный стабильный диффузионный графический интерфейс с графическим/узловым интерфейсом. Он позволяет пользователям работать с интерфейсом на основе блок-схем (аля 3D-blender). Он поддерживает все технологий SD и предлагает множество оптимизаций, таких как повторное выполнение только тех частей рабочего процесса, которые меняются между выполнениями (это очень удобно). Настроив один раз среду под конкретную задачу и вы ускоряете процесс работы в 10-ки раз.

3. ComfyUI - работает со специальными рабочими средами (workflow) - как выглядит - показал на скриншоте. На специальных сайтах есть множество решений под все задачи - один из них здесь.

Выглядит страшно сначала - но разобраться в этом не сложно.

4. Для создания видео или обработки я использую эту среду - можно скачать себе здесь - данная среда позволяет обработать любое видео - пример я показывал в этом посте.

5. Улучшение качество видео до 4к - здесь нам поможет программа Topaz Video AI - в нее встроены специальные AI модели для улучшения качества и формата видео.

На чем запускать Pinokio? Какие задачи решает?

Если мы рассматриваем свой ПК или ноутбук, то характеристики должны быть следующие:
- сердце работы с ИИ это видеокарта - здесь только Nvidia решения с памятью не менее 8GB - на рынке много видеокарт, но самая доступная это rtx 3060 12GB - ее хватит на первое время. У меня стоит rtx 4070 ultra super 16Gb - я жду новое поколение rtx 5000, в котором обещают специальный чип для ИИ;
- процессор от Intel начиная от 5 версии;
- оперативная память - минимум 16 GB - впринципе это стандарт для уже для 2024 года.

Если мы рассматриваем облачные решения, то здесь есть несколько вариантов - обычно там стоят уже мощные видеокарты - плати только за часы использования. Лучший облачный сервис - RunPod.

Какие задачи решаем?
- генерировать изображения в формате XL для SD (этот формат убийца Midjourney - потому что MD генерирует в старом формате 512 - XL уже 1024) - примеры ниже);

- обработка видео - примеры всегда есть на моем канале ТГ;

- создание анимации по фото, рисунку и тд;

- убрать водяные знаки;

- удалить объект с изображения;

- заменить лицо в видео или background;

- забрать с рефа цвета, стиль либо взять одежду для объекта;

- самое главное это захват движения объекта - как это было в посте - и замена объекта полностью новым.

В принципе можно все, что предлагают в платных сервисах типа Runway, Pika, Leonardo - но чтобы их использовать в работе в месяц надо тратить круглую сумму + ограничения в количестве финальных работ - и да - захват движения пока не дошел до этих сервисов.

Если вы хотите профессионально использовать нейросети в работе и зарабатывать на этом, то SD выполнит любую задачу - особенно, что касается анимации и видеообработки.