906 подписчиков

9 бесплатных инструментов искусственного интеллекта, которые работают локально на вашем компьютере

19 сентября 202319 сен 2023

2195

14 мин

Искусственный интеллект (ИИ) становится все более доступным для широких масс благодаря распространению инструментов и программного обеспечения для ИИ с открытым исходным кодом. Многие приложения ИИ находятся в свободном доступе, что объясняется их происхождением из научных кругов, где сотрудничество и разработка с открытым исходным кодом являются обычной практикой. В этой статье мы рассмотрим ряд практичных и полезных приложений ИИ, которые можно запустить на ПК с ОС Windows без затрат на установку. ИИ включает в себя различные технологии, в том числе нейронные сети, машинное обучение, глубокое обучение и обработку естественного языка, все из которых представлены в следующей подборке. Эти инструменты используют возможности моделей ИИ, которые разрабатываются годами и требуют большого количества обучающих данных. Благодаря росту вычислительной мощности персональных компьютеров потребительского класса разработка моделей ИИ и анализ обучающих данных стали более доступными даже для небольш

Оглавление

Final 2x - Увеличение размеров изображений
Meshroom - 3D-сканер для смартфонов
Kdenlive - использование искусственного интеллекта для отслеживания объектов

Искусственный интеллект (ИИ) становится все более доступным для широких масс благодаря распространению инструментов и программного обеспечения для ИИ с открытым исходным кодом. Многие приложения ИИ находятся в свободном доступе, что объясняется их происхождением из научных кругов, где сотрудничество и разработка с открытым исходным кодом являются обычной практикой. В этой статье мы рассмотрим ряд практичных и полезных приложений ИИ, которые можно запустить на ПК с ОС Windows без затрат на установку.

ИИ включает в себя различные технологии, в том числе нейронные сети, машинное обучение, глубокое обучение и обработку естественного языка, все из которых представлены в следующей подборке. Эти инструменты используют возможности моделей ИИ, которые разрабатываются годами и требуют большого количества обучающих данных. Благодаря росту вычислительной мощности персональных компьютеров потребительского класса разработка моделей ИИ и анализ обучающих данных стали более доступными даже для небольших исследовательских групп.

Существенным фактором, способствующим появлению таких бесплатных инструментов ИИ, является разработка с открытым исходным кодом. В частности, PyTorch, представленный в 2016 году компаниями Facebook и Microsoft, получил признание в исследовательских и свободных программных проектах благодаря своим API на языках Python и C++. Система автопилота Tesla также опирается на PyTorch. Другим популярным фреймворком является TensorFlow от Google, который предлагает тесную интеграцию с Google Cloud и множество библиотек для персонального использования. Эти два фреймворка сыграли ключевую роль в разработке рассматриваемых здесь приложений ИИ.

Final 2x - Увеличение размеров изображений

Масштабирование растровой графики часто приводит к потере качества. Однако Final 2x предлагает решение, при котором качество не страдает. Используя нейронные сети и предварительно обученные модели Real Cugan, Real Esrgan, Waifu 2x и SRMD, Final 2x отлично справляется с масштабированием изображений, сохраняя при этом мелкие детали. Он также может значительно улучшить пикселизированные JPG-фотографии, страдающие от шумов и артефактов.

Установка: Final 2x входит в число наших любимых программ благодаря простоте установки под Windows. Он не предъявляет особых требований к аппаратному обеспечению и прекрасно работает на чипах Nvidia, AMD и Intel, включая интегрированные GPU. Для установки достаточно загрузить инсталлятор со страницы разработчика на GitHub и пройти несложный процесс настройки.

Принцип работы: После запуска Final 2x появится поле ввода, куда можно перетащить файлы JPG или PNG для масштабирования. Нажатие на значок шестеренки в левом нижнем углу открывает страницу настроек, позволяющую выбрать CPU/GPU для вычислений, если у вас несколько вариантов. Выбор модели влияет на качество изображения: Real-ESRGAN подходит для фотографий, а Waifu 2x - для рисунков. В поле Custom Scale можно задать коэффициент масштабирования и включить опцию TTA для получения хорошо деноизированных результатов. Запуск расчета с помощью кнопки "Старт" может занять несколько минут для сложных изображений.

Meshroom - 3D-сканер для смартфонов

Войдите в увлекательный мир 3D-моделирования с помощью программы Meshroom. Это мощное программное обеспечение берет обычные фотографии реальных объектов и преобразует их в 3D-сетку. Полученные 3D-модели могут быть доработаны и использованы в CAD-программах или программах 3D-моделирования, таких как Blender.

Свободное программное обеспечение Meshroom, основанное на фотограмметрических библиотеках, разработанных компанией Alicevision, позволяет создавать 3D-модели на основе фотографий, полученных с помощью смартфонов или цифровых камер. При этом происходит сканирование реальных объектов с помощью лазеров и генерация файла сетки для использования в программах автоматизированного проектирования и анимации.

Установка: Для работы Meshroom требуется видеокарта Nvidia с поддержкой как минимум Cuda 2.0, поскольку для расчетов используется интерфейс Cuda. Вы можете проверить совместимость вашей карты Nvidia на их сайте. Размер загружаемых драйверов Nvidia Cuda для Windows составляет около 3 ГБ. После настройки оборудования Nvidia можно установить Meshroom (примерно 1,3 ГБ). Хотя Meshroom работает как с видеокартами AMD, так и с чипами Intel, без поддержки Cuda он работает в режиме менее точных эскизов. Для тех, у кого хватит терпения, доступна для тестирования альтернативная версия Meshroom без Cuda.

Принцип работы: При сканировании объекта убедитесь, что он хорошо изолирован в пустой комнате. Сделайте десятки снимков под разными углами с большой глубиной резкости, избегая размытости. Размер изображения не должен превышать 10 мегапикселей. Импортируйте эти фотографии в Meshroom, перетащив их в левую область "Изображения", чтобы начать расчет. Будьте готовы к тому, что этот процесс займет несколько часов, даже при использовании видеокарт Nvidia. Для дальнейшей оптимизации сгенерированной сетки можно использовать 3D-программы, например бесплатную программу Blender.

Kdenlive - использование искусственного интеллекта для отслеживания объектов

Не отставайте в области видеомонтажа благодаря DaSIAM - трекеру движения, интегрированному в новые версии программ для видеомонтажа. DaSIAM использует передовые технологии KITechniques для выполнения различных задач, в том числе для размытия лиц, делая их неузнаваемыми, обеспечивая конфиденциальность и безопасность.

В течение последних двух лет в бесплатный видеоредактор Kdenlive интегрируются функции искусственного интеллекта для расширения его возможностей. Одной из его отличительных особенностей является функция отслеживания движения, которая автоматизирует отслеживание объектов в видеоклипах, позволяя пользователям применять целенаправленные эффекты к распознанным мотивам. Эта функция особенно полезна для таких задач, как пикселизация определенных объектов в видеоклипах.

Установка: Установка Kdenlive не представляет собой ничего сложного. Она доступна в виде открытого программного обеспечения для Windows (64-бит) в виде компактного установочного файла (около 100 МБ). Кроме того, для работы алгоритма отслеживания движения требуются файлы модельных данных, предоставленные разработчиками Kdenlive. Эти файлы с именами "dasiamrpn_kernel_cls1.onnx", "dasiamrpn_kernel_r1.onnx" и "dasiamrpn_model.onnx" необходимо поместить в каталог установки Kdenlive.

Для этого выполните следующие действия:

Откройте Проводник Windows и введите в адресной строке адрес %AppData%/kdenlive.
Создайте в каталоге "kdenlive" новую подпапку с именем "opencvmodels".
Поместите три загруженных файла моделей в папку "opencvmodels".

Принцип работы: После установки Kdenlive и размещения данных модели можно получить доступ к трекеру движения в качестве эффекта в программе. Вот пошаговое руководство:

Импортируйте видеоклип в Kdenlive и добавьте его на временную шкалу, показанную ниже.
Переключитесь на вкладку "Эффекты" в средней строке меню.
В разделе "Альфа, маски и кеинг" выберите "Motion Tracker".
Перетащите эффект "Motion Tracker" на клип, с которым вы хотите работать. При этом откроются настройки эффекта, а в окне предварительного просмотра появится красный квадрат.
В настройках выберите алгоритм трекера "DaSIAM".
Перейдите к первому кадру на временной шкале, расположите красную рамку выделения вокруг объекта, который необходимо отследить, и нажмите кнопку "Анализ", чтобы рассчитать ключевые кадры для отслеживания.
Кроме того, можно сразу же применить такие эффекты, как пикселизация, что полезно для затемнения лиц или другой конфиденциальной информации в видео.

Spleeter - разделение музыкальных дорожек с помощью искусственного интеллекта

Раскройте внутренние слои музыкальных файлов с помощью Spleeter - инструмента командной строки, работающего на основе искусственного интеллекта и обширных моделей. Spleeter отлично справляется с разбивкой музыкальных файлов формата MP3 на отдельные треки с изолированными инструментами. Погрузитесь в хитросплетения любимых композиций и познакомьтесь с магией деконструкции музыки.

Spleeter - замечательный инструмент искусственного интеллекта, получивший широкую известность два года назад благодаря своей способности разделять смешанные музыкальные треки (в формате MP3) на отдельные компоненты, такие как вокал, бас, ударные и ритм-секция.

Установка: Хотя установка Spleeter может быть несколько сложной, существует версия для Windows, которая упрощает этот процесс. Вот как ее запустить:

Установите менеджер пакетов для Windows под названием Chocolatey. Откройте Windows PowerShell с правами администратора и выполните следующие команды:

Set-ExecutionPolicy AllSigned

включает права на исполнение с помощью записи "j". Затем команда:

Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString('https://chocolatey.org/install.ps1'))

устанавливает менеджер пакетов Chocolately для Windows.

Затем менеджер пакетов может установить Spleeter в Powershell с помощью этого ввода:

choco install spleeter-msvc-exe

Также необходимо загрузить обучающие модели, запустив пакетный файл "download_models.bat", расположенный в каталоге "C:\ProgramData\chocolatey\lib\spleeter-msvc-exe\tools\models".

Наконец, Spleeter требует установки Visual C++ разработки компании Microsoft.

Принцип работы: После правильной настройки Spleeter можно использовать его возможности искусственного интеллекта для разделения музыкальных треков:

Чтобы разделить MP3-файл на вокал и инструменты, достаточно выполнить команду в текущем каталоге:

spleeter.exe file.mp3

Для более сложного разделения используйте флаг -m. Например, команда:

spleeter.exe -m 4stems file.mp3

Оцените точность работы Spleeter в программе редактирования аудио Audacity. Здесь в полной мере проявляются замечательные возможности Spleeter по разделению инструментов и вокала. Однако следует иметь в виду, что этот процесс может привести к потере высокочастотных деталей в звуке.

выделит вокал, бас, ударные и ритм/аккомпанемент, а команда:

spleeter.exe -m 5stems file.mp3

позволит выделить еще больше дорожек, таких как вокал, бас, ударные, фортепиано и ритм-секция.

Microsoft Edge - улучшение изображений с помощью искусственного интеллекта

Microsoft Edge, веб-браузер, в котором особое внимание уделяется интеграции искусственного интеллекта, теперь предлагает впечатляющие возможности улучшения изображений, особенно полезные для пользователей с экранами высокого разрешения.

Установка: Чтобы получить доступ к функциям улучшения изображений с помощью искусственного интеллекта в Microsoft Edge, вам потребуется версия браузера для разработчиков, которую можно получить через публичную предварительную версию.

Принцип работы: В отличие от некоторых других функций искусственного интеллекта, улучшение изображений в Edge происходит не локально на устройстве. Вместо этого браузер отправляет изображения на серверы Microsoft для обработки, а затем получает улучшенные изображения. Следует помнить, что это означает, что Microsoft может анализировать изображения, к которым вы обращаетесь в Интернете.

Чтобы активировать эту функцию, выполните следующие действия:

Откройте страницу параметров браузера Edge, введя в адресной строке edge://settings/privacy/enhanceImages.
Переключите переключатель, чтобы включить функцию улучшения изображений. Эту функцию можно также активировать для определенных сайтов.

В альфа-версиях Microsoft Edge (называемых Canary) искусственный интеллект также используется для улучшения размытых видеороликов с разрешением до 720p. В отличие от функции улучшения изображения, эта функция улучшения видео не отправляет данные на серверы Microsoft и требует использования более новых графических чипов от AMD или Nvidia с соответствующими фирменными драйверами.

Vosk - революция в распознавании речи с помощью искусственного интеллекта

Ознакомьтесь с процессом преобразования разговорной речи в субтитры с помощью Vosk. В данном примере мы поставили перед Vosk задачу распознать звуковую дорожку англоязычного видеоролика YouTube в формате MP4. Результат? Аккуратный SRT-файл, делающий видеоконтент доступным с помощью субтитров.

Благодаря Vosk - системе искусственного интеллекта, построенной на базе мощного механизма распознавания речи Kaldi, - путь от необработанной записи до чистой транскрипции еще никогда не был таким коротким. Разработанный в качестве проекта с открытым исходным кодом Университетом Джона Хопкинса, Vosk создает новые волны в мире распознавания речи.

Установка: Для начала работы с Vosk вам потребуется Python 3.11 на машине под управлением Windows. Во время установки убедитесь, что установлен флажок "Добавить Python в PATH". После установки Python откройте командную строку и выполните следующие две команды:

pip install ffmpeg
pip install vosk

Эти команды установят необходимые предварительные условия для работы Vosk. Кроме того, вам понадобится кодер/декодер Ffmpeg в виде файла "ffmpeg-git-essentials.7z". Распакуйте содержимое архива в новый каталог, например, "C:\Program Files\ffmpeg", убедившись, что файл "ffmpeg.exe" находится в подкаталоге "bin". Теперь необходимо добавить "C:\Program Files\ffmpeg\bin" в переменные окружения Windows в разделе "Path". Это можно сделать, выполнив следующие действия: Значок Windows > Параметры > Система > Дополнительные параметры системы > Переменные среды > Путь > Изменить > Новый.

Принцип работы: Зайдите на сайт Vosk API GitHub по адресу http://github.com/alphacep/vosk-api, чтобы скачать примеры скриптов в разделе Code - Download ZIP. Распакуйте эти скрипты в любую директорию, и в подпапке "\python\vosk\transcriber" вы найдете пример скрипта с именем "transcriber.py". Этот скрипт можно использовать для распознавания речи и создания файлов субтитров с временными метками. Например:

vosk-transcriber -l en-us -i test.mp4 -t srt -o english.srt

Эта команда создаст файл субтитров "english.srt" из видеофайла "test.mp4" с помощью распознавания речи. Сценарий также автоматически загрузит подходящую языковую модель. В дальнейшем созданный файл субтитров можно обработать в программах перевода, чтобы перевести его на другой язык.

Digikam - раскрытие возможностей распознавания лиц для фотографий

Откройте для себя возможности распознавания лиц в управлении фотографиями с помощью Digikam. Это универсальное программное обеспечение получает изображения из отсканированной коллекции фотографий, создает локальную базу данных лиц и обеспечивает удобную маркировку и поиск лиц в вашей фотобиблиотеке.

Digikam - это мощная программа управления фотографиями, предназначенная для организации обширных коллекций фотографий. Первоначально разработанная для Linux, она была перенесена на Windows и продолжает развиваться. Возможности Digikam выходят за рамки простой сортировки по альбомам и ключевым словам. Теперь в ней реализованы такие продвинутые опции на основе искусственного интеллекта, как распознавание лиц и автоматическая градация качества изображений.

Установка: Установка Digikam на 64-битную систему Windows не составит труда. Используйте программу установки (114 МБ) и следуйте инструкциям по ее установке. При первом запуске Digikam предложит загрузить необходимые данные ИИ-модели для функции распознавания лиц, для чего потребуется дополнительно около 420 Мб памяти.

Принцип работы: Digikam экспериментирует с функцией распознавания лиц на основе нейронных сетей с версии 2.0, но практическое применение она получила в версии 7.2. Открыв фотографию в Digikam, вы заметите значок лица со знаком плюс. С его помощью можно вручную отметить лицо прямоугольником выделения и присвоить ему имя.

Повторите этот процесс для нескольких фотографий с одним и тем же человеком, каждый раз выбирая его имя из отображаемого списка. После этого можно искать во всей коллекции фотографий изображения одного и того же человека через пункт меню "Поиск > Люди".

Hugin - создание потрясающих панорам из серии фотографий

Раскройте свой творческий потенциал в пейзажной фотографии с помощью Hugin. Этот оригинальный инструмент автоматически объединяет серии соседних фотографий для создания потрясающих панорам. Отображаемые здесь контрольные точки помогают в этом процессе, обеспечивая точный контроль над конечным результатом.

Hugin - это замечательный инструмент для любителей фотографии, позволяющий создавать потрясающие панорамные снимки из наборов перекрывающихся изображений. Хотя приложения для смартфонов уже давно предлагают возможности создания панорам, Hugin отличается точным контролем над конечным результатом, в том числе возможностью совмещения изображений по вертикали.

Установка: Hugin - это программа для Windows, и все, что вам нужно сделать, это извлечь ее из ZIP-архива в любую папку по вашему выбору. Ищите исполняемый файл "hugin.exe" в подпапке "bin".

Принцип работы: Hugin - это многофункциональный инструмент, предназначенный для опытных пользователей. Начинать работу рекомендуется с небольших панорам, состоящих всего из двух отдельных изображений, которые можно добавить на вкладке "Изображения". Для достижения оптимальных результатов следует вручную вводить фокусное расстояние из метаданных каждого снимка. Повысить качество панорам можно, добавив контрольные точки между перекрывающимися изображениями на соответствующей вкладке.

Subsync - идеально синхронизированные субтитры

Добиться идеальной синхронизации субтитров и видео можно с помощью программы Subsync. Этот инструмент использует распознавание речи, опираясь на встроенный Python-модуль Pocketsphinx, для анализа заданных видеофайлов и генерации точных временных кодов в файлах субтитров.

Для киноманов, предпочитающих смотреть фильмы и сериалы на языке оригинала, субтитры просто незаменимы. Однако найти субтитры, идеально синхронизированные с видео, бывает непросто. На помощь приходит Subsync - бесплатный инструмент, работающий на основе распознавания речи и искусственного интеллекта.

Установка: Subsync удобен в использовании, и вам не придется возиться с командной строкой. Посетите сайт проекта https://github.com/sc0ty/subsync/releases, чтобы загрузить программу установки или портативную версию, совместимую со всеми 64-разрядными версиями Windows (бесплатно, 42 МБ).

Запустите загруженный EXE-файл, чтобы распаковать программу в подпапку, где будет находиться файл программы.

Принцип работы: В интерфейсе программы в верхнем поле "Субтитры" укажите путь к файлу субтитров в формате SRT, а также язык этого файла. Ниже в поле "Ссылки" укажите видеофайл и его язык.

Нажмите кнопку "Старт", и Subsync загрузит необходимые файлы словарей для выбранных языков, объем которых может составлять несколько десятков мегабайт. Затем Subsync начинает процесс синхронизации на основе обнаруженных совпадений, переписывая временные метки в SRT-файле для достижения идеальной синхронизации с видео.

В заключение можно сказать, что эти инструменты, основанные на искусственном интеллекте, меняют различные аспекты управления мультимедиа, делая такие задачи, как распознавание речи, распознавание лиц, создание панорам и синхронизация субтитров, более доступными и эффективными для пользователей систем Windows.

Посмотрите как ИИ от Google может заменить Вас на совещании:

ИИ Duet от Google будет участвовать в совещаниях за вас, пока вы отдыхаете

TechTalk30 августа 2023

PS: Уважаемые читатели не забывайте ставить лайки если статья Вам понравилась, это помогает развитию канала. Заранее спасибо!

⚡⚡⚡ Друзья! Если вам нравится то, что я делаю, и вы хотите, чтобы это продолжалось, приглашаю поддержать меня и внести свой посильный вклад. Вместе мы сила! Спасибо за вашу поддержку! ⚡⚡⚡

yoomoney.ru

ЮMoney