426 подписчиков

Технологии в видео, которые использует AivanElectric

4 февраля4 фев

11 мин

В условиях огромной конкуренции (великое множество блогеров) нужно чем-то отличаться от остальных, даже если занимаешься этим исключительно для себя и для занесения во всемирный интернет полезной информации (которую можно найти через поисковик или LLM). Какие технологии использует AivanElectric в своих видео. Кратко опишем их особенности, не упоминая всех деталей, иначе эти технологии перестанут быть особенными и единственными в своём роде. СВСС – СверхВысокоСкоростная Съёмка. Обычные видео содержат 24-60 кадров в секунду; высокоскоростная съёмка подразумевает ; сверхвысокоскоростная – более . Большое количество кадров в секунду позволяет замедлять видео и изучать быстрые процессы. Такая съёмка требует специализированной аппаратуры, способной фиксировать большой объём данных за короткий период. Часто увеличение скорости приводит к уменьшению разрешения и качества, но это бывает необходимо для изучения некоторых процессов. Также такая съёмка требует много освещения

СВСС – СверхВысокоСкоростная Съёмка. Обычные видео содержат 24-60 кадров в секунду; высокоскоростная съёмка подразумевает ; сверхвысокоскоростная – более . Большое количество кадров в секунду позволяет замедлять видео и изучать быстрые процессы. Такая съёмка требует специализированной аппаратуры, способной фиксировать большой объём данных за короткий период. Часто увеличение скорости приводит к уменьшению разрешения и качества, но это бывает необходимо для изучения некоторых процессов. Также такая съёмка требует много освещения, т.к. знаменатель времени выдержки не может быть меньше количества кадров в секунду (к/с, квс, frps (frames per second), fps (тоже frames per second, но ещё и скорость foots per second). Использование нескольких камер позволяет рассмотреть происходящее не только с разных ракурсов, но и устанавливать различные характеристики, выбирая приоритет скорости или качества. Кроме специализированной аппаратуры требуется специфическая обработка, программное улучшение таких видео и, в целом, понимания особенностей таких съёмок. Вместе на данный момент это позволяет мне достигать таких значений, как 2160*3840/3840 и 1080*1920/7860 кратковременно ( реального времени), а продолжительно около 2160*3840/960, 384*864/2400 и 192*672/4800. Это пропускная способность более (гигапиксели в секунду) для кратковременной записи и для продолжительной (сильно падает при увеличении скорости). Кратковременная запись в буфер значительно более впечатляющая, т.к. камера может сохранить огромный поток необработанных данных в буфер, после чего заняться их обработкой. Но размер буфера невелик (скорее поток огромен). Для сравнения, «любительские недорогие» сверхвысокоскоростные камеры Chronos(делаются в Канаде и не поставляются в Россию), могут обеспечить: 1.4 за 4,5 к$ – ; 2.1 HD за 6 к$ – ; 4К за 12к$ – . При этом стоимость каждой мною используемой камеры не превышает 25 к₽. Столь впечатляющая производительность достигается за счёт грамотной обработки – это эффективное разрешение, то, которое нам кажется. Исходная (native) пропускная способность значительно ниже, а теоретическая – при необходимости выше (продолжаем дорисовывать пиксели). Следующая технология напрямую связана с СВСС.

«DLSS» или «FSR» от AivanElectric – Ai EUSI (Enhance UpScale Interpolate; улучшение, увеличение разрешения и прогнозирование). Если игровые технологии (DLSS, FSR и т.п.) должны улучшить изображение в реальном времени, при этом не сильно нагружая и без того загруженную игрой видеокарту и используя ограниченный круг определённых нейросетевых моделей, то мой «улучшайзер» может качественно обрабатывать материал значительно дольше, чем он длиться, а модели выбираются (и их результат проверяется) вручную, что позволяет достичь высочайшего качества. Способность изображения быть улучшенным зависит от множества факторов, но обычно можно эффективно (т.е. действительно) улучшить разрешение в 4 раза и сгенерировать 3 промежуточных кадра. Т.е. 1080*1920/50 можно превратить в 2160*3840/200. Это даёт увеличение пропускной способности в 16 раз – от до в этом примере. Пункты Enhance и Upscale улучшают качество, детали и чёткость изображения (как последовательность фотографий). Кратность улучшения делится на: quality (1-3X); balance (3,1-4-6X); performance (6,1-16X); ultra performance (более 16X). Например, 5X означает, что лишь 20% пикселей увидела камера, остальные дорисовала нейросеть на основе имеющихся 20% и своих «знаний» о том, как обычно в таких случаях выглядят остальные 80%. Интерполяция (прогнозирование) – создание целых промежуточных кадров во временной области на основе имеющихся опорных. Это позволяет увеличить количество кадров в секунду. Нейросеть различными способами распознаёт и анализирует движения и поведение объектов в кадре, перемещая их нужным образом на промежуточных сгенерированных кадрах. Эта технология используется не только в СВСС, но и для обычных видео, если исходники с некоторых камер хуже по качеству, чем основное видео. Т.к. люди скептически относятся к таким технологиям (типа DLSS), то в видео у меня увеличение разрешения отмечено как q/b/p/up soap (мыло), а интерполяция – frame degeneration. Некоторые используемые нейросети, модели и программы: Topaz Video AI TVAI Enhance (Proteus, Artemis LQ, Gaia); Hit Paw Video Enhancer; Topaz Video AI TVAI Frame Interpolation (Apollo); Neat Video Noise Reduction (Adobe Premiere Pro plugin). Другие блогеры используют (сверх) высокоскоростную съёмку и «улучшайзеры» по отдельности, но именно смесь даёт бюджетный и впечатляющий результат.

SSTSS (TSS для timelapses) – SuperSonic True Speed Sound; сохранение исходного звука после изменения скорости, с применением записи ультразвука. Ранее RSMSS Sound – Real Speed _? _ Super Sonic Sound. Замедление/ускорение видео приводит к искажению звука. Эта технология позволяет сохранить адекватное звуковое сопровождение, даже если видео замедлено в десятки или ускорено в сотни раз. В случае замедления производится запись не только звука, но и ультразвука – это позволяет сохранить больше частот сверху. В случае ускорения используется инструмент iZotope RX 10 Advanced Radius. Т.к. ускорение – это, по сути, сжатие, то этот инструмент применим, а в случае замедления – нет. Он позволяет сохранить частоту звука, именно ускорив его. В случае замедления частота падает, но т.к. верхняя граница не 16-24, а , то это менее заметно. Так что все (новые) замедленные и ускоренные видео содержат настоящий звук. Некоторые блогеры оставляют звук при небольшом замедлении и ускорении, но моя технология делает это заметно качественнее и при заметно более сильном изменении скорости. При сильном замедлении можно непосредственно ощутить задержку, связанную со скоростью распространения звука в воздухе.

ASDN – Absolute Spectral De-Noise, полное спектральное вычитание шума. Инструмент iZotope RX 10 Advanced Spectral De-noise позволяет вычесть шум из аудио, если имеется образец шума. Для всех используемых мною устройств, имеющих звукозапись, я записал профили шума – полную тишину, которая содержит только шум микрофона и устройства. Использование высокочувствительных микрофонов (например, Zoom H1n) и эта технология позволяют сделать звук близким по чувствительности к тому, как его слышит человек, находящийся на месте съёмки. Так что в новых видео звук всех действий очень качественный и настоящий (а не записанный отдельно как в кино). Я уделяю звуковому сопровождению значительное внимание, в то время как многие блогеры сосредотачиваются только на видео или полагаются на дорогую автоматическую аппаратуру.

Невидимая петличка UVR5 (Ultimate Vocal Remover). Подкасты (разговоры) или дикторская речь на радио, например, в моно и без ревербераций, т.е. осушена, в то время как звуки окружения и всех действий должны быть естественными – в стерео и с имеющимися реверберациями. Применение UVR5 VR Architecture (Vocal Remover) позволяет на готовом видео отделить голос от всего остального (модель 1_HP), а затем убрать реверберации (DeEcho-DeReverb) и свести его в моно. В результате, голос звучит так, будто говорящий использует микрофон-петличку, а все остальные звуки остаются без изменений – максимально приближенные к тому, как их слышит человек. Ранее эту технологию никто не использовал.

Вся музыка уникальная, такую нигде не скачать в интернете. Потому что вся музыка, используемая в моих видео, была обработана мною. Применено множество отдельных технологий, которые делают эту музыку уникальной. Позже будет предоставлена возможность скачать (и использовать) эту музыку.

ET2S&RVC – English Text to Speech and Retrieval Voice Changer; преобразование английских текстов в речь с последующей заменой голоса нейросетью на основе поиска совпадений из модели. Все английские названия озвучиваются с правильным произношением, но при этом моим голосом. Это не потому, что я отлично говорю по-английски, а потому что нейросеть T2S генерирует английскую речь по тексту, а нейросеть RVC (модель rmvpe_GPU) заменяет сгенерированный голос на мой. В будущем эта технология будет использоваться в видео на YouTube – иностранцы с комфортом смогут посмотреть мои видео на английской озвучке моим голосом, а мы будем смотреть оригинал на отечественных платформах. В этом случае также будет использоваться UVR5 VR Architecture 1_HP, чтобы сохранить все остальные исходные звуки. Схожую технологию придумал Яндекс (голосовой и позже «живой» перевод иностранной речи в видео), а позже она появилась и у Google на YouTube. У меня есть возможность создать такую аудиодорожку на локальных мощностях, без доступа в интернет.

Transcribtion Database (APP S2T + MSW) + RVC + TVAI. С помощью инструмента (из Adobe Premiere Pro) преобразования речи в текст, записи полученного текста с timecodes в обычный Word документ, последующего поиска нужных слов в документе, растягивания изображения видео при произнесении этого слова, и замена голоса с помощью RVC, можно получить аналог автотюнера – песен как у Enjoykin или Maestro Ziikos. Но только всё автоматизированно и не требует музыкального образования. А говорили, что нейросети убили такой класс музыки. Котлетки с пюрешкой… Больше не могу сказать про эту технологию, т.к. она крайне сложная (но невероятно впечатляющая) и оттого ценная для меня.

Профессиональное заполнение 2:1 и 1:1. Эту технологию (профессиональное освещение) придумал и применяет YouTube, чтобы заполнить полосы, когда соотношение сторон видео не совпадает с соотношением сторон экрана. В моём случае, видео 16:9 приводятся к 2:1 (почти как кино), а вертикальные 9:16 к 1:1. Я использую свою программную методику создания заливки этих областей, которая также учитывает содержимое кадра сейчас и в недалёком (несколько секунд) будущем. Эта технология имеет следующие преимущества. Размер обрезанных зон можно регулировать, обрезая лишнее или наоборот, расширяя. Это создаёт дополнительный простор для творчества и акцентирования внимания. Видео после применения этой технологии немного качественнее. Обрезанные зоны почти не содержат информации, и при одинаковом битрейте (скорости потока) кодек может уделить больше внимания мелким движениям и деталям в кадре (повысить качество), не увеличивая размер видео. Кроме YouTube никто из блогеров вроде такую технологию не применял.

Съёмка в условиях крайне низкой освещённости. Так же, как и высокочувствительная запись звука, высокочувствительная запись изображения (тут не только про high ISO) делает его более реалистичным. Используются как аппаратные возможности (большие маломегапиксельные матрицы с крупными пикселями и светосильные объективы), так и программные. Например, plugin Neat Video анализирует шум в видео на десяти соседних кадрах, что позволяет ему восстановить даже мелкие детали, убрав множество шума и мерцания. Пока мне недоступна полнокадровая сверхвысокочувствительная камера Sony A7SI (сейчас стоит 40 к₽, жду пока подешевеет, как в своё время высокоскоростная action camera GoPro Hero 10 и смартфон со сверхвысокоскоростным модулем Huawei P40 Pro), но и более бюджетные APS-C решения от Nikon с кроп-фактором 1,5 и матрицами 24, а не 12 МП (пиксель меньше в 4,5 раза), позволяют достичь впечатляющих результатов. Как и со (сверх) высокоскоростной съёмкой, при съёмках в условиях недостаточной освещённости блогеры часто ограничиваются лишь аппаратными возможностями, пренебрегая программными.

Другие более мелкие технологии. Например: полнокадровая стабилизация без кадрирования Topaz Video AI TVAI Stabilization Full-Frame; программное увеличение выдержки затвора Adobe After Effects Размытие пикселей в движении; преобразование видео к стандартам 960*1920/25, 960*1920/50, 1920*3840/25, 1920*3840/50, 1080*1080/25 и 1080*1080/50 и экспериментальное динамическое разрешение (в центре чётко, а по краям не так – как в глазу); удаление водяных знаков и объектов с помощью целого комплекса инструментов; профессиональное индивидуальное редактирование и восстановление аудио в iZotope RX10 Advanced; многое другое. Всё это делает мои видео особенными. Ниже список используемых программ, инструментов и нейросетей.

«iZotope RX 10 Advanced (RX 10): Repair Assistant; Ambience Match; Breath Control; De-clip; De-crackle; De-ess; De-hum; De-plosive; De-wind; Deconstruct; Dialogue Contour; Dialogue Isolate; Music Rebalance; Spectral De-noise; Spectral Recovery (with Spectral patching); Spectral Repair (Replace, Pattern); Time & Pitch; Variable Pitch; Variable Time.

Ultimate Vocal Remover UVR 5: VR Architecture (1_HP, 5_HP-Karaoke, De-Echo-Aggressive, DeEcho-DeReverb); MDX-Net (Kim Vocal 1, Reverb HQ, Crowd HQ 1, Inst Main, Karaoke); Demucs* v4 (htdemucs, htdemucs_ft, htdemucs_6s).

ReFacer, RVC (rmvpe_GPU), T2S.

Adobe Photoshop 2024: Camera Raw (Lens Blur); Neural Filters (Smart-portrait, Landscape, Colorize, Restore).

Hit Paw Video: Enhance (Colorize), Watermark Remover, Object Remover.

Topaz Photo AI: Remove, Upscale (Standard, Hight Fidelity, Low Resolution); Removing Noise (Normal, Strong, Extreme); Sharpening (Standard, Strong, Lens Blur, Motion Blur); Recover Face.

Topaz Video AI: Stabilization Full-Frame; Motion Deblur Themis; Frame Interpolation (Apollo, Apollo Fast); Enhancement (Proteus, Artemis, Gaia).

Adobe After Effects 2023 Content Aware Fill, Neat Video, Adobe Premiere Pro Speech to Text.

Часть контента создана или обработана нейросетями, ручной контроль для минимизации ошибок. Контент, созданный нейросетями или обработанный с их помощью, позволяет уменьшить количество ошибок при ручном использовании.»

*Архитектура Demucs создана компанией Meta, компания признана экстремистской и запрещена в России.

----

И всякие интернет-сервисы, преимущественно генеративные отечественные. Кстати, как видите, программы всё ещё нужны и популярны – нейросети заменят не всё.