Найти тему

ИИ-расшифровщик русской речи: готовый продукт или создание собственного?

Какие инструменты помогают автоматизировать расшифровку совещаний? Какие российские коммерческие инструменты доступны для транскрибации разговоров? С чего начать свою разработку? В чем отличие отечественного рынка от глобального в использовании open-source-движков? Может ли появиться на рынке отраслевой ИИ-транскрибатор?

Совещания, созвоны, переговоры – три столпа современной корпоративной культуры. Будущее эффективных коммуникаций с коллегами, партнерами и подрядчиками лежит в ИИ-перспективе и создании кастомных продуктов на основе передовых технологий.

Представьте: у вас большой проект, в успехе которого заинтересованы многие стороны. Количество контактов с партнерами и клиентами зашкаливает. Каждое слово – на вес золота, ведь все договоренности, задачи и планы нужно фиксировать, любое отклонение чревато огромными проблемами в масштабах проекта и компании в целом.

Важно не просто записывать все эпизоды деловой коммуникации, но и быстро «переводить» запись в наглядный набор конкретных тезисов, планы действий или фиксированные статусы по текущим задачам. Одно дело, когда такие задачи возникают спорадически: тогда их можно закрывать ручным трудом. Совсем другое – обрабатывать конвейер коммуникаций на проекте. Если совещание идет час, то его обработка руками – это минимум два-три часа сверху. Затраты времени посчитать нетрудно.

Инструменты для автоматизации расшифровки способствуют улучшению совместной работы команд, предоставляя письменный отчет о дискуссиях, обеспечивая общую информированность и соответствие целям проекта.

Повышаются доступность и уровень вовлеченности удаленных сотрудников и команд в процессы обсуждения. Это уменьшает недопонимание, которое часто прослеживается в письменных сообщениях.

Автоматизированная расшифровка устраняет необходимость ручного ведения записей, позволяя участникам сосредоточиться на обсуждаемой теме, что повышает продуктивность встреч. Экономится значительное время, снижается административная нагрузка, отпадает необходимость найма дополнительного персонала или привлечения сторонних организаций.

Наконец, обеспечивается точная и однозначная фиксация всего хода заседаний, что гарантирует ясность и снижает риски неправильного трактования высказываний участников. Хотя технологии пока имеют некоторые ограничения, особенно при работе с низкокачественными аудиозаписями или различными акцентами, но всё больше повышаются точность и надежность работы инструментов.

В чем проблема?

Поясним: конечно, кто ищет, тот всегда найдет, – инструменты транскрибации разговоров, в том числе в формате совещаний, вполне доступны. Собственно, можно пойти путем загрузки ролика с совещанием на YouTube для автогенерации субтитров. При всех оговорках и вопросах к качеству с итогом вполне можно работать. Но, помимо вопросов к удобству и качеству, это не решает проблему конфиденциальности.

Доступны и российские коммерческие инструменты:

  • «Планерка»,
  • Аny2text,
  • Teamlogs,
  • «Писец» и т. п.

Они показывают неплохие результаты. Но чем серьезнее разговор в рамках проекта, тем меньше возможностей его безрисковой выгрузки «на сторону», то есть в приложение стороннего вендора.

С чего начать свою разработку?

Чтобы создать собственный сервис, нужны:

  • облачное пространство,
  • открытый ИИ-движок на open source с поддержкой русского языка.

Далее по шагам:

  1. Точка старта: разворачивание движка на собственных вычислительных мощностях.
  2. Создание качественного интерфейса, включающего поиск по тексту расшифровки и навигацию, позволяющую, перемещаясь по тексту, перемещаться по видео и, наоборот, перемещаясь по видео, перемещаться по тексту расшифровки.
  3. Запуск сервиса для пилотной группы пользователей с целью получения обратной связи.

Как показал наш опыт, на самом старте модель можно и не дообучать. Возможностей open-source-движка для наших целей в рамках проекта пока вполне хватает. А вот для дальнейшего обучения под конкретную компанию и ее задачи уже необходима команда специалистов по МL (Macine Learning – машинное обучение). Далеко не каждый бизнес готов в это вкладываться, ведь зарплата каждого такого специалиста – 300-350 тыс. рублей.

Первым результатом такого проекта будет транскрибация в виде сплошного текста, без разделения на докладчиков. Следующие задачи для разработки – разбивка текста по ролям (диаризация) и резюмирование итогов. Для этого функционала как раз и понадобится привлечение профильных специалистов по машинному обучению. На выходе компания получит продукт, разработанный с учетом ее специфики, а возможно, и всей отрасли.

Ключевые тенденции

Во всем мире к 2025 году организации из списка Global 2000 направят более 40% основных ИТ-расходов на инициативы, связанные с ИИ, что приведет к значительному росту инноваций в продуктах и процессах. Этот сдвиг подчеркивает роль ИИ как движущей силы инноваций. А к 2026 году глобальные расходы на ИИ, включая программное обеспечение, оборудование и услуги, превысят $300 млрд.

Будущее сегмента определяют несколько ключевых тенденций и инноваций:

  1. Интеграция ИИ-моделей с open source-компонентами и их дальнейшим «обучением» получит значительное распространение, позволяя предприятиям повысить производительность и экономическую эффективность за счет объединения этих моделей с их частными (или внешними) данными в режиме реального времени. По этому пути уже пошли в Sibnn: они разрабатывают open-source-движок, а его «дообучение» оставляют на стороне заказчиков.
  2. Распространение API упростит создание сложных приложений на основе ИИ, повышая производительность в различных отраслях. К ним относится целый спектр пользовательских инструментов: микросервисы для анализа поведения клиентов, управления запасами, персонализированных маркетинговых и офисных инструментов, включая ИИ-транскрибаторы.
  3. Мультимодальный генеративный ИИ. Это переход к «умным» решениям, объединяющим работу с текстом, речью и изображением, что позволяет получать более контекстуально релевантные ответы. Эта инновация способна изменить впечатления от работы в компаниях за счет синтеза таких разных видов данных, как речь, текст и визуальные подсказки.

Русский путь

Что касается отечественного рынка, то он поддерживает глобальный тренд на использование open-source-движков через парадигму импортозамещения, однако отличается от него индивидуальным развитием продуктов непосредственно бизнесом.

Путем создания собственных решений в этом направлении пойдет множество компаний в РФ. Ну а в том, что касается решения проблемы удовлетворения спроса на этот класс ИТ-инструментов, – здесь всё зависит от самой компании и ее задач.

Существенно этот рынок могут изменить «Яндекс» или «Сбер», особенно если позволят разворачивать свои системы транскрибации на ресурсах заказчиков, в первую очередь корпоративных. В этом случае заказчики смогут встраивать эти инструменты в свои информационные системы. Скорее всего, рано или поздно оба вендора именно так и поступят.

Остальные компании будут разрабатывать собственные узкопрофильные ИИ-транскрибаторы как нишевой B2B-продукт, без широких продаж массовому пользователю, максимально развивая и углубляя инструмент в область собственной экспертизы.

Следующим этапом может стать появление на рынке отраслевых ИИ-транскрибаторов, которые будут востребованы в определенных нишах.