Krisp — глобальная технология, которой пользуются по всему миру. История о науке «с нуля», неожиданном успехе и технологии, повлиявший на культуру цифрового общения.
От автосигнализаций до шороха бумаги
История Krisp начинается не в лаборатории, а в обычной жизненной ситуации. Сооснователь проекта Давид Багдасарян работал в американской компании Twilio, но часть времени проводил в Армении. Разница во времени вынуждала его выходить на рабочие звонки по вечерам — из кафе, из гостей, из мест, где фоновый шум был неизбежен. Плач детей, разговоры вокруг, уличные звуки мешали коммуникации и создавали постоянный дискомфорт.
В какой-то момент Давид задал простой, но судьбоносный вопрос: можно ли научить компьютер «слышать» так же избирательно, как человек, и убирать всё лишнее? Он поделился идеей с другом Артаваздом Минасяном, который как раз искал сложную и нетривиальную научную задачу. К ним присоединился Степан Саргсян — будущий главный научный сотрудник проекта. Так бытовая проблема стала отправной точкой для создания технологии мирового уровня.
На старте команда оказалась в парадоксальной ситуации: у основателей был сильный бэкграунд в физике и математике, но не было опыта ни в машинном обучении, ни в цифровой обработке сигналов. Фактически они осваивали новую для себя область «на ходу». Полгода интенсивной работы ушло на эксперименты, ошибки и поиск подходов — и в итоге появился первый прототип системы интеллектуального шумоподавления.
Позже команда собрала два масштабных датасета. Первый включал десятки тысяч записей шумов — от автомобильных сигнализаций до шороха бумаги. Второй состоял из чистой студийной речи. Разработчики начали генерировать тысячи комбинаций, накладывая шумы на голос с разной интенсивностью. Именно так нейросеть научилась различать, где речь человека, а где помеха, и «вырезать» лишнее в реальном времени.
Взрыв популярности
В 2017 году Давид Багдасарян ушёл из Twilio, и вместе с Артаваздом Минасяном основал компанию 2Hz, которая вскоре была переименована в Krisp. К октябрю 2018 года продукт был готов, и Давид опубликовал техническую статью о технологии в блоге для разработчиков Nvidia. Интерес оказался неожиданно высоким.
Затем ссылка на Krisp появилась на Hacker News, а позже — на Product Hunt. Популярность росла лавинообразно. Парадоксально, но команда не была готова к такому успеху: маркетинговой стратегии не существовало, а основатель даже пытался добиться удаления упоминаний. В итоге Krisp занял первые места сразу в нескольких номинациях — продукт дня, недели, месяца и года — и окончательно закрепился на глобальном рынке.
Стандарт чистого звука
Сегодня Krisp — это программное обеспечение на базе ИИ, которое устраняет фоновые шумы и эхо как со стороны микрофона, так и со стороны динамиков. Программа работает в реальном времени, без заметных задержек, и сохраняет естественное звучание голоса. Она совместима с Windows и macOS и легко интегрируется с любыми приложениями для общения — от Zoom и Skype до Slack.
Krisp не требует дополнительного оборудования и обрабатывает звук локально, что обеспечивает высокий уровень конфиденциальности. Приложение потребляет минимум ресурсов, стабильно работает даже на старых компьютерах и управляется буквально в один клик. Бесплатный тариф даёт ограниченное количество минут в неделю, а платная версия открывает неограниченный доступ.
Без акцента
«Как человек с акцентом, я часто замечал, что людям трудно понять меня, даже когда я свободно владею английским. Дело не в предвзятости — это просто реальность общения. На быстро меняющихся совещаниях даже небольшие недоразумения могут замедлить принятие решений, вызвать повторения и снизить общую эффективность», — рассказывает Артавазд Минасян, соучредитель и президент Krisp.
Чтобы решить эту проблему, компания запустила новый ИИ-инструмент AI Accent Conversion, который в реальном времени преобразует акцент говорящего в американский английский. Решение работает как виртуальный микрофон и совместимо с Zoom, Microsoft Teams, Google Meet и Webex.
По данным Krisp, задержка составляет около 200 мс — и почти незаметна в разговоре, при этом тембр голоса сохраняется. В демоверсиях речь звучит более «американской», хотя пока заметна лёгкая роботизация. Сейчас инструмент поддерживает более 17 индийских диалектов и доступен в бета-версии.
Ранее технология тестировалась в колл-центрах. Подобные решения внедряют и другие компании, включая Teleperformance SE, однако тема изменения акцентов остаётся чувствительной с точки зрения этики. В Krisp заявляют, что в будущем планируют добавить и другие английские акценты, включая филиппинский.
Krisp стал незаметным, но критически важным инструментом эпохи удалённой работы. Он позволил людям общаться профессионально в любых условиях и доказал, что технологические прорывы часто начинаются с личных неудобств.