Найти в Дзене
Татьяна НейроZ

Ты не просто говорил с Алисой - ты учил ИИ понимать живую речь

Когда голосовые помощники только появились, разговор с ними был чем-то средним между будущим и комедией. Ты говоришь: «Поставь будильник на семь», а в ответ получаешь музыку, прогноз погоды или странное молчание, будто техника решила не влезать в чужую жизнь. Тогда многим казалось, что идея красивая, но работает это всё примерно как дальний родственник, который слышит только то, что хочет. А потом что-то изменилось. Ассистенты начали понимать нас заметно лучше. Не идеально, конечно. Иногда они всё ещё живут своей драматургией. Но разница между «первым поколением» и тем, что есть сейчас, огромная. И вот здесь обычно хочется спросить: а когда они успели так поумнеть? Ответ немного смешной и немного коварный. Пока мы думали, что просто просим включить свет, поставить таймер или найти песню «ну ту самую, которая там у неё ещё ля-ля-ля», системы накапливали огромный массив живой человеческой речи. Не идеальной диктовки из учебника, а настоящей - с кашлем, с шумом чайника, с детскими крикам

Когда голосовые помощники только появились, разговор с ними был чем-то средним между будущим и комедией. Ты говоришь: «Поставь будильник на семь», а в ответ получаешь музыку, прогноз погоды или странное молчание, будто техника решила не влезать в чужую жизнь. Тогда многим казалось, что идея красивая, но работает это всё примерно как дальний родственник, который слышит только то, что хочет.

А потом что-то изменилось. Ассистенты начали понимать нас заметно лучше. Не идеально, конечно. Иногда они всё ещё живут своей драматургией. Но разница между «первым поколением» и тем, что есть сейчас, огромная. И вот здесь обычно хочется спросить: а когда они успели так поумнеть?

Ответ немного смешной и немного коварный. Пока мы думали, что просто просим включить свет, поставить таймер или найти песню «ну ту самую, которая там у неё ещё ля-ля-ля», системы накапливали огромный массив живой человеческой речи. Не идеальной диктовки из учебника, а настоящей - с кашлем, с шумом чайника, с детскими криками, с телевизором на фоне и с нашим привычным бормотанием на бегу. Исследователи Microsoft прямо пишут, что серьёзный прогресс в распознавании речи пошёл с развитием машинного обучения и глубоких моделей, а Apple и Microsoft отдельно изучали, как качество распознавания влияет на удовлетворённость пользователей голосовыми ассистентами.

Самое интересное тут даже не в технологии, а в бытовом парадоксе. Мы привыкли думать, что ИИ обучают где-то в стерильных лабораториях люди в очках и с очень серьёзными лицами. А на деле немалую часть его «воспитания» сделали обычные люди на кухнях, в машинах и в очередях. Кто-то хрипло говорил в телефон на морозе, кто-то диктовал сообщение с ребёнком на руках, кто-то пытался перекричать пылесос. И вся эта несовершенная человеческая речь оказалась для системы полезнее, чем тысячи идеально поставленных голосов.

Есть в этом даже какая-то ирония. Мы ругались, когда ассистент нас не понимал, а в это время сами же и становились частью его обучения. Получается, каждая фраза «да не это я сказала» была маленьким вкладом в цифровое взросление машины.

И вот это уже хороший повод посмотреть на нейросети чуть иначе. Не как на магию из интернета, а как на инструменты, которые стали умнее именно потому, что слишком долго жили рядом с людьми. Если тебе интересно не просто читать про такие штуки, а самой начать разбираться и пробовать, используй русский сервис без ВПН и блокировк Синтекс.АИ