11 подписчиков

Голосовые ассистенты обещают удобство. Но распознавание речи создали в Bell Labs в 1952 для глухих

13 февраля13 фев

7 мин

Вчера племянник разговаривал с Alexa: «Алекса, включи музыку! Алекса, какая погода?» Диктор в рекламе по ТВ: «Революция голосового управления! Впервые технология распознавания речи доступна каждому!» Я усмехнулся: «Впервые? В 2020-х? А "Audrey" из Bell Labs не считается?» Он удивился: «Одри? Кто это?» Я встал. Достал папку «Bell Telephone Laboratories. Speech Recognition Research. 1950-1960». Открыл на странице с фотографией: Огромный шкаф с электронными лампами. Инженер говорит в микрофон: "Three". На осциллографе — график звуковой волны. Рядом табличка: "Audrey - Automatic Digit Recognizer. 1952". Показал племяннику: «Вот твоя "революция Alexa". Только это 1952 год. За 73 года до того, как Amazon "изобрела" голосовые помощники». Audrey" (Automatic Digit Recognizer) — первая в мире система автоматического распознавания речи. РАЗРАБОТКА: 1952 год, Bell Telephone Laboratories (Bell Labs), США

ИНЖЕНЕРЫ: К. Дэвис (K.H. Davis), Р. Биддульф (R. Biddulph), С. Балашек (S. Balashek)

ЦЕЛЬ: Со

ИНЖЕНЕРЫ: К. Дэвис (K.H. Davis), Р. Биддульф (R. Biddulph), С. Балашек (S. Balashek)

ЦЕЛЬ: Со

Оглавление

Или как "Audrey" распознавала цифры 74 года назад — задолго до Siri и Alexa
"Audrey": когда Bell Labs научила машину слышать цифры
От "Audrey" до Alexa: 73 года эволюции

Или как "Audrey" распознавала цифры 74 года назад — задолго до Siri и Alexa

Вчера племянник разговаривал с Alexa: «Алекса, включи музыку! Алекса, какая погода?»

Диктор в рекламе по ТВ: «Революция голосового управления! Впервые технология распознавания речи доступна каждому!»

Я усмехнулся: «Впервые? В 2020-х? А "Audrey" из Bell Labs не считается?»

Он удивился: «Одри? Кто это?»

Я встал. Достал папку «Bell Telephone Laboratories. Speech Recognition Research. 1950-1960».

Открыл на странице с фотографией:

Огромный шкаф с электронными лампами. Инженер говорит в микрофон: "Three". На осциллографе — график звуковой волны. Рядом табличка: "Audrey - Automatic Digit Recognizer. 1952".

Показал племяннику: «Вот твоя "революция Alexa". Только это 1952 год. За 73 года до того, как Amazon "изобрела" голосовые помощники».

"Audrey": когда Bell Labs научила машину слышать цифры

Audrey" (Automatic Digit Recognizer) — первая в мире система автоматического распознавания речи.

РАЗРАБОТКА: 1952 год, Bell Telephone Laboratories (Bell Labs), США

ИНЖЕНЕРЫ: К. Дэвис (K.H. Davis), Р. Биддульф (R. Biddulph), С. Балашек (S. Balashek)

ЦЕЛЬ: Создать систему, которая может распознавать произнесённые цифры (0-9) для автоматизации телефонных операторов

ИСТОРИЧЕСКИЙ КОНТЕКСТ:

1950-е годы:

Телефонные звонки соединяются операторами вручную
Оператор спрашивает: "Какой номер?" → абонент диктует цифры → оператор переключает вручную
Bell Labs думает: «А что если машина распознает цифры автоматически?»

ЦЕЛЬ "AUDREY":

Распознавать 10 цифр (0, 1, 2, 3, 4, 5, 6, 7, 8, 9), произнесённых одним конкретным человеком (система обучалась под голос конкретного инженера).

ТЕХНИЧЕСКИЕ ХАРАКТЕРИСТИКИ:

РАЗМЕР:

Огромный шкаф (высота ~2 метра, ширина ~1 метр)
Вес: несколько тонн (электронные лампы, трансформаторы, реле)

Для сравнения:

Современная Alexa: 150 грамм (маленький динамик)
"Audrey" в 10,000 раз тяжелее

КОМПОНЕНТЫ:

1. Микрофон

Обычный телефонный микрофон (углевой)

2. Аналоговые фильтры

10 полосовых фильтров (каждый пропускает свою частоту)
Человеческая речь: диапазон 300-3400 Гц
Фильтры разделяют звук на полосы → анализируют спектр

3. Электронные лампы

~1000 вакуумных ламп (для усиления и обработки сигнала)
Потребляемая мощность: ~5 кВт (как электрочайник, работающий постоянно)

4. Реле и логические схемы

Электромеханические реле сравнивают сигнал с эталонами (заранее записанными образцами цифр)
Если сигнал похож на эталон → реле срабатывает → цифра распознана

5. Индикатор

Лампочки (или стрелочный индикатор) показывают распознанную цифру

ПРИНЦИП РАБОТЫ:

Этап 1: Обучение (калибровка)

Инженер произносит каждую цифру (0-9) несколько раз
Система записывает спектральный отпечаток (какие частоты активны при произнесении каждой цифры)
Эталоны сохраняются в реле (механически)

Этап 2: Распознавание

Пользователь говорит в микрофон: "Three"
Звук проходит через фильтры → получается спектр (набор частот)
Система сравнивает спектр с эталонами
Находит ближайший эталон → выводит цифру "3"

ТОЧНОСТЬ:

При распознавании одного обученного голоса: ~97-99% (очень высокая для 1952 года!)
При распознавании другого голоса: ~40-60% (низкая — система не обучалась)

ОГРАНИЧЕНИЯ:

Работала только с цифрами (0-9)
Работала только с одним голосом (тот, на котором обучена)
Медленная: распознавание одной цифры занимало ~1 секунду
Огромная (комната размером со шкаф)
Энергозатратная (5 кВт)

НО:

Это был ПРОРЫВ. Машина слышала и понимала человеческую речь.

От "Audrey" до Alexa: 73 года эволюции

Племянник спросил: «Дед, но Alexa умеет больше! Она понимает целые фразы, команды!»

Я кивнул: «Да. Прогресс за 73 года огромен. Но ПРИНЦИП — тот же: разложить звук на частоты, сравнить с эталонами, распознать».

ЭВОЛЮЦИЯ РАСПОЗНАВАНИЯ РЕЧИ:

1952: "Audrey" (Bell Labs)

Распознаёт: 10 цифр
Голоса: 1 человек (обученный)
Точность: 97%
Размер: шкаф (~2 тонны)

1960-1970-е: Расширение словаря

IBM, MIT, DARPA разрабатывают системы
"Shoebox" (IBM, 1961): Распознаёт 16 слов + 10 цифр
Размер: коробка (как системный блок ПК)

1970-1980-е: Скрытые марковские модели (HMM)

Новая математика: статистические модели (вместо жёстких эталонов)
Системы начинают распознавать связную речь (не только отдельные слова)

1990-е: Первые коммерческие системы

Dragon NaturallySpeaking (1997): Диктовка текста на ПК
Словарь: ~100,000 слов
Точность: 80-90%
Требование: обучение (пользователь читает текст 30 минут → система учится)

2000-е: Появление голосовых помощников

iPhone Siri (2011): Первый массовый голосовой ассистент
Google Now (2012)
Amazon Alexa (2014)

Ключевое изменение:

Облачные вычисления (распознавание происходит на серверах, не на устройстве)
Машинное обучение (нейросети обучены на миллионах голосов)

2020-е: Современные ассистенты

Распознают: неограниченный словарь (любые слова)
Голоса: любые (разные акценты, языки)
Точность: 95-98%
Размер: 50-150 грамм (маленький динамик)

Прогресс в 10,000 раз по размеру и энергии.

НО принцип — тот же (анализ спектра звука, сравнение с паттернами).

Почему "Audrey" не стала коммерческой: технология опередила время

Эволюция: 1952 — 10 слов, 2025 — неограниченный словарь. Принцип один, технологии растут

ЧТО СЛУЧИЛОСЬ С "AUDREY":

1952-1954: Успешные испытания.

Bell Labs демонстрирует "Audrey" на конференциях
Учёные восхищены
Пресса пишет: «Машина, которая слышит!»

1955-1960: Попытки коммерциализации.

Идея:

Использовать распознавание речи для автоматизации телефонных коммутаторов.

Проблема:

"Audrey" работает только с одним голосом (нужно обучать на каждого абонента — невозможно)
Огромная (нужна комната для одного устройства)
Дорогая (стоимость ~$1 миллион в ценах 1950-х = $10 млн в 2025)

Вывод Bell Labs:

«Технология интересна, но коммерчески нецелесообразна. Ждём, пока электроника станет дешевле и компактнее».

1960-е: Проект закрыт.

"Audrey" отправлена в музей Bell Labs
Исследования продолжаются (IBM, MIT), но медленно

ПОЧЕМУ НЕ ВЗЛЕТЕЛО:

1. Технологические ограничения

Электронные лампы огромные, дорогие, ненадёжные (часто перегорают)
Чтобы распознавать разные голоса → нужна мощность вычислений, которой не было в 1950-х

2. Отсутствие практического применения

В 1950-х нет персональных компьютеров (некому диктовать текст)
Телефонные операторы дешевле машины за $1 млн

3. Социальная инерция

Люди привыкли разговаривать с операторами-людьми
Идея говорить с машиной казалась странной

КОГДА ВРЕМЯ ПРИШЛО:

2000-2010-е:

Процессоры стали мощными (могут обрабатывать речь в реальном времени)
Интернет стал быстрым (можно отправлять аудио на сервер для обработки)
Смартфоны появились (все носят микрофон с собой)

Результат: Голосовые ассистенты стали массовыми (Siri 2011, Alexa 2014).

"AUDREY" ОПЕРЕДИЛА ВРЕМЯ НА 60 ЛЕТ.

Курилка: вопрос читателям

Племянник сказал: «Дед, получается Bell Labs изобрели распознавание речи в 1952 — но оно стало полезным только в 2010-х?»

Я кивнул: «Да. Технология может быть готова, но бесполезна, если инфраструктура не готова. "Audrey" нужны были мощные компьютеры, интернет, смартфоны. Их не было».

Вопрос в курилку:

Что важнее: изобрести технологию рано или изобрести вовремя?

"Audrey" (1952):

Первая система распознавания речи
Опередила время на 60 лет
Коммерчески бесполезна (слишком дорогая, большая)
Забыта историей

Siri/Alexa (2010-е):

Использовали принципы "Audrey" + современные технологии (нейросети, облако)
Появились вовремя (смартфоны, интернет)
Массовое применение (миллиарды пользователей)
Все помнят

Кто важнее?

Объективно: "Audrey" изобрела принцип.

Но мир помнит Siri и Alexa.

Почему?

Siri/Alexa применимы (полезны в реальной жизни)
"Audrey" была академическим экспериментом

Урок:

Изобретение без применения = бесполезно.

Второй вопрос:

Может, ранние изобретения формируют будущее, даже если их забывают?

"Audrey" не стала коммерческой.

НО:

Инженеры Bell Labs опубликовали исследования
Эти статьи читали учёные 1960-1970-х
Они развивали идеи → создали HMM (Hidden Markov Models)
HMM использовались в Dragon, Siri, Alexa

Цепочка:

"Audrey" (1952) → публикации → исследования (1960-1980) → Dragon (1990) → Siri (2011) → Alexa (2014)

"AUDREY" — ФУНДАМЕНТ, на котором построено всё остальное.

Но её забыли.

Справедливо ли это?

Связь обрывается, но данные остаются.

Ваш Линкин

P.S.

Племянник спросил: «Дед, а "Audrey" сохранилась? Можно посмотреть?»

Я покачал головой: «Нет. Оригинальная "Audrey" разобрана в 1960-х. Электронные лампы использовали в других проектах. Осталась только документация и фотографии».

«Типичная судьба пионеров.»

«Изобрели. Испытали. Поняли, что рано. Разобрали. Забыли».

«Через 60 лет кто-то "изобрёл заново" — и получил славу».

В Bell Labs есть музей.

Там стенд про "Audrey".

Маленькая табличка: "Первая система распознавания речи. 1952 год".

Мимо проходят тысячи людей.

Никто не читает.

Все знают Alexa.

Никто не знает "Audrey".

Железо помнит. Электронные лампы тоже. Пионеров забывают. Последователей помнят.