Или как "Audrey" распознавала цифры 74 года назад — задолго до Siri и Alexa
Вчера племянник разговаривал с Alexa: «Алекса, включи музыку! Алекса, какая погода?»
Диктор в рекламе по ТВ: «Революция голосового управления! Впервые технология распознавания речи доступна каждому!»
Я усмехнулся: «Впервые? В 2020-х? А "Audrey" из Bell Labs не считается?»
Он удивился: «Одри? Кто это?»
Я встал. Достал папку «Bell Telephone Laboratories. Speech Recognition Research. 1950-1960».
Открыл на странице с фотографией:
Огромный шкаф с электронными лампами. Инженер говорит в микрофон: "Three". На осциллографе — график звуковой волны. Рядом табличка: "Audrey - Automatic Digit Recognizer. 1952".
Показал племяннику: «Вот твоя "революция Alexa". Только это 1952 год. За 73 года до того, как Amazon "изобрела" голосовые помощники».
"Audrey": когда Bell Labs научила машину слышать цифры
Audrey" (Automatic Digit Recognizer) — первая в мире система автоматического распознавания речи.
РАЗРАБОТКА: 1952 год, Bell Telephone Laboratories (Bell Labs), США
ИНЖЕНЕРЫ: К. Дэвис (K.H. Davis), Р. Биддульф (R. Biddulph), С. Балашек (S. Balashek)
ЦЕЛЬ: Создать систему, которая может распознавать произнесённые цифры (0-9) для автоматизации телефонных операторов
ИСТОРИЧЕСКИЙ КОНТЕКСТ:
1950-е годы:
- Телефонные звонки соединяются операторами вручную
- Оператор спрашивает: "Какой номер?" → абонент диктует цифры → оператор переключает вручную
- Bell Labs думает: «А что если машина распознает цифры автоматически?»
ЦЕЛЬ "AUDREY":
Распознавать 10 цифр (0, 1, 2, 3, 4, 5, 6, 7, 8, 9), произнесённых одним конкретным человеком (система обучалась под голос конкретного инженера).
ТЕХНИЧЕСКИЕ ХАРАКТЕРИСТИКИ:
РАЗМЕР:
- Огромный шкаф (высота ~2 метра, ширина ~1 метр)
- Вес: несколько тонн (электронные лампы, трансформаторы, реле)
Для сравнения:
- Современная Alexa: 150 грамм (маленький динамик)
- "Audrey" в 10,000 раз тяжелее
КОМПОНЕНТЫ:
1. Микрофон
- Обычный телефонный микрофон (углевой)
2. Аналоговые фильтры
- 10 полосовых фильтров (каждый пропускает свою частоту)
- Человеческая речь: диапазон 300-3400 Гц
- Фильтры разделяют звук на полосы → анализируют спектр
3. Электронные лампы
- ~1000 вакуумных ламп (для усиления и обработки сигнала)
- Потребляемая мощность: ~5 кВт (как электрочайник, работающий постоянно)
4. Реле и логические схемы
- Электромеханические реле сравнивают сигнал с эталонами (заранее записанными образцами цифр)
- Если сигнал похож на эталон → реле срабатывает → цифра распознана
5. Индикатор
- Лампочки (или стрелочный индикатор) показывают распознанную цифру
ПРИНЦИП РАБОТЫ:
Этап 1: Обучение (калибровка)
- Инженер произносит каждую цифру (0-9) несколько раз
- Система записывает спектральный отпечаток (какие частоты активны при произнесении каждой цифры)
- Эталоны сохраняются в реле (механически)
Этап 2: Распознавание
- Пользователь говорит в микрофон: "Three"
- Звук проходит через фильтры → получается спектр (набор частот)
- Система сравнивает спектр с эталонами
- Находит ближайший эталон → выводит цифру "3"
ТОЧНОСТЬ:
- При распознавании одного обученного голоса: ~97-99% (очень высокая для 1952 года!)
- При распознавании другого голоса: ~40-60% (низкая — система не обучалась)
ОГРАНИЧЕНИЯ:
- Работала только с цифрами (0-9)
- Работала только с одним голосом (тот, на котором обучена)
- Медленная: распознавание одной цифры занимало ~1 секунду
- Огромная (комната размером со шкаф)
- Энергозатратная (5 кВт)
НО:
Это был ПРОРЫВ. Машина слышала и понимала человеческую речь.
От "Audrey" до Alexa: 73 года эволюции
Племянник спросил: «Дед, но Alexa умеет больше! Она понимает целые фразы, команды!»
Я кивнул: «Да. Прогресс за 73 года огромен. Но ПРИНЦИП — тот же: разложить звук на частоты, сравнить с эталонами, распознать».
ЭВОЛЮЦИЯ РАСПОЗНАВАНИЯ РЕЧИ:
1952: "Audrey" (Bell Labs)
- Распознаёт: 10 цифр
- Голоса: 1 человек (обученный)
- Точность: 97%
- Размер: шкаф (~2 тонны)
1960-1970-е: Расширение словаря
- IBM, MIT, DARPA разрабатывают системы
- "Shoebox" (IBM, 1961): Распознаёт 16 слов + 10 цифр
- Размер: коробка (как системный блок ПК)
1970-1980-е: Скрытые марковские модели (HMM)
- Новая математика: статистические модели (вместо жёстких эталонов)
- Системы начинают распознавать связную речь (не только отдельные слова)
1990-е: Первые коммерческие системы
- Dragon NaturallySpeaking (1997): Диктовка текста на ПК
- Словарь: ~100,000 слов
- Точность: 80-90%
- Требование: обучение (пользователь читает текст 30 минут → система учится)
2000-е: Появление голосовых помощников
- iPhone Siri (2011): Первый массовый голосовой ассистент
- Google Now (2012)
- Amazon Alexa (2014)
Ключевое изменение:
- Облачные вычисления (распознавание происходит на серверах, не на устройстве)
- Машинное обучение (нейросети обучены на миллионах голосов)
2020-е: Современные ассистенты
- Распознают: неограниченный словарь (любые слова)
- Голоса: любые (разные акценты, языки)
- Точность: 95-98%
- Размер: 50-150 грамм (маленький динамик)
Прогресс в 10,000 раз по размеру и энергии.
НО принцип — тот же (анализ спектра звука, сравнение с паттернами).
Почему "Audrey" не стала коммерческой: технология опередила время
ЧТО СЛУЧИЛОСЬ С "AUDREY":
1952-1954: Успешные испытания.
- Bell Labs демонстрирует "Audrey" на конференциях
- Учёные восхищены
- Пресса пишет: «Машина, которая слышит!»
1955-1960: Попытки коммерциализации.
Идея:
Использовать распознавание речи для автоматизации телефонных коммутаторов.
Проблема:
- "Audrey" работает только с одним голосом (нужно обучать на каждого абонента — невозможно)
- Огромная (нужна комната для одного устройства)
- Дорогая (стоимость ~$1 миллион в ценах 1950-х = $10 млн в 2025)
Вывод Bell Labs:
«Технология интересна, но коммерчески нецелесообразна. Ждём, пока электроника станет дешевле и компактнее».
1960-е: Проект закрыт.
- "Audrey" отправлена в музей Bell Labs
- Исследования продолжаются (IBM, MIT), но медленно
ПОЧЕМУ НЕ ВЗЛЕТЕЛО:
1. Технологические ограничения
- Электронные лампы огромные, дорогие, ненадёжные (часто перегорают)
- Чтобы распознавать разные голоса → нужна мощность вычислений, которой не было в 1950-х
2. Отсутствие практического применения
- В 1950-х нет персональных компьютеров (некому диктовать текст)
- Телефонные операторы дешевле машины за $1 млн
3. Социальная инерция
- Люди привыкли разговаривать с операторами-людьми
- Идея говорить с машиной казалась странной
КОГДА ВРЕМЯ ПРИШЛО:
2000-2010-е:
- Процессоры стали мощными (могут обрабатывать речь в реальном времени)
- Интернет стал быстрым (можно отправлять аудио на сервер для обработки)
- Смартфоны появились (все носят микрофон с собой)
Результат: Голосовые ассистенты стали массовыми (Siri 2011, Alexa 2014).
"AUDREY" ОПЕРЕДИЛА ВРЕМЯ НА 60 ЛЕТ.
Курилка: вопрос читателям
Племянник сказал: «Дед, получается Bell Labs изобрели распознавание речи в 1952 — но оно стало полезным только в 2010-х?»
Я кивнул: «Да. Технология может быть готова, но бесполезна, если инфраструктура не готова. "Audrey" нужны были мощные компьютеры, интернет, смартфоны. Их не было».
Вопрос в курилку:
Что важнее: изобрести технологию рано или изобрести вовремя?
"Audrey" (1952):
- Первая система распознавания речи
- Опередила время на 60 лет
- Коммерчески бесполезна (слишком дорогая, большая)
- Забыта историей
Siri/Alexa (2010-е):
- Использовали принципы "Audrey" + современные технологии (нейросети, облако)
- Появились вовремя (смартфоны, интернет)
- Массовое применение (миллиарды пользователей)
- Все помнят
Кто важнее?
Объективно: "Audrey" изобрела принцип.
Но мир помнит Siri и Alexa.
Почему?
- Siri/Alexa применимы (полезны в реальной жизни)
- "Audrey" была академическим экспериментом
Урок:
Изобретение без применения = бесполезно.
Второй вопрос:
Может, ранние изобретения формируют будущее, даже если их забывают?
"Audrey" не стала коммерческой.
НО:
- Инженеры Bell Labs опубликовали исследования
- Эти статьи читали учёные 1960-1970-х
- Они развивали идеи → создали HMM (Hidden Markov Models)
- HMM использовались в Dragon, Siri, Alexa
Цепочка:
"Audrey" (1952) → публикации → исследования (1960-1980) → Dragon (1990) → Siri (2011) → Alexa (2014)
"AUDREY" — ФУНДАМЕНТ, на котором построено всё остальное.
Но её забыли.
Справедливо ли это?
Связь обрывается, но данные остаются.
Ваш Линкин
P.S.
Племянник спросил: «Дед, а "Audrey" сохранилась? Можно посмотреть?»
Я покачал головой: «Нет. Оригинальная "Audrey" разобрана в 1960-х. Электронные лампы использовали в других проектах. Осталась только документация и фотографии».
«Типичная судьба пионеров.»
«Изобрели. Испытали. Поняли, что рано. Разобрали. Забыли».
«Через 60 лет кто-то "изобрёл заново" — и получил славу».
В Bell Labs есть музей.
Там стенд про "Audrey".
Маленькая табличка: "Первая система распознавания речи. 1952 год".
Мимо проходят тысячи людей.
Никто не читает.
Все знают Alexa.
Никто не знает "Audrey".
Железо помнит. Электронные лампы тоже. Пионеров забывают. Последователей помнят.