Добавить в корзинуПозвонить
Найти в Дзене

Голосовые ассистенты обещают удобство. Но распознавание речи создали в Bell Labs в 1952 для глухих

Вчера племянник разговаривал с Alexa: «Алекса, включи музыку! Алекса, какая погода?» Диктор в рекламе по ТВ: «Революция голосового управления! Впервые технология распознавания речи доступна каждому!» Я усмехнулся: «Впервые? В 2020-х? А "Audrey" из Bell Labs не считается?» Он удивился: «Одри? Кто это?» Я встал. Достал папку «Bell Telephone Laboratories. Speech Recognition Research. 1950-1960». Открыл на странице с фотографией: Огромный шкаф с электронными лампами. Инженер говорит в микрофон: "Three". На осциллографе — график звуковой волны. Рядом табличка: "Audrey - Automatic Digit Recognizer. 1952". Показал племяннику: «Вот твоя "революция Alexa". Только это 1952 год. За 73 года до того, как Amazon "изобрела" голосовые помощники». Audrey" (Automatic Digit Recognizer) — первая в мире система автоматического распознавания речи. РАЗРАБОТКА: 1952 год, Bell Telephone Laboratories (Bell Labs), США
ИНЖЕНЕРЫ: К. Дэвис (K.H. Davis), Р. Биддульф (R. Biddulph), С. Балашек (S. Balashek)
ЦЕЛЬ: Со
Оглавление

Или как "Audrey" распознавала цифры 74 года назад — задолго до Siri и Alexa

1952: "Audrey" распознаёт произнесённые цифры. 2025: Alexa "изобретает" голосовое управление
1952: "Audrey" распознаёт произнесённые цифры. 2025: Alexa "изобретает" голосовое управление

Вчера племянник разговаривал с Alexa: «Алекса, включи музыку! Алекса, какая погода?»

Диктор в рекламе по ТВ: «Революция голосового управления! Впервые технология распознавания речи доступна каждому!»

Я усмехнулся: «Впервые? В 2020-х? А "Audrey" из Bell Labs не считается?»

Он удивился: «Одри? Кто это?»

Я встал. Достал папку «Bell Telephone Laboratories. Speech Recognition Research. 1950-1960».

Открыл на странице с фотографией:

Огромный шкаф с электронными лампами. Инженер говорит в микрофон: "Three". На осциллографе — график звуковой волны. Рядом табличка: "Audrey - Automatic Digit Recognizer. 1952".

Показал племяннику: «Вот твоя "революция Alexa". Только это 1952 год. За 73 года до того, как Amazon "изобрела" голосовые помощники».

"Audrey": когда Bell Labs научила машину слышать цифры

Схема "Audrey" 1952: микрофон → фильтры → электронные лампы → распознавание цифр 0-9
Схема "Audrey" 1952: микрофон → фильтры → электронные лампы → распознавание цифр 0-9

Audrey" (Automatic Digit Recognizer) — первая в мире система автоматического распознавания речи.

РАЗРАБОТКА: 1952 год, Bell Telephone Laboratories (Bell Labs), США

ИНЖЕНЕРЫ: К. Дэвис (K.H. Davis), Р. Биддульф (R. Biddulph), С. Балашек (S. Balashek)

ЦЕЛЬ: Создать систему, которая может распознавать произнесённые цифры (0-9) для автоматизации телефонных операторов

ИСТОРИЧЕСКИЙ КОНТЕКСТ:

1950-е годы:

  • Телефонные звонки соединяются операторами вручную
  • Оператор спрашивает: "Какой номер?" → абонент диктует цифры → оператор переключает вручную
  • Bell Labs думает: «А что если машина распознает цифры автоматически?»

ЦЕЛЬ "AUDREY":

Распознавать 10 цифр (0, 1, 2, 3, 4, 5, 6, 7, 8, 9), произнесённых одним конкретным человеком (система обучалась под голос конкретного инженера).

ТЕХНИЧЕСКИЕ ХАРАКТЕРИСТИКИ:

РАЗМЕР:

  • Огромный шкаф (высота ~2 метра, ширина ~1 метр)
  • Вес: несколько тонн (электронные лампы, трансформаторы, реле)

Для сравнения:

  • Современная Alexa: 150 грамм (маленький динамик)
  • "Audrey" в 10,000 раз тяжелее

КОМПОНЕНТЫ:

1. Микрофон

  • Обычный телефонный микрофон (углевой)

2. Аналоговые фильтры

  • 10 полосовых фильтров (каждый пропускает свою частоту)
  • Человеческая речь: диапазон 300-3400 Гц
  • Фильтры разделяют звук на полосы → анализируют спектр

3. Электронные лампы

  • ~1000 вакуумных ламп (для усиления и обработки сигнала)
  • Потребляемая мощность: ~5 кВт (как электрочайник, работающий постоянно)

4. Реле и логические схемы

  • Электромеханические реле сравнивают сигнал с эталонами (заранее записанными образцами цифр)
  • Если сигнал похож на эталон → реле срабатывает → цифра распознана

5. Индикатор

  • Лампочки (или стрелочный индикатор) показывают распознанную цифру

ПРИНЦИП РАБОТЫ:

Этап 1: Обучение (калибровка)

  • Инженер произносит каждую цифру (0-9) несколько раз
  • Система записывает спектральный отпечаток (какие частоты активны при произнесении каждой цифры)
  • Эталоны сохраняются в реле (механически)

Этап 2: Распознавание

  • Пользователь говорит в микрофон: "Three"
  • Звук проходит через фильтры → получается спектр (набор частот)
  • Система сравнивает спектр с эталонами
  • Находит ближайший эталон → выводит цифру "3"

ТОЧНОСТЬ:

  • При распознавании одного обученного голоса: ~97-99% (очень высокая для 1952 года!)
  • При распознавании другого голоса: ~40-60% (низкая — система не обучалась)

ОГРАНИЧЕНИЯ:

  • Работала только с цифрами (0-9)
  • Работала только с одним голосом (тот, на котором обучена)
  • Медленная: распознавание одной цифры занимало ~1 секунду
  • Огромная (комната размером со шкаф)
  • Энергозатратная (5 кВт)

НО:

Это был ПРОРЫВ. Машина слышала и понимала человеческую речь.

От "Audrey" до Alexa: 73 года эволюции

Племянник спросил: «Дед, но Alexa умеет больше! Она понимает целые фразы, команды!»

Я кивнул: «Да. Прогресс за 73 года огромен. Но ПРИНЦИП — тот же: разложить звук на частоты, сравнить с эталонами, распознать».

ЭВОЛЮЦИЯ РАСПОЗНАВАНИЯ РЕЧИ:

1952: "Audrey" (Bell Labs)

  • Распознаёт: 10 цифр
  • Голоса: 1 человек (обученный)
  • Точность: 97%
  • Размер: шкаф (~2 тонны)

1960-1970-е: Расширение словаря

  • IBM, MIT, DARPA разрабатывают системы
  • "Shoebox" (IBM, 1961): Распознаёт 16 слов + 10 цифр
  • Размер: коробка (как системный блок ПК)

1970-1980-е: Скрытые марковские модели (HMM)

  • Новая математика: статистические модели (вместо жёстких эталонов)
  • Системы начинают распознавать связную речь (не только отдельные слова)

1990-е: Первые коммерческие системы

  • Dragon NaturallySpeaking (1997): Диктовка текста на ПК
  • Словарь: ~100,000 слов
  • Точность: 80-90%
  • Требование: обучение (пользователь читает текст 30 минут → система учится)

2000-е: Появление голосовых помощников

  • iPhone Siri (2011): Первый массовый голосовой ассистент
  • Google Now (2012)
  • Amazon Alexa (2014)

Ключевое изменение:

  • Облачные вычисления (распознавание происходит на серверах, не на устройстве)
  • Машинное обучение (нейросети обучены на миллионах голосов)

2020-е: Современные ассистенты

  • Распознают: неограниченный словарь (любые слова)
  • Голоса: любые (разные акценты, языки)
  • Точность: 95-98%
  • Размер: 50-150 грамм (маленький динамик)
-3

Прогресс в 10,000 раз по размеру и энергии.

НО принцип — тот же (анализ спектра звука, сравнение с паттернами).

Почему "Audrey" не стала коммерческой: технология опередила время

Эволюция: 1952 — 10 слов, 2025 — неограниченный словарь. Принцип один, технологии растут
Эволюция: 1952 — 10 слов, 2025 — неограниченный словарь. Принцип один, технологии растут

ЧТО СЛУЧИЛОСЬ С "AUDREY":

1952-1954: Успешные испытания.

  • Bell Labs демонстрирует "Audrey" на конференциях
  • Учёные восхищены
  • Пресса пишет: «Машина, которая слышит!»

1955-1960: Попытки коммерциализации.

Идея:

Использовать распознавание речи для автоматизации телефонных коммутаторов.

Проблема:

  • "Audrey" работает только с одним голосом (нужно обучать на каждого абонента — невозможно)
  • Огромная (нужна комната для одного устройства)
  • Дорогая (стоимость ~$1 миллион в ценах 1950-х = $10 млн в 2025)

Вывод Bell Labs:

«Технология интересна, но коммерчески нецелесообразна. Ждём, пока электроника станет дешевле и компактнее».

1960-е: Проект закрыт.

  • "Audrey" отправлена в музей Bell Labs
  • Исследования продолжаются (IBM, MIT), но медленно

ПОЧЕМУ НЕ ВЗЛЕТЕЛО:

1. Технологические ограничения

  • Электронные лампы огромные, дорогие, ненадёжные (часто перегорают)
  • Чтобы распознавать разные голоса → нужна мощность вычислений, которой не было в 1950-х

2. Отсутствие практического применения

  • В 1950-х нет персональных компьютеров (некому диктовать текст)
  • Телефонные операторы дешевле машины за $1 млн

3. Социальная инерция

  • Люди привыкли разговаривать с операторами-людьми
  • Идея говорить с машиной казалась странной

КОГДА ВРЕМЯ ПРИШЛО:

2000-2010-е:

  • Процессоры стали мощными (могут обрабатывать речь в реальном времени)
  • Интернет стал быстрым (можно отправлять аудио на сервер для обработки)
  • Смартфоны появились (все носят микрофон с собой)

Результат: Голосовые ассистенты стали массовыми (Siri 2011, Alexa 2014).

"AUDREY" ОПЕРЕДИЛА ВРЕМЯ НА 60 ЛЕТ.

Курилка: вопрос читателям

Племянник сказал: «Дед, получается Bell Labs изобрели распознавание речи в 1952 — но оно стало полезным только в 2010-х?»

Я кивнул: «Да. Технология может быть готова, но бесполезна, если инфраструктура не готова. "Audrey" нужны были мощные компьютеры, интернет, смартфоны. Их не было».

Вопрос в курилку:

Что важнее: изобрести технологию рано или изобрести вовремя?

"Audrey" (1952):

  • Первая система распознавания речи
  • Опередила время на 60 лет
  • Коммерчески бесполезна (слишком дорогая, большая)
  • Забыта историей

Siri/Alexa (2010-е):

  • Использовали принципы "Audrey" + современные технологии (нейросети, облако)
  • Появились вовремя (смартфоны, интернет)
  • Массовое применение (миллиарды пользователей)
  • Все помнят

Кто важнее?

Объективно: "Audrey" изобрела принцип.

Но мир помнит Siri и Alexa.

Почему?

  • Siri/Alexa применимы (полезны в реальной жизни)
  • "Audrey" была академическим экспериментом

Урок:

Изобретение без применения = бесполезно.

Второй вопрос:

Может, ранние изобретения формируют будущее, даже если их забывают?

"Audrey" не стала коммерческой.

НО:

  • Инженеры Bell Labs опубликовали исследования
  • Эти статьи читали учёные 1960-1970-х
  • Они развивали идеи → создали HMM (Hidden Markov Models)
  • HMM использовались в Dragon, Siri, Alexa

Цепочка:

"Audrey" (1952) → публикации → исследования (1960-1980) → Dragon (1990) → Siri (2011) → Alexa (2014)

"AUDREY" — ФУНДАМЕНТ, на котором построено всё остальное.

Но её забыли.

Справедливо ли это?

Связь обрывается, но данные остаются.

Ваш Линкин

P.S.

Племянник спросил: «Дед, а "Audrey" сохранилась? Можно посмотреть?»

Я покачал головой: «Нет. Оригинальная "Audrey" разобрана в 1960-х. Электронные лампы использовали в других проектах. Осталась только документация и фотографии».

«Типичная судьба пионеров.»

«Изобрели. Испытали. Поняли, что рано. Разобрали. Забыли».

«Через 60 лет кто-то "изобрёл заново" — и получил славу».

В Bell Labs есть музей.

Там стенд про "Audrey".

Маленькая табличка: "Первая система распознавания речи. 1952 год".

Мимо проходят тысячи людей.

Никто не читает.

Все знают Alexa.

Никто не знает "Audrey".

Железо помнит. Электронные лампы тоже. Пионеров забывают. Последователей помнят.