Без него не было бы ни ChatGPT, ни Midjourney. Алгоритм, который научил нейросети учиться на ошибках, впервые появился в СССР в 1974 году. Но почему его называют «американским»?
Что такое backpropagation простыми словами
Представьте, что вы бросаете дартс. Первый раз — мимо. Вы смотрите, насколько отклонилась стрела, и чуть меняете бросок. Нейросеть делает то же самое, но внутри у неё сотни слоёв и миллиарды «регулировок».
Backpropagation (обратное распространение ошибки) — это алгоритм, который:
- Подаёт данные на вход (например, фото кота).
- Получает ответ нейросети («это пёс»).
- Сравнивает с правильным ответом («нет, это кот») и считает ошибку.
- Распространяет ошибку назад по всем слоям нейросети.
- Подкручивает внутренние настройки (веса), чтобы в следующий раз ответ был точнее.
И так тысячи, миллионы раз. Благодаря этому нейросети сами находят важные признаки — сначала линии и углы, потом уши и хвосты, потом целого кота.
Почему этот алгоритм — пусковая кнопка ИИ-революции
До появления backpropagation нейросети были игрушкой: больше двух слоёв обучить не получалось. Алгоритм снял три главных барьера:
Ручная математика ушла в прошлое — не нужно выводить формулы для каждой новой архитектуры.
Время обучения упало с тысяч лет до дней — один обратный проход даёт все нужные градиенты (математические поправки) сразу.
Модели стали масштабироваться — чем больше данных и параметров, тем точнее результат. Именно это позволило создать GPT-3, GPT-4, AlphaFold.
Кратко: backprop — это «быстрая сортировка» в мире нейросетей. Без него глубокое обучение оставалось бы красивой теорией.
Кто и когда на самом деле придумал backpropagation
Долгое время на Западе считалось, что алгоритм открыли в 1986 году Румельхарт, Хинтон и Уильямс. Они ввели термин «backpropagation» и провели эффектные эксперименты.
Но история сложнее.
Александр Галушкин (СССР) — первый
В 1974 году в Москве вышла книга «Синтез многослойных систем распознавания образов». Её автор — Александр Иванович Галушкин — привёл:
- полный математический вывод градиентов для многослойной сети;
- алгоритм обратного распространения ошибки (без этого названия);
- примеры обучения 2- и 3-слойных сетей для систем «свой-чужой».
Важная деталь: книга сдана в печать 28 февраля 1974 года. А за год до этого вышли статьи Галушкина с коллегами, где описывалось градиентное обучение скрытых слоёв.
Пол Вербос (США) — независимо, но позже
Диссертация Пола Вербоса «Beyond Regression» защищена в Гарварде в августе 1974 года — на полгода позже книги Галушкина. Вербос тоже описал обратное распространение, назвав его «ordered derivatives», и даже привёл пример для двухслойной сети. Но термин «backpropagation» он не использовал.
Румельхарт, Хинтон, Уильямс (1986) — популяризаторы, а не первооткрыватели
Именно они дали алгоритму имя, показали впечатляющие результаты на многослойных сетях и запустили «нейросетевой бум». Но математическая основа была уже создана за 12 лет до них.
А что насчёт «параллельного открытия»?
Многие западные источники пишут: «Вербос и Галушкин независимо друг от друга открыли backprop в 1974 году». Это не совсем точно.
- Книга Галушкина вышла в феврале 1974, диссертация Вербоса — в августе.
- Разрыв в 6 месяцев исключает «одновременность».
- Советские публикации по градиентному обучению скрытых слоёв появлялись ещё в 1972–73 годах.
Почему же работа Галушкина осталась неизвестной на Западе?
Языковой барьер (книга только на русском, тираж 8000 экземпляров).
Холодная война — обмен научной информацией был минимальным.
Отсутствие громких экспериментов — нейросети глубиной 10+ слоёв и GPU тогда ещё не существовали.
«Прадедушка» AutoML — Алексей Ивахненко
Ещё до Галушкина украинский учёный Алексей Григорьевич Ивахненко разработал метод группового учёта аргументов (GMDH) в конце 1960-х.
Идея была гениальной: сеть сама решает, какие узлы оставить, какие удалить, и автоматически растёт в глубину. Это прообраз современного AutoML, где архитектура модели подбирается без участия человека.
Именно работы Ивахненко стали трамплином для Галушкина: если структуру можно строить автоматически, нужен быстрый метод настройки весов — и Галушкин предложил backprop.
Так кто же заслуживает славы?
- Александр Галушкин — безусловно, первый. Полный алгоритм, публикация февраль 1974.
- Пол Вербос — независимый исследователь, но с опозданием на полгода. Его идеи были глубже по теории автоматического дифференцирования.
- Румельхарт, Хинтон, Уильямс — люди, которые «упаковали» алгоритм в удобную форму и подарили ему имя. Именно благодаря им backprop стал мейнстримом.
Никакой «фальсификации» нет — так сложилось исторически. Но восстановить справедливость стоит: в учебниках по ИИ нужно указывать Галушкина и Вербоса как первооткрывателей, а не только Хинтона.
Вывод: алгоритм изменивший мир — наш общий
Backpropagation — это технология, которая впервые дала машинам способность учиться на собственных ошибках. Он сделал возможным ChatGPT, распознавание лиц, голосовых помощников и генерацию изображений.
И хотя алгоритм родился в СССР, а расцвёл на Западе, его история — прекрасный пример того, как великие идеи не знают границ. Просто иногда им нужно немного времени и правильного языка, чтобы облететь весь мир.
Что можно сделать уже сегодня?
- Включить работы Галушкина (1974) и Вербоса (1974) в курсы по глубокому обучению.
- Дополнить исторические справки в Wikipedia и популярных статьях.
- Называть алгоритм по-прежнему backpropagation (переименования не нужны), но помнить: впервые он был собран и описан в Москве.
Источники:
• Галушкин, А. И. (1974). Синтез многослойных систем распознавания образов.
https://cat.gpntb.ru/?id=FT/ShowFT&sid=2fd4458e5ab8a6bfb401f07b8efc01cd&page=1&squery=
• Л. Н. Ясницкий («О приоритете советской науки…», журн. «Нейрокомпьютеры: разработка, применение», т. 21 № 1, с. 6-8)
https://publications.hse.ru/pubs/share/direct/317633580.pdf
• Ивахненко А.Г. (1969). «Самообучающиеся системы распознавания и автоматического управления»
• Вербос, П. (1974). Beyond Regression.
https://gwern.net/doc/ai/nn/1974-werbos.pdf