Backprop — русский алгоритм, который Запад назвал своим.

7 июня7 июн

4 мин

Без него не было бы ни ChatGPT, ни Midjourney. Алгоритм, который научил нейросети учиться на ошибках, впервые появился в СССР в 1974 году. Но почему его называют «американским»? Что такое backpropagation простыми словами Представьте, что вы бросаете дартс. Первый раз — мимо. Вы смотрите, насколько отклонилась стрела, и чуть меняете бросок. Нейросеть делает то же самое, но внутри у неё сотни слоёв и миллиарды «регулировок». Backpropagation (обратное распространение ошибки) — это алгоритм, который: И так тысячи, миллионы раз. Благодаря этому нейросети сами находят важные признаки — сначала линии и углы, потом уши и хвосты, потом целого кота. Почему этот алгоритм — пусковая кнопка ИИ-революции До появления backpropagation нейросети были игрушкой: больше двух слоёв обучить не получалось. Алгоритм снял три главных барьера: Ручная математика ушла в прошлое — не нужно выводить формулы для каждой новой архитектуры.

Время обучения упало с тысяч лет до дней — один обратный проход даёт все нужны

Что такое backpropagation простыми словами

Представьте, что вы бросаете дартс. Первый раз — мимо. Вы смотрите, насколько отклонилась стрела, и чуть меняете бросок. Нейросеть делает то же самое, но внутри у неё сотни слоёв и миллиарды «регулировок».

Backpropagation (обратное распространение ошибки) — это алгоритм, который:

Подаёт данные на вход (например, фото кота).
Получает ответ нейросети («это пёс»).
Сравнивает с правильным ответом («нет, это кот») и считает ошибку.
Распространяет ошибку назад по всем слоям нейросети.
Подкручивает внутренние настройки (веса), чтобы в следующий раз ответ был точнее.

И так тысячи, миллионы раз. Благодаря этому нейросети сами находят важные признаки — сначала линии и углы, потом уши и хвосты, потом целого кота.

Почему этот алгоритм — пусковая кнопка ИИ-революции

До появления backpropagation нейросети были игрушкой: больше двух слоёв обучить не получалось. Алгоритм снял три главных барьера:

Ручная математика ушла в прошлое — не нужно выводить формулы для каждой новой архитектуры.
Время обучения упало с тысяч лет до дней — один обратный проход даёт все нужные градиенты (математические поправки) сразу.
Модели стали масштабироваться — чем больше данных и параметров, тем точнее результат. Именно это позволило создать GPT-3, GPT-4, AlphaFold.

Кратко: backprop — это «быстрая сортировка» в мире нейросетей. Без него глубокое обучение оставалось бы красивой теорией.

Кто и когда на самом деле придумал backpropagation

Долгое время на Западе считалось, что алгоритм открыли в 1986 году Румельхарт, Хинтон и Уильямс. Они ввели термин «backpropagation» и провели эффектные эксперименты.

Но история сложнее.

Александр Галушкин (СССР) — первый

В 1974 году в Москве вышла книга «Синтез многослойных систем распознавания образов». Её автор — Александр Иванович Галушкин — привёл:

полный математический вывод градиентов для многослойной сети;
алгоритм обратного распространения ошибки (без этого названия);
примеры обучения 2- и 3-слойных сетей для систем «свой-чужой».

Важная деталь: книга сдана в печать 28 февраля 1974 года. А за год до этого вышли статьи Галушкина с коллегами, где описывалось градиентное обучение скрытых слоёв.

Пол Вербос (США) — независимо, но позже

Диссертация Пола Вербоса «Beyond Regression» защищена в Гарварде в августе 1974 года — на полгода позже книги Галушкина. Вербос тоже описал обратное распространение, назвав его «ordered derivatives», и даже привёл пример для двухслойной сети. Но термин «backpropagation» он не использовал.

Румельхарт, Хинтон, Уильямс (1986) — популяризаторы, а не первооткрыватели

Именно они дали алгоритму имя, показали впечатляющие результаты на многослойных сетях и запустили «нейросетевой бум». Но математическая основа была уже создана за 12 лет до них.

А что насчёт «параллельного открытия»?

Многие западные источники пишут: «Вербос и Галушкин независимо друг от друга открыли backprop в 1974 году». Это не совсем точно.

Книга Галушкина вышла в феврале 1974, диссертация Вербоса — в августе.
Разрыв в 6 месяцев исключает «одновременность».
Советские публикации по градиентному обучению скрытых слоёв появлялись ещё в 1972–73 годах.

Почему же работа Галушкина осталась неизвестной на Западе?
Языковой барьер (книга только на русском, тираж 8000 экземпляров).
Холодная война — обмен научной информацией был минимальным.
Отсутствие громких экспериментов — нейросети глубиной 10+ слоёв и GPU тогда ещё не существовали.

«Прадедушка» AutoML — Алексей Ивахненко

Ещё до Галушкина украинский учёный Алексей Григорьевич Ивахненко разработал метод группового учёта аргументов (GMDH) в конце 1960-х.

Идея была гениальной: сеть сама решает, какие узлы оставить, какие удалить, и автоматически растёт в глубину. Это прообраз современного AutoML, где архитектура модели подбирается без участия человека.

Именно работы Ивахненко стали трамплином для Галушкина: если структуру можно строить автоматически, нужен быстрый метод настройки весов — и Галушкин предложил backprop.

Так кто же заслуживает славы?

Александр Галушкин — безусловно, первый. Полный алгоритм, публикация февраль 1974.
Пол Вербос — независимый исследователь, но с опозданием на полгода. Его идеи были глубже по теории автоматического дифференцирования.
Румельхарт, Хинтон, Уильямс — люди, которые «упаковали» алгоритм в удобную форму и подарили ему имя. Именно благодаря им backprop стал мейнстримом.

Никакой «фальсификации» нет — так сложилось исторически. Но восстановить справедливость стоит: в учебниках по ИИ нужно указывать Галушкина и Вербоса как первооткрывателей, а не только Хинтона.

Вывод: алгоритм изменивший мир — наш общий

Backpropagation — это технология, которая впервые дала машинам способность учиться на собственных ошибках. Он сделал возможным ChatGPT, распознавание лиц, голосовых помощников и генерацию изображений.

И хотя алгоритм родился в СССР, а расцвёл на Западе, его история — прекрасный пример того, как великие идеи не знают границ. Просто иногда им нужно немного времени и правильного языка, чтобы облететь весь мир.

Что можно сделать уже сегодня?

Включить работы Галушкина (1974) и Вербоса (1974) в курсы по глубокому обучению.
Дополнить исторические справки в Wikipedia и популярных статьях.
Называть алгоритм по-прежнему backpropagation (переименования не нужны), но помнить: впервые он был собран и описан в Москве.

Александр Иванович Галушкин – автор первого алгоритма обучения многослойных нейронных сетей (фото 1962 г.)

Источники:

• Галушкин, А. И. (1974). Синтез многослойных систем распознавания образов.

https://cat.gpntb.ru/?id=FT/ShowFT&sid=2fd4458e5ab8a6bfb401f07b8efc01cd&page=1&squery=

• Л. Н. Ясницкий («О приоритете советской науки…», журн. «Нейрокомпьютеры: разработка, применение», т. 21 № 1, с. 6-8)

https://publications.hse.ru/pubs/share/direct/317633580.pdf

• Ивахненко А.Г. (1969). «Самообучающиеся системы распознавания и автоматического управления»

• Вербос, П. (1974). Beyond Regression.

https://gwern.net/doc/ai/nn/1974-werbos.pdf