Найти в Дзене

История нейросетей: от «Марк-1» до ChatGPT

Когда речь заходит о нейросетях, кажется, что это исключительно современная разработка. Однако не многие знают, что их истоки кроются в далеких 1940-х годах, когда два американских исследователя Уоррен Мак-Каллок и Уолтеа Питтс предложили первую математическую модель искусственного нейрона. Сегодня нейросети плотно вошли в нашу жизнь, облегчая работу в разных сферах жизни. Мы уже писали о том, насколько незаменимым стал этот инструмент, объясняли, почему его важно освоить и даже делали обзор популярных ИИ-чатов. Пришло время ненадолго вернуться в прошлое и выяснить, как появились нейросети и какой путь в своем развитии они прошли. С 40-х годов 20 века ученые искали способ создать машину, которая могла бы имитировать функции человеческого мозга. Прорывом стало исследование Уоррена Мак-Каллока и Уолтера Питтса, которые в 1943 году предложили первую модель искусственного нейрона. Фактически это было математическое описание работы клеток мозга. В 1949 году физиолог Дональд Хебб высказал
Оглавление

Когда речь заходит о нейросетях, кажется, что это исключительно современная разработка. Однако не многие знают, что их истоки кроются в далеких 1940-х годах, когда два американских исследователя Уоррен Мак-Каллок и Уолтеа Питтс предложили первую математическую модель искусственного нейрона.

Сегодня нейросети плотно вошли в нашу жизнь, облегчая работу в разных сферах жизни. Мы уже писали о том, насколько незаменимым стал этот инструмент, объясняли, почему его важно освоить и даже делали обзор популярных ИИ-чатов. Пришло время ненадолго вернуться в прошлое и выяснить, как появились нейросети и какой путь в своем развитии они прошли.

Как появилась концепция нейросетей

С 40-х годов 20 века ученые искали способ создать машину, которая могла бы имитировать функции человеческого мозга. Прорывом стало исследование Уоррена Мак-Каллока и Уолтера Питтса, которые в 1943 году предложили первую модель искусственного нейрона. Фактически это было математическое описание работы клеток мозга.

Уолтер Питтс (слева) и Уоррен Мак-Каллок (справа)
Уолтер Питтс (слева) и Уоррен Мак-Каллок (справа)

В 1949 году физиолог Дональд Хебб высказал гипотезу, что обучение в мозге человека происходит за счет изменения силы синаптических связей между нейронами. Именно идея Хебба позволила создать самообучающиеся сети. Аналогом силы синоптических связей в них стали разные массы искусственных синапсов. Практическое воплощение концепция нейросетей получила в 1958 году, когда нейрофизиолог Фрэнк Розенблатт создал персептрон (или же перцептрон) – базовую модель машинного обучения, которая могла определять, относится ли объект к той или иной категории.

Фрэнк Розенблатт
Фрэнк Розенблатт

Нейрокомпьютер «Марк-1» на базе перцептрона работал не на основе строчек кода, а получал сигналы от радиоламп и резисторов. Устройство благодаря «глазам» – камерам мог считывать информацию и распознавать геометрические фигуры и буквы алфавита. Принцип работы перцептрона был прост: в него загружали определенный набор правил для распознавания информации, а затем показывали карточку, например, с буквой «А». Если устройство давало верный ответ, то переходили к следующей карточке, если же происходил сбой, то в правила вручную вносились коррективы, и обучение продолжалось. Это было выдающимся достижением для того времени. Благодаря ему стала возможна разработка более совершенных алгоритмов машинного обучения.

«Марк-1» перцептрон
«Марк-1» перцептрон

Первая зима искусственного интеллекта

Несмотря на значимость изобретения, перцептрон подвергся закономерной критике. В 1969 году Марвин Минский и Саймон Ньюман опубликовали книгу «Перцептрон», в которой показали, что перцептрон не может решать задачи, требующие линейной разделимости (например, задачу XOR)

Дело в том, что в перцептроне использовалась однослойная нейронная сеть, а потому он не мог выполнять логическую операцию XOR (исключающее ИЛИ). А также на данном этапе компьютеры не обладали достаточной вычислительной мощностью и не могли обработать большой объем данных, который требовался для обучения нейронных сетей.

Марвин Минский (слева) и Саймон Ньюман (справа)
Марвин Минский (слева) и Саймон Ньюман (справа)

К сожалению, в 1971 году Розенблатт ушёл из жизни, и дорабатывать устройство было некому. Ученые сосредоточились на развитии компьютеров и на время забросили мысли о нейросетях.

К этому времени накопилось разочарование от несбывшихся ожиданий: у ранних нейросетевых моделей было много ограничений, а системы машинного перевода обходились дороже специалистов-переводчиков. Негативные прогнозы экспертов привели к снижению государственного интереса и финансирования. Многие проекты были остановлены.

Возрождение. Метод обратного распределения ошибки

Ситуация начала меняться в 1980-х годах, когда исследователи начали разрабатывать новые методы обучения нейросетей. В 1974 году независимо друг от друга Александр Галушкин и Пол Вербос описали метод обратного распространения ошибки (backpropagation). В 1986 году этот метод был усовершенствован и получил широкое признание после публикации работы Дэвида Румельхарта, Джеффри Хинтона, и Рональда Уильямса. Именно в этой статье алгоритм был описан как универсальный метод обучения многослойных нейросетей — систем, состоящих из нескольких уровней искусственных нейронов, связанных весами и активациями. Открытие стало поворотным моментом для всей области машинного обучения и привело к возрождению интереса к нейросетям, пережившим десятилетие скепсиса после критики перцептрона Розенблатта.

Джеффри Хинтон
Джеффри Хинтон

Метод обратного распространения ошибки работает так: сначала нейронная сеть получает на вход некоторые данные и на основе текущих весовых коэффициентов производит прогноз. Затем этот прогноз сравнивается с ожидаемым результатом, и вычисляется ошибка.

Ошибка распространяется обратно через сеть, влияя на каждыйнейрон по мере его удаления от выходного слоя. Это позволяет нейронной сети узнать, какие весовые коэффициенты нужно изменить, чтобы уменьшить ошибку.

После этого процесс повторяется для каждого примера данных в обучающей выборке, и каждый раз нейронная сеть корректирует веса своих связей на основе ошибки, пока не достигнет достаточно высокой точности прогнозирования.

Обратимся к примеру. Допустим, нейросеть пытается распознать рукописные цифры от 0 до 9. Ей сначала дают примеры для обучения, а потом она их использует, чтобы выдавать собственные предположения.

Нейросеть выдает предположение о конкретной цифре на изображении, а затем сравнивает это предположение с реальным значением и вычисляет разницу между ними (ошибку). Затем ошибка используется для корректировки весов нейронов, которые влияют на выходные данные нейросети. Процесс повторяется много раз, пока сеть не начинает распознавать цифры с максимально высокой точностью.

Чтобы понять идею backpropagation интуитивно, достаточно представить коллектив, в котором все участники совместно выполняют задачу и получают общий результат. Если результат неудовлетворительный, важно понять, кто и насколько внес вклад в ошибку. Тогда каждый скорректирует своё поведение в следующем цикле, и общий результат улучшится.

В нейросети роль участников играют нейроны, а связи между ними — веса. Когда сеть делает ошибку, обратное распространение сообщает каждому нейрону, какова его доля ответственности. Те, кто усилили неправильный сигнал, получают больший «отрицательный» градиент и уменьшают свои веса; те, кто помог приблизиться к правильному результату, наоборот, укрепляют связи.

Принцип работы backpropagation
Принцип работы backpropagation

Появление backpropagation стало философским событием: впервые обучение было реализовано как замкнутый цикл коррекции, где ошибка — не сбой, а источник знания. Этот механизм стал основой всей современной архитектуры искусственного интеллекта, от ранних сетей 1980-х годов до трансформеров, появившихся в 2017 году

Вторая зима искусственного интеллекта

Однако в 80-е годы ещё не было ни достаточных вычислительных мощностей, способных обучать нейронные сети, ни больших объёмов данных, на которых они могли бы обучаться. Экспертные системы и вычислительные машины было дорого обслуживать. Нейросети развивались не так быстро, как предсказывали СМИ. Это привело к ещё одной «зиме искусственного интеллекта». На протяжении нескольких лет к ИИ сохранялось скептическое отношение.

Революция: расцвет нейросетей

Несмотря на сокращение финансирования и относительное затишье, в 90-е и начале 2000-х о нейросетях не забывали. Например, в 1990-е годы Владимиром Вапником и Алексеем Червоненкисом был создан метод опорных векторов (Support Vector Machine, SVM). Этот метод повсеместно используется для определения приоритета сообщений, классификации релевантных ответов из любой базы данных, понимания, какое письмо является спамом, а какое нет, обнаружения аномалий в поведении пользователей (подозрительные запросы, взлом учетной записи и тд).

Толчком для развития глубокого обучения послужили две вещи:

  1. В 2000-е появились мощные графические процессоры и геймерские видеокарты, а для обучения нейросетей как раз требовались колоссальные вычислительные мощности. Спрос от геймеров (благодаря которым появились видеокарты, которые умеют делать тысячи вычислений параллельно) и майнеров (которым требовались эти же самые видеокарты для криптовалюты) создал рынок и профинансировал разработку идеальных «ускорителей» для нейросетей. Каждый, кто покупал видеокарту для Cyberpunk, неосознанно инвестировал в будущее ChatGPT (и не только).
  2. 2000 годы стали эрой широкого распространения интернета. До этого для полноценного обучения нейросетей ученым банально не хватало объема информации в открытом доступе. Чтобы сеть могла самообучаться и выполнять сложные задачи, ей нужны огромные массивы данных.

    А где взять миллионы размеченных картинок? «Это кошка», «это собака» и тд. Конечно же, в соцсетях! Группы любителей котиков, паблики с собаками — это все гигантские, идеально размеченные датасеты. Можете гордиться - каждый раз, когда вы загружали фото своего питомца в нужный альбом, вы тоже вносили вклад в развитие нейросетей)
-8

В 2012 году произошло знаковое событие для мира нейросетей. На конкурсе по распознаванию объектов на изображениях ImageNet LSVRP победила разработанная Алексеем Крижевским нейросеть AlexNet с набором данных ImageNet.

Она сделала всего 16,4% ошибок, тогда как программа,занявшая второе место, ошиблась в 26% случаев. При этом человек обычно совершает ошибки в 5% случаев.

Сейчас нейросети уже не просто распределяют фотографии по категориям, но и сами создают их по текстовым описаниям. Думаем, вы уже пользовались Midjourney, Sora или Шедеврум.

В итоге всё это привело к появлению на свет
в 2020 году модели GPT-3, разработанной компанией OpenAI. GPT (Generative Pre-trained Transformer) расшифровывается как «генеративный предварительно обученный трансформер» использует специальные алгоритмы для генерации текста. Эта модель обучается на огромном количестве текстовых данных, таких как книги, статьи, новости и интернет-контент и запоминает, какие слова чаще встречаются вместе. В результате , модель может предсказывать следующее слово на основе контекста, что позволяет ей генерировать связный текст, который выглядит так, как будто он написан человеком.

Как работает современная нейросеть

В составе актуальных нейросетей есть три слоя нейронов: входной, выходной и скрытый. Первый нейронов располагает только входными данными (например, вашим запросом в чат). На последующие слои уже попадает информация со всех предыдущих слоев. Затем с помощью функции активации удаляются все значения, которые выпадают из требуемого диапазона (не соответствуют вашему запросу). Наконец, на выходных нейронах появляется итоговый результат.

При этом для всех процессов большее значение имеют даже не сами нейроны, а синапсы, то есть связь между ними. Каждый из синапсов имеет свой вес, выставленный в случайном порядке, и во время обработки данные, переданные синапсом с большим весом, становятся преобладающими.

-9

В самом базовом виде работа нейронов выглядит так:

  1. На слой входных нейронов поступают внешние данные (текст, картинка, код и т.п.).
  2. Через синапсы информация передается следующему слою, причем у каждого свой вес, а внутренние нейроны могут иметь несколько входящих синапсов.
  3. Внутренний слой получает сумму всех данных сети, перемноженную на коэффициенты весов синапсов.
  4. Это значение попадает в функцию активации, с помощью которой отсеиваются неверные данные.
  5. Итоговая информация передается на выходные нейроны — и вы видите ответ нейросети.

Конечно, принцип работы слегка отличается для разных видов сетей.

Нейросети. Современность

30 ноября 2022 года был запущен ChatGPT - чат-бот с искусственным интеллектом, способный работать в диалоговом режиме, поддерживающий запросы на естественных языках. Лишь написав одно предложение в чат, пользователь мог получить: простой программный алгоритм, рецепт, рекомендацию, идею, совет и многое другое. Исторический день, после которого все, кто позиционируют себя как IT гиганты, не могли не принять вызов рынка и не начать работу над своим аналогом.

Так, появились такие ИИ чаты, как Gemini, DeepSeek, Copilot, Grok и российские GigaChat и YandexGPT.

Заключение

Если ранние чаты ИИ воспринимались больше как развлечение, то сейчас нейросети играют огромную роль в науке, программировании, моделировании, сфере безопасности и многих других. Они значительно упрощают нашу жизнь, избавляя от рутины, значительно экономя наше время. Так изобретение 1940-х гг. значительно влияет на жизнь людей начала XXI века.