Найти тему
Данил

Что такое нейросеть и как она работает?

Оглавление


Мир нейросетей, возможно, уже не новинка для многих из вас. Возможно, вы уже имели опыт взаимодействия с
ChatGPT и другими представителями этого удивительного семейства. Эти технологии умеют общаться, создавать тексты, рисовать и генерировать контент настолько эффективно, что кажется, будто искусственный интеллект, наконец, стал реальностью.

Сегодня мы поговорим об этом подробнее.

Разберем ключевые вопросы:

  • Что такое нейросеть?
  • Как она работает?
  • Как обучается?
  • Где они используются?
  • Могут ли они нас заменить?

Простыми словами: что такое нейросеть?

Представьте, что вам нужно создать программу, способную распознавать котов на фотографиях. Можно было бы составить длинный список правил и алгоритмов, типа "если есть усы и шерсть, то это кот". Но такой подход ограничителен — что, если кот одет в костюм Санта-Клауса или супергероя? В таких случаях на помощь приходит нейронная сеть.

Нейросеть — это программа, обучающаяся на основе данных и примеров. Она не следует готовым правилам и алгоритмам, а создает их самостоятельно в процессе обучения. Если ей показать миллион фотографий котов, она научится распознавать их в любых условиях, позах и костюмах.

Хитрость нейросети заключается в том, что алгоритмы в ней организованы аналогично нейронам в человеческом мозге — связанными между собой синапсами, передающими сигналы. Обучение зависит от силы этих сигналов. Например, при распознавании котов, нейросеть формирует крепкие связи между нейронами, отвечающими за особенности морды и усов.

Чтобы нейросеть быстрее решала задачи, разработчики придумали располагать нейроны на разных слоях. Например, входной слой получает данные, скрытые слои проводят магию обработки, а выходной слой выдает окончательный результат. Упрощенно можно представить эту схему так (в реальности, конечно же, все гораздо сложнее):

-2

Как видите, в нейросети нет мышления и сознания — лишь алгоритмы и формулы. Ее уникальность заключается в способности обучаться и адаптироваться к новым задачам. Как это происходит, мы обсудим чуть позже.

Как работает нейросеть?

Давайте более детально рассмотрим, как функционирует нейросеть на примере Midjourney — популярного генератора изображений по текстовому описанию. Для наглядности запросим у него изображение енота, катающегося на скейтборде в стиле фильма "Назад в будущее".

ПРИМЕЧАНИЕ
Важно отметить, что технически Midjourney представляет собой не одну, а две нейросети. Первая отвечает за обработку текста, вторая — за изображения. Таким образом, мы можем увидеть, как нейронные сети взаимодействуют с различными типами контента.

Вот как Midjourney решит эту задачу:

Шаг 1. Первая нейросеть получает запрос и разбивает его на ключевые слова: "енот", "летает", "скейтборд", "стилистика фильма „Назад в будущее“".

Шаг 2. Затем она преобразует слова в наборы цифр, известные как векторы. Это позволяет нейросети определить их смысл.

Шаг 3. Векторы слов передаются на следующий уровень нейросети, которая создает набросок будущего изображения. Например, для набора чисел, соответствующих "еноту", нейросеть может создать пиксельный овал с чёрными полосами.

Шаг 4. Набросок изображения направляется во вторую нейросеть, которая добавляет более сложные детали: цвета, текстуры и освещение. Например, при указании "стилистика фильма „Назад в будущее“" она может добавить неоновую подсветку в стиле ретрофутуризма к скейтборду.

Для более детальной проработки используется метод стабильной диффузии. Это означает, что изображение сначала превращается в пиксельный шум, а затем "оживает" с новыми деталями. Нейросеть обучена предсказывать, какие пиксели должны находиться на месте размытых.

Шаг 5. Выходной слой улучшает качество изображения и выдает готовую картинку.

Например, по нашему запросу Midjourney создал два очаровательных искусства. Какой из них вам больше нравится?

-3

Вы, возможно, задаете вопрос: откуда нейросеть знает, что такое енот, скейтборд, а тем более фильм "Назад в будущее"? Ответ прост: ее обучили на большом объеме данных, известном как датасет. Этот процесс схож с тем, как детей учат в яслях: "Смотри, это яблоко. А это морковь. А вот, малыш, летающий скейтборд в стиле ретрофутуризма" :)

Более подробно о том, как устроен этот процесс, мы узнаем в следующем разделе.

Как учатся нейросети?

Разберем, как нейросети обучаются, используя пример Midjourney — популярного генератора изображений по текстовому описанию. В обычном программировании всё стабильно: мы создаем программу с инструкциями, и она по ним генерирует результат. Например, можно написать алгоритм для подсчета времени поездки в метро, и программа будет выполнять это одним и тем же образом каждый раз, исходя из заранее заданного алгоритма.

В случае нейросетей сценарий другой: они не программированы в традиционном смысле, а обучаются. Процесс выглядит следующим образом: мы подаем на вход нейросети задачу, а на выходе получаем готовое решение. При этом алгоритмы и инструкции она формирует самостоятельно, постоянно проверяя свои выводы. Идея заключается в том, чтобы предоставить нейросети достаточное количество попыток, и, рано или поздно, она сможет предложить нужное решение.

Для примера обучения нейросети внутри Midjourney, чтобы ассоциировать текст с изображениями, ей предоставили огромный объем изображений с соответствующими подписями. Одним концом нейросеть получала текст, а другим — изображение. Затем она училась определять, что изображено на фото: человек, водолазка или садовый шланг.

Процесс обучения можно проиллюстрировать на примере мини-датасета, использующего Ракету из фильма «Стражи Галактики»:

Текстовое описание:
"Енот Ракета из фильма «Стражи Галактики»"
Картинка:
ФАЙЛ: rocket.jpg
ЦВЕТ: коричневый
РАЗРЕШЕНИЕ: 1920 × 1080
ЖИВОТНОЕ: енот

Процесс обучения выглядит следующим образом:

  1. Получение пары "текст + картинка" из датасета: Нейросеть подходит к этому шагу с случайными весами, то есть незаданными связями между нейронами.
  2. Предсказание: Из-за случайных весов оценка изначально неточна. Например, нейросеть может ошибочно назвать енота Ракету фарфоровой вазой.
  3. Вычисление ошибки: Нейросеть смотрит на готовую картинку и подпись, затем определяет, насколько точно она установила связь.
  4. Коррекция ошибки и обновление весов: Нейросеть усиливает связи между теми нейронами, которые помогут ей правильно распознавать енота. Этим занимается метод обратного распространения ошибки.
  5. Повторение шагов: Процесс повторяется до тех пор, пока нейросеть не научится угадывать правильно. Эти попытки называются эпохами обучения.

В результате мы получаем идеальный алгоритм, способный видеть связь между изображением и текстом. При необходимости его можно использовать для создания генератора изображений по запросу.

Чтобы сделать нейросеть более гибкой в мышлении, создатели начали предоставлять ей неправильные пары изображений. Таким образом, она научилась определять силу связи между различными объектами — и похожими, и разными. Это позволило нейросети запомнить множество различных подходов к решению задачи.

И вот в чем основная фишка машинного обучения: оно способствует развитию креативного мышления программы. Например, Midjourney способен предоставить тысячи разных вариантов енотов в ответ на один и тот же запрос. Конечно, такое разнообразие вариантов не под силу даже самой крупной команде разработчиков.

Где используются нейросети

Сейчас уже проще перечислить, где их нет. Но вот несколько жизненных примеров:

  • Нейронка внутри поисковика Microsoft Bing отвечает на сложные вопросы пользователей. Например: «Поместится ли диван из IKEA в минивэн Volkswagen».
  • Та же нейросеть внутри ChatGPT составляет любые тексты по запросу. В России даже есть студент, который написал и защитил диплом с её помощью.
  • Голосовые помощники «Сбера» и «Тинькофф» анализируют речь клиентов, чтобы общаться с ними и решать сложные вопросы. Это позволяет компаниям нанимать меньше сотрудников в техподдержку.
  • Алгоритмы «ВКонтакте» анализируют вашу активность в соцсетях, чтобы подбирать нужные мемы с котами, новости и рекламу.
  • Селфи-камеры в смартфоне применяют фильтры для фотографий, чтобы люди получались хорошенькими.
  • Face ID в айфоне строит цифровые модели лица пользователя, чтобы узнавать его в любых условиях: в темноте, на улице, в очках, с бородой, с новой причёской и так далее.
  • Роботы-доставщики «Яндекс Еды» прокладывают путь от склада до клиента в обход препятствий и c соблюдением ПДД, чтобы доставлять посылки в целости.
  • В Москве нейросети помогают медицинским центрам анализировать ЭКГ, УЗИ и рентгеновские снимки для диагностики заболеваний.

Что будет дальше?

Уже сейчас видно, что нейронные сети берут на себя всё больше задач, которые раньше считались исключительно человеческими. Остаётся вопрос, дойдут ли они до уровня, когда смогут полностью заменить определённые профессии, или останутся на уровне инструментов — своего рода творческих калькуляторов.

Существуют две противоположные точки зрения на этот счёт. Например, лингвист Ноам Хомский считает, что основная проблема заключается в самой модели машинного обучения. По его мнению, такая система никогда не сможет подойти к человеческому сознанию:

«ChatGPT от OpenAI, Bard от Google, Sydney от Microsoft — это показательные примеры машинного обучения. Они, грубо говоря, берут огромные объёмы данных, ищут в них паттерны и становятся всё более искусными в генерации статистически вероятных результатов — таких, которые кажутся подобными человеческому языку и мышлению.
Но человеческий разум, в отличие от ChatGPT и ему подобных, не неуклюжий статистический механизм для сопоставления с паттерном, поглощающий сотни терабайт данных и экстраполирующий наиболее характерные разговорные реакции или наиболее возможные ответы на научный вопрос. Напротив, человеческий разум — удивительно эффективная и даже элегантная система, которая оперирует небольшими объёмами информации; она стремится не к выведению грубых корреляций в данных, но к созданию объяснений».
Ноам Хомский, американский лингвист и публицист

С другой стороны, некоторые эксперты высказывают панические предсказания. Историк Юваль Ной Харари, автор книги «Краткая история будущего», допускает возможность, что искусственный интеллект может забрать себе ключевые функции управления человеческой цивилизацией:

«В начале было слово. Язык — это операционная система человеческой культуры. Из языка возникают миф и закон, боги и деньги, искусство и наука, дружба и нации — даже компьютерный код. Овладев языком, ИИ захватывает главный ключ к управлению нашей цивилизацией.
Что значит для людей жить в мире, где большой процент историй, мелодий, образов, законов, политики и инструментов формируется нечеловеческим разумом, который знает, как со сверхчеловеческой эффективностью использовать слабости, предубеждения и пристрастия людей? Знает, как устанавливать с людьми близкие отношения? В таких играх, как шахматы, ни один человек не может надеяться победить компьютер. Что будет, когда то же самое произойдёт в искусстве, политике и религии?
ИИ может быстро съесть всю человеческую культуру — всё, что мы создали за тысячи лет, — переварить её и начать извергать поток новых культурных артефактов. Не только школьные сочинения, но и политические речи, идеологические манифесты и даже священные книги для новых культов. К 2028 году в президентской гонке в США могут больше не участвовать люди».
Юваль Ной Харари, историк-медиевист

В процессе написания статьи был проведен эксперимент с использованием нейронной сети, встроенной в Microsoft Bing, по сути, ChatGPT с функциями поисковика. Этот чат-бот выполнял роль технического консультанта, отвечая на вопросы, предлагая аналогии для сложных понятий, ведя беседы и предоставляя примеры. Были моменты с некорректными ответами, ошибками и противоречиями. В целом, использование текстов этого чат-бота в качестве основы для полноценной журналистской работы представляется ранним этапом развития технологии.

Тем не менее, отмечается интересный момент: после продолжительного взаимодействия с ChatGPT, переход обратно к обычному поисковику Google был не таким уж и легким. Возможно, это предвестие полного изменения способа потребления информации в сети.