Искусственный интеллект становится лучше на поддельных новостях

16 февраля 201916 фев 2019

4 мин

OpenAI написал алгоритм, который создает поддельные новости. Это удивительно убедительно.

Леонид Бершидский

Алгоритмы уже давно способны производить основные новости из пресс-релизов или наборов финансовых данных; это не представляет большой угрозы для большинства людей в новостном бизнесе. Однако теперь искусственный интеллект сделал еще один шаг вперед. Он научился выполнять более сложную задачу - создавать убедительные фальшивые новости.

Объединение нескольких формальных отрывков из набора чисел - механическая работа. Придумывание поддельной новости на случайную тему требует воображения; не каждый человек до этого. Сан-Франциско некоммерческая OpenAI, основанная Tesla Главный исполнительный директор Элон Маск и Y Combinator президента Сэма Альтмана, уже произвел так называемую языковую модель , которая может это сделать. Качество продукции несколько неравномерно, но лучшие примеры напоминают человеческое письмо в пугающей степени.

На первый взгляд, GPT-2, как называют модель, работает в некоторой степени как популярная игра, в которую можно играть с менее продвинутой версией AI на любом смартфоне, принимая предложения слов один за другим, создавая иногда удивительные маленькие истории. GPT-2, обученный на наборе данных из 8 миллионов веб-страниц, созданных человеком, пишет текст, предсказывая следующее слово на основе всех предыдущих в нем. Нужно дать GPT-2 одну или две строки, чтобы начать его вообще по любому предмету. Для этого достаточно обучающего набора данных, состоящего из исходящих ссылок из социальной сети Reddit. «Модель похожа на хамелеон - она приспосабливается к стилю и содержанию текста, связанного с кондиционированием», - пишут исследователи OpenAI в своем блоге.

Образец в посте - удивительно связная история о стаде единорогов, обнаруженная ученым в Андах. Учитывая два предложения о находке и способности единорогов прекрасно говорить по-английски, машина создала то, что почти могло быть историей с любого основного новостного сайта.

Это дало ученому имя, доктор Хорхе Перес из Университета Ла-Паса (нет школы с таким точным названием), произвело от него цитаты и расширило внешний вид единорогов («серебристо-белый») и языковые способности (они говорить на собственном диалекте плюс «довольно обычный английский»). Конечно, у редактора-человека могли возникнуть проблемы с противоречием в этом предложении: «некоторые считают, что, возможно, существа были созданы, когда человек и единорог встретились друг с другом во времена, предшествовавшие человеческой цивилизации».

Модель дала этот результат с 10-й попытки: чем больше упражнений по заданному предмету, тем увереннее и последовательнее результаты. Примеры того, что GPT-2 «пишет» без ответа, который OpenAI выпустил на GitHub вместе с более слабой версией модели, варьируются от слегка сюрреалистического до совершенно странного. Они включают хронологию налогового скандала с участием покойного сенатора Джона Маккейна:

Сенатор Аляски Лиза Мурковски стала первой «серьезной» фигурой в национальной политической драме СМИ, призвавшей Маккейна сотрудничать с коллегами по Сенату, раскрывая его налоговые декларации или сотрудничая с тем, что она назвала «полной силой» IRS, DOJ, FBI , так далее.

Или возьмем этот обзор технологии:

Легендарный Precision Bass привносит в звучание басов и веселый дымный тон! Эти универсальные динамики средних частот обеспечивают невероятное расширение низких частот: высокочастотный отклик 32 "- около двух третей динамика.

Или как выглядит история из Бангладеш:

ДХАКА: Тысячи людей прошли через Дакку в четверг, многие из них были украшены цветами полузасушливого северного региона, отмеченного самыми высокими горами пострадавшего от засухи региона.

Для исследователей OpenAI, эта креативная креативность не самая захватывающая особенность GPT-2; в техническом документе они обсуждают его способность выполнять ряд задач, для которых обычно создаются специализированные модели: перевод, ответ на вопрос, понимание текста. Как правило, это не так хорошо, как у людей, но универсальность системы является очевидным доказательством того, что неконтролируемые методы обучения могут вывести ИИ далеко за пределы узкоспециализированных алгоритмов, которые могут только преуспеть в решении конкретной задачи, например, в игре или сравнении определенных видов изображений.

Однако в реальном мире «литературный дар» ГПТ-2 может иметь более зловещие последствия. Сосредоточение своей «творческой силы» на узких целях, скажем, политической пропаганды и дезинформации может сделать ненужным ручное производство такого материала. Никакая индустрия фальшивых новостей, как та, которая возникла в македонском городе Велес во время президентских выборов в США в 2016 году, не понадобилась бы тысячам учетных записей социальных сетей и веб-сайтов, чтобы извергать какие-либо партизанские глупости или выдуманные новости. Они тоже поделятся - исследования показывают, что большинство людей не могут отличить поддельные новости от реальных.

К чести OpenAI, он полностью осознает вред, который может быть нанесен такими моделями, как GPT-2; в дополнение к дезинформации, это указывает на их потенциал для автоматического киберзапугивания. Таким образом, хотя модель может также использоваться для безобидных целей, таких как создание лучших диалоговых ботов, некоммерческая организация, по крайней мере на данный момент, решила не выпускать обучающий набор данных или полный код модели.

Тем не менее, знания не могут быть ограничены таким образом, и языковые модели будут продолжать улучшаться. Вполне возможно, что их «литературный» продукт в конечном итоге затопит медиа-платформы, которые не контролируются профессиональными редакторами, прежде всего социальными сетями. Интеллектуальное человеческое письмо становится особенно важным перед лицом этого наводнения - по крайней мере, пока для этого есть аудитория.