В четверг OpenAI объявил, что обучили ИИ языковой модели. Они использовали большой набор данных для обучения и показали, что полученная в результате модель была полезна для последующих задач, где данных для обучения мало. Их модель может создавать реалистично выглядящий текст, но набор данных и код моделей они будут держать в секрете.
Языковые модели присваивают вероятности последовательностям слов. Обычно они выражают эту вероятность как произведение вероятностей каждого слова, обусловленного его предшественниками. В качестве альтернативы можно обучить модель языка в обратном направлении, предсказывая каждое предыдущее слово с учетом его преемников. После обучения модели обычно ее либо 1) используют для генерации текста путем итеративного декодирования слева направо, либо 2) тонко настраивают для какой-либо последующей учебной задачи под наблюдением.
Обучение языковых моделей больших нейронных сетей и их применение для решения последующих задач стало всеохватывающим явлением, занимающим огромную долю исследований в современной обработке естественного языка.
На конференции NAACL 2018 AllenNLP представили ELMo - систему, состоящую из огромных моделей прямого и обратного языка, обученную по массиву данных в 1 миллиард слов. Они продемонстрировали, что представленные в результате модели могут быть использованы для достижения современного уровня производительности в ряде задач
Исследователи Google выпустили BERT - модель, которая использует архитектуру Transformer. Цель её обучения - научиться заполнять пустые места в тексте (совсем немного отличается от метода моделирования языка).
В декабре команда Google Magenta, которая исследует творческие приложения глубокого обучения, применила архитектуру Transformer к задаче «языкового моделирования», создавая пьесы для фортепиано.
Вернемся обратно к четвергу: OpenAI обучил большую языковую модель большому набору данных под названием WebText. Исследователи создали интересный набор данных, применяя стандартные инструменты и получив, несмотря на это, впечатляющую модель. Такая модель, обученная с нуля, во многом превосходила предыдущие подходы.
Шаг вперед на пути, по которому идет все сообщество.
Ханна Джейн Паркинсон из The Guardian опубликовала статью под названием "ИИ может писать так же, как и я. Готовтесь к восстанию роботов". Том Симоните из Wired написал статью "Генератор искусственного интеллекта, который слишком опасен для обнародования". Сейчас, когда многие медиа освещают какую-либо историю, перефразируя её источник, почти все новостные веб-сайты имеют свою версию происходящего.
Возникает вопрос: было ли право у OpenAI скрывать свой код и данные?
с сокрытие языковой модели
За последние несколько дней ряд видных исследователей в сообществе сделали OpenAI неплохую рекламу, обсуждая их решение сохранить модель в секрете.
Менеджер по связям с общественностью OpenAI изложил несколько причин, по которым было решено не раскрывать данные, модель и код. А именно, он выражал обеспокоенность тем, что технология может быть использована для синтеза фейковых новостей.
OpenAI в свою очередь были раскритиковны за использование для привлечения внимания СМИ фраз типа «технология слишком опасна, чтобы её публиковать».
Кто-то согласится с исследователями OpenAI в том, что рыскрытие технологии для изготовления реалистичного текста представляет некоторые социальные риски. Однако озадачивает, что OpenAI решили не опубликовывать данные. Похоже, предполагается что OpenAI является чем-то особенным - что их технология чем-то отличается от того, что делают все остальные во всем сообществе NLP. В противном случае, что дает решение не раскрывать её?
Это хорошая работа и её публикация - это именно такой шаг науки, который ожидают через месяц или два от любой из десятков столь же сильных лабораторий мира.