Первые достижения и трудности
Искусственный интеллект (ИИ; Artificial intelligence, AI) — ныне модная тема для всевозможных футуристических и вполне практических публикаций. Заявленная способность ИИ выполнять творческие, «человеческие» функции будоражит воображение многих исследователей. Какими результатами цивилизация располагает на текущий момент? — К сожалению, существующие интеллектуальные системы имеют узкие сферы применения: способов создания системы общегоинтеллекта пока не существует. Так, программа для игры в шахматы способна только делать ходы и не сможет рассказать о том или ином гроссмейстере, даже назвать дату его рождения. Нужен ли общий интеллект для написания энциклопедической или хотя бы новостной статьи? — Нашлись как минимум 2 софтверные компании, в которых полагают, что для решения задачи можно успешно применять узкоспециализированный подход. Что из этого получилось, решил рассказать редактор Geektimes с ником «marks».
Представители Google Brain — проекта Google по по изучению искусственного интеллекта на основе глубокого обучения — разместили на arXiv.org публикацию, в которой рассказали, как научили программу собирать информацию по заданной теме, анализировать её и резюмировать — формировать результат в формате статьи «в стиле Википедии». Основная мысль статьи в том, что анализ прочитанного — сложная задача для машины. Более того, Google — не первая компания, которая предпринимает усилия в данном направлении, но далеко не всем сопутствовал успех. Тем не менее, ранее в Salesforce смогли обучить нейронную сеть собирать информацию и анализировать её по заданному алгоритму (см. статьи на arXiv.org и на сайте организации).
Если с анализом данных нейронная сеть Salesforce справлялась, для итогового результата — резюме — были характерны в основном простые и короткие предложения, имелись сложности с передачей смысловой структуры контента. Google достиг больших успехов: научился формировать более длинные и естественные (по смысловой структуре) предложения.
Результаты были достигнуты при работе с английским языком. См. ниже пример с двумя разными заметками: слева — человеческая, справа — «машинописная» (нейросеть собрала материал с разных ресурсов, проанализировала его и сгенерировала текст).
Хотя в тексте от ИИ нет заглавных букв, имеются стилистические особенности, которые могут затруднять восприятие, материал доступен для усвоения.
Информацию программа собирает по цитируемым источникам (например, из раздела «Ссылки» в статье Википедии по той или иной теме) или по первым 10 результатам после выполнения поискового запроса (кроме статей Википедии). В итоге формируется статья а-ля Вики. Более того, встроенная функция самообучения помогает разработке совершенствоваться с созданием каждой новой статьи.
Любопытно, что софт не пишет всё сам: программа лишь сокращает исходные предложения, чтобы упростить восприятие, причём старается сделать это без искажения смысла. По мнению авторов алгоритма, его «бутылочное горлышко» — именно выделение фрагментов текста для формирования новой статьи. И хотя процесс занимает значительное время, результат уже оценивается как приемлемый.
Основной недостаток новации — принцип отбора данных для статьи — популярность (статистика посещаемости, время прочтения и т. д.), а не достоверность, то есть итоговое резюме может включать ошибки. Судя по всему, в Google Brain понимают все сильные и слабые стороны своей разработки, как и то, что для отбора источников с высокой степенью достоверности требуется отдельный алгоритм. В любом случае в команде намерены развивать начинание.