В мае Apple провела двухдневную конференцию, посвященную последним достижениям в области обработки естественного языка. Сегодня компания рассказала об основных моментах мероприятия и всеми представленными исследованиями. Семинар Workshop on Natural Language and Interactive Systems сосредоточился на трех ключевых направлениях: системах голосового взаимодействия, обучении и настройке больших языковых моделей, а также языковых агентах.
В мероприятии приняли участие исследователи из ведущих университетов и лабораторий, включая Массачусетский технологический институт MIT, Гарвардский университет, Стэнфорд и Принстон. Представители индустрии из Microsoft, Amazon, Sony, поисковик Google, китайский гигант Tencent и сама Apple также поделились своими наработками. Подобное сочетание академической науки и коммерческих разработок показывает, насколько серьезно технологические гиганты относятся к развитию искусственного интеллекта — ведь на кону стоят миллиарды долларов и будущее всей отрасли.
Профессор Оксфордского университета Ярин Гал, который также возглавляет отдел исследований Института безопасности ИИ Великобритании, представил два фундаментальных исследования. Первое касается «коллапса ИИ-моделей» — проблемы, которая может показаться абстрактной, но на деле угрожает всей индустрии. Дело в том, что интернет постепенно заполняется контентом, созданным искусственным интеллектом, а новые модели обучаются именно на этих данных. Получается замкнутый круг: ИИ учится на том, что создал другой ИИ, что неизбежно приведет к деградации качества и появлению системных ошибок.
Второе исследование Гала предлагает остроумное решение проблемы галлюцинаций — ситуаций, когда нейросеть с видом знатока выдает правдоподобную, но ложную информацию. Метод заключается в том, чтобы заставить модель генерировать несколько вариантов ответа на один вопрос, а затем группировать их по смысловому содержанию. Если все варианты говорят об одном и том же — значит, модель уверена в ответе. Если мнения расходятся — стоит насторожиться. Это своего рода «демократическое голосование» внутри одной нейросети, которое может работать даже в длительных диалогах.
Исследователь машинного обучения Apple Кевин Чен продемонстрировал практическое применение метода LOOP (Leave-one-out proximal policy optimization) для создания ИИ-агентов, способных выполнять сложные многоэтапные задачи. В качестве примера он показал, как агент может проанализировать записи о взаимных долгах после совместной поездки друзей на остров Мауи и автоматически создать соответствующие платежи через платежную систему Venmo. Агент обучался на 24 различных сценариях и научился итеративно улучшать свои действия, наблюдая за результатами предыдущих попыток. Правда, пока что он не умеет вести многоходовые диалоги с пользователем — но это уже детали.
Технический руководитель Apple Ирина Белоусова представила метод спекулятивной потоковой передачи, который решает извечную дилемму разработчиков мобильных устройств: как получить качество больших моделей при ограниченных ресурсах. Идея гениально проста — маленькая быстрая модель генерирует черновики ответов, а большая умная модель их проверяет и при необходимости корректирует. Если черновик оказался удачным, большая модель просто его одобряет, экономя вычислительные ресурсы. Такой подход требует меньше памяти, работает быстрее и упрощает развертывание систем, поскольку не нужно жонглировать несколькими моделями одновременно — особенно важное преимущество для iPhone и iPad, где каждый мегабайт памяти на счету.
Подробнее можно посмотреть на сайте Apple.