Найти в Дзене

Исследователи Apple провели масштабный A/B-тест, чтобы выяснить, может ли искусственный интеллект улучшить поисковую выдачу в магазине

приложений App Store. Результаты эксперимента опубликованы в научной работе под названием «Масштабирование релевантности поиска: улучшение ранжирования App Store с помощью оценок, сгенерированных большими языковыми моделями». Оказалось, что нейросети действительно способны помочь пользователям быстрее находить нужные программы — правда, улучшение получилось скромным, но статистически значимым. Суть проблемы в том, что система ранжирования приложений опирается на два типа релевантности. Первый — поведенческая, которая отслеживает действия пользователей: нажали они на приложение или скачали его. Второй — текстовая, которая оценивает, насколько хорошо название, описание и ключевые слова программы соответствуют поисковому запросу. С поведенческими данными всё просто — их море, а вот качественные текстовые оценки приходится получать от живых людей, что дорого и медленно. Именно здесь на сцену вышла большая языковая модель на 3 миллиарда параметров, которую обучили на существующих человечес

Исследователи Apple провели масштабный A/B-тест, чтобы выяснить, может ли искусственный интеллект улучшить поисковую выдачу в магазине приложений App Store. Результаты эксперимента опубликованы в научной работе под названием «Масштабирование релевантности поиска: улучшение ранжирования App Store с помощью оценок, сгенерированных большими языковыми моделями». Оказалось, что нейросети действительно способны помочь пользователям быстрее находить нужные программы — правда, улучшение получилось скромным, но статистически значимым.

Суть проблемы в том, что система ранжирования приложений опирается на два типа релевантности. Первый — поведенческая, которая отслеживает действия пользователей: нажали они на приложение или скачали его. Второй — текстовая, которая оценивает, насколько хорошо название, описание и ключевые слова программы соответствуют поисковому запросу. С поведенческими данными всё просто — их море, а вот качественные текстовые оценки приходится получать от живых людей, что дорого и медленно. Именно здесь на сцену вышла большая языковая модель на 3 миллиарда параметров, которую обучили на существующих человеческих оценках, а затем позволили ей сгенерировать миллионы новых меток релевантности.

После переобучения системы ранжирования с учётом данных от нейросети команда запустила глобальный A/B-тест на реальном трафике App Store. Результат: конверсия выросла на 0,24% — то есть пользователи, видевшие выдачу с участием искусственного интеллекта, скачивали хотя бы одно приложение на 0,24% чаще. Звучит как статистическая погрешность, но когда речь идёт о примерно 38 миллиардах загрузок из App Store за 2025 год, эти доли процента превращаются в десятки миллионов дополнительных установок. Разработчики наверняка не против такой прибавки — особенно учитывая, что им для этого ничего делать не пришлось.

@fixed