39,9K подписчиков

Как работает искусственный интеллект на Авито?

162 прочитали

Если бы Карлу Фридриху Гауссу в 1795 году сказали, что открытый им метод наименьших квадратов приближает начало эры машинного обучения, он бы, наверное, испугался. Возможно, и Карлу Пирсону сто лет спустя стало бы немного не по себе, если бы он услышал – как будет применяться созданный им метод главных компонент. Ведь они «просто» занимались математикой, а тут – такое.

Действительно, термин «искусственный интеллект» (ИИ) звучит гораздо привлекательнее, чем математическая статистика и теория оптимизации, лежащие в основе данного явления. ИИ сейчас в моде, и его пытаются обнаружить вообще везде. На днях видел даже минеральную воду с ним. Не спрашивайте. И да, результат работы математических моделей буквально с каждым днем все больше напоминает реальную умственную деятельность, все еще ею не являясь.

Если бы Карлу Фридриху Гауссу в 1795 году сказали, что открытый им метод наименьших квадратов приближает начало эры машинного обучения, он бы, наверное, испугался.

Задачей любой автоматизации всегда было избавление человека от монотонного труда. В 21-м веке ничего не изменилось, разве что масштабы. Некоторое время назад мы беседовали с Ильей Иваницким, руководителем направления Data Science департамента доверия и безопасности Авито, о том, как ИИ помогает людям на платформе с более, чем двумя сотнями миллионов активных объявлений, на которую каждый день приходят десятки тысяч новых пользователей.

Илья Иваницкий
Илья Иваницкий

Реальная экономика искусственного интеллекта

Системы борьбы с нарушением правил платформы (антифрод) и автоматическая модерация объявлений начали внедряться в Авито более 10 лет назад. Начиналось все с проверки объявлений – отсечения запрещенных товаров и услуг. Все работало по ключевым фразам, через простые текстовые модели. То есть, чтобы попасть под карающую длань, нужно было набраться смелости и глупости написать название запрещенки полностью.

Сейчас и людей на платформе стало больше, и фантазию они прокачали.

Если бы Карлу Фридриху Гауссу в 1795 году сказали, что открытый им метод наименьших квадратов приближает начало эры машинного обучения, он бы, наверное, испугался.-3

«На Авито сотни миллионов объявлений, и каждый день прибавляются десятки тысяч. Параллельно идет прирост числа регистраций, часть из которых – не совсем настоящая. Некоторые не совсем добросовестные пользователи пытаются зарегистрировать второй-третий-пятый аккаунт. Заблокированные за весомые нарушения люди пробуют зарегистрироваться снова. Есть еще «бизнес» на заготовке учетных записей, которые потом перепродаются спамерам, парсерам, накрутчикам отзывов и так далее. Чтобы все их проверить вручную, нужно заселить модераторами несколько девятиэтажек», — говорит Илья Иваницкий, — «Команда из десяти инженеров избавляет от рутины сотни модераторов, а масштабирование серверных мощностей по-прежнему остается понятной и прогнозируемой задачей».

Здесь хочется пожалеть бедных модераторов, которых заменяют машинами. Но нужно сдерживать себя. Модераторов Авито набирает по всей стране. Я был в московском, петербургском, казанском и самарском филиалах, а ведь в десятка городов люди работают удаленно. Но модератором может стать не каждый. Прошедшим отбор требуется время на освоение премудростей. Больше времени, чем позволяет рост платформы. Плюс даже обученные люди не всегда остаются в этой профессии на всю жизнь. Кто-то уходит на повышение, кто-то решает поискать себя в других сферах. Если полагаться только на людей, публикации объявления и регистрации на платформе пришлось бы ждать часами, если не сутками. Сейчас же счет в большинстве случаев идет на минуты.

Если бы Карлу Фридриху Гауссу в 1795 году сказали, что открытый им метод наименьших квадратов приближает начало эры машинного обучения, он бы, наверное, испугался.-4

При помощи алгоритмов машинного обучения проводится предварительная фильтрация, и до живых модераторов доходят только объявления, в которых есть подозрительные признаки. Остальные публикуются автоматически.

Можно ли оцифровать чуйку и смекалочку?

Поскольку платформа действительно хорошо помогает продавать товары и услуги, закрепиться на ней очень важно. В том числе и для не вполне добросовестных граждан. Прибегая к эзопову языку, они формулируют текст объявления так, что формально придраться невозможно. И картиночки подберет – не подкопаться. Однако опытный человек все поймет.

Казалось бы, в этой ситуации альтернативы такому же человеку на стороне Авито просто нет.

Если бы Карлу Фридриху Гауссу в 1795 году сказали, что открытый им метод наименьших квадратов приближает начало эры машинного обучения, он бы, наверное, испугался.-5

«Если десятки модераторов за год отклонили сотни тысяч фотографий с запрещенными товарами, на полученной базе легко можно обучить нейросеть, которая продолжит успешно находить картинки с определенными нарушениями», — рассказывает Илья Иваницкий, — «Один модератор видел за год тысячи картинок, а модель «видела» сотни тысяч – причем как с прямым нарушением, так и со спрятанным. Большие данные решают. Но ручная модерация остается очень важной в том числе потому, что от неё идет поток размеченных свежих данных с новыми вариантами нарушений. Например, раньше пользователи писали номер телефона в тексте словами (девятьсот двадцать шесть триста четырнадцать), потом постепенно начали маскировать его юникодом или какими-то иными похожими на цифры символами. Потом стали просто накладывать на картинки текст, а теперь и на картинках прячут номера телефона, делая цифры слабочитаемыми. Иногда пишут от руки. Человек эти уловки видит, отмечает, и потом уже ИИ справляется сам».

Неявные нарушения вычисляются не только в лоб, но и по сторонней активности вокруг объявления. Например, модель «видит», что новый пользователь разместил объявление в категории «Уборка» с очень неконкретным текстом. В этой категории уже есть накопленная база заблокированных объявлений, опирающаяся на жалобы других людей и тайные проверки. То есть если там по аналогичным признакам точно выявлено нехорошее, значит и тут вероятность выявления не нулевая. И это повод передать объявление на глубокую проверку, где модераторы ознакомятся с контентом и поищут связь новой учетки с уже известными и заблокированными. Вообще, при всем уважении к настоящему человеческому интеллекту, не так-то он и разнообразен. 99% нарушений выявляются автоматически.

Если бы Карлу Фридриху Гауссу в 1795 году сказали, что открытый им метод наименьших квадратов приближает начало эры машинного обучения, он бы, наверное, испугался.-6

Но сама нейросеть серьезные решения не принимает. Ее задача – поднять наверх самое подозрительное, чтобы модератор разобрался с ним в первую очередь. Причем в таком объявлении уже будут выделены фрагменты текста и иллюстрации, в которых потенциально что-то не так. Это экономит человеко-часы. Разбирать бесконечный поток живому человеку с нуля трудно. По крайней мере, если делать это каждый рабочий день в течение нескольких лет. И глаз замыливается, потому что большинство объявлений все же совершенно обычные, и развивается ложная подозрительность. А если ИИ помогает – гораздо проще.

«В случае «опасного» действия (блокировка учетной записи, какие-то чувствительные действия с объявлениями) большАя часть действий делается силами модераторов. Ошибки бывают у любых моделей, и нам хочется максимально обезопасить пользователей от некорректного действия», — добавляет Илья Иваницкий.

Круговая безопасность

Авито не скрывает, что алгоритм Machine Learning анализирует в том числе и переписки на платформе. Звучит так себе, согласен. Однако мало кто приходит на такие сайты поговорить о сокровенном. А вот безопасность, когда речь идет об обмене деньгами и товарами, лишней точно не бывает.

Автоматический анализ переписки приносит совершенно реальную пользу. Например, сама по себе просьба о предоплате в ряде категорий вполне уместна. Но если продавец, условно говоря, пары обуви просит ее одновременно у нескольких десятков потенциальных покупателей, это вызовет у нейросети подозрения и предотвратит мошенничество. Конкретный пользователь может ничего плохого и не заметить, но магия больших данных сработает. Конфиденциальность переписки от этого не пострадает, благо нейросети пока сплетничать не умеют, а суть беседы тоже остается за кадром анализа. Нейросеть интересуют только определенные триггеры.

Если бы Карлу Фридриху Гауссу в 1795 году сказали, что открытый им метод наименьших квадратов приближает начало эры машинного обучения, он бы, наверное, испугался.-7

Но и последние напрямую связаны с категорией, где размещено объявление. Например, то, что применимо для мобильных телефонов, совершенно не подходит для услуг сантехника. Последний может смело попросить номер мобильного и обсудить предоплату на материалы, чтобы ускорить работу. А вот многочисленные просьбы внести оплату «бронирования» одинокого айфона нейросеть неприятно удивят. Со всеми вытекающими.

В то же время, в модели есть несколько степеней защиты от массовой маркировки объявлений и аккаунтов, как подозрительных. Ведь от ошибок не застрахованы ни люди, ни нейросети. Но когда ее совершает живой человек с конкретным объявлением, это, в общем, дело житейское и быстро поправимое. А вот если модель «раскатывает» свои подозрения на всю базу, помощью это назвать трудно.

Будущее

За последние пять лет Авито выросла более, чем в 10 раз по объему размещаемого контента – и по объявлениям, и по количеству отзывов. И еще по способам связи – звонки, сообщения, видеозвонки. То есть по всему тому, что проверяется автоматической модерацией.

Достигнутый уровень последней не только хорош сам по себе, но но и достаточно беспрецедентен в мировом масштабе. При всем уважении к коллегам по бизнесу, Авито в основном соревнуется сама с собой.

Но это не значит, что ничего нельзя улучшить.

Если бы Карлу Фридриху Гауссу в 1795 году сказали, что открытый им метод наименьших квадратов приближает начало эры машинного обучения, он бы, наверное, испугался.-8

«Важно уметь смешивать разные виды данных для получения более точных результатов», — говорит Илья Иваницкий, — «Сейчас по текстам, видео и картинкам работают отдельные модели. Но если совместить все модальности и анализировать одновременно графический контент, тексты и поведение пользователя немного за пределами объявления, мы сможем принимать более точные решения».

Сейчас у Авито есть математические модели на миллионы и даже миллиарды параметров. Они требуют в десятки и сотни раз больше аппаратных мощностей, чем 10 лет назад. В первую очередь – видеокарт, чтобы нейронные сети можно было использовать для требуемых объемов данных. Во вторую – памяти, где эти объемы хранятся. Но и тут надо понимать, что даже не через пять, всего через пару лет нынешние вычислительные возможности будут казаться скромными на фоне имеющихся.

ИИ не бесплатен. Растут затраты на оборудование, а специалисты, умеющие его правильно нагружать, хорошо знают себе цену. Но найм модераторов, пропорционально росту объема контента, все равно был бы гораздо дороже, если вообще – возможен.

Если бы Карлу Фридриху Гауссу в 1795 году сказали, что открытый им метод наименьших квадратов приближает начало эры машинного обучения, он бы, наверное, испугался.-9

Только тандем из настоящего интеллекта и того, что когда-то начали придумывать Гаусс с Пирсоном, позволяет нам, современным людям, комфортно покупать давно желанные вещи, подыскивать квартиры навсегда или на несколько дней, разглядывать автомобили и выбирать сантехника.

И кое-что зарабатывать.

Все иллюстрации в статье нарисованы искусственным интеллектом Kandinsky