Найти в Дзене
Новое электричество

Антифэйк Цукербергского

Фейковые новости — большая проблема современного мира. Способов их отличать существует довольно много, однако делать это непросто и, главное, небыстро. Многим людям выгодно такие новости создавать — и многим выгодно с ними бороться. Среди вторых, к счастью, есть техгиганты вроде Facebook, Google или Yandex: в ходу идут самые современные cutting edge технологии. Всё это напоминает борьбу вирусов и антивирусов лет 15-20 назад. Способов борьбы великое множество: от самых простых (найм людей, единственная задача которых — просматривать новые посты вручную) до самых продвинутых (уникальные технологии машинного обучения, разработанных специально под проблему). Так, в Facebook решили, что первый шаг борьбы с фальшивыми новостями — борьба с фальшивыми аккаунтами. Для этого они используют систему DEC (Deep Entity Classification, Глубокая личностная классификация). Работает так. Множество низкоуровневых алгоритмов собирают разные паттерны жизни пользователя на платформе (порядка 20000(!) у кажд
Wikipedia
Wikipedia

Фейковые новости — большая проблема современного мира. Способов их отличать существует довольно много, однако делать это непросто и, главное, небыстро.

Многим людям выгодно такие новости создавать — и многим выгодно с ними бороться. Среди вторых, к счастью, есть техгиганты вроде Facebook, Google или Yandex: в ходу идут самые современные cutting edge технологии. Всё это напоминает борьбу вирусов и антивирусов лет 15-20 назад.

Способов борьбы великое множество: от самых простых (найм людей, единственная задача которых — просматривать новые посты вручную) до самых продвинутых (уникальные технологии машинного обучения, разработанных специально под проблему).

Так, в Facebook решили, что первый шаг борьбы с фальшивыми новостями — борьба с фальшивыми аккаунтами. Для этого они используют систему DEC (Deep Entity Classification, Глубокая личностная классификация). Работает так. Множество низкоуровневых алгоритмов собирают разные паттерны жизни пользователя на платформе (порядка 20000(!) у каждого), на этих данных обучают огромную нейронную сеть, а затем подкручивают параметры на хороших, вручную отобранных данных.

DEC создаёт что-то вроде всеобъемлющей цифровой модели каждого пользователя и позволяет видеть любые отклонения. Она может классифицировать фейковые аккаунты в 4 категории: аккаунты несуществующих людей, украденные аккаунты реальных людей, спамеров и скамеров.

В Jigsaw Google, стартапе внутри корпорации, разрабатывают Assembler, который позволит журналистам и людям, вручную отбирающим фейки, отличать фальшивые картинки от реальных. В платформу встроены несколько разных технологий МО, каждая из которых делает свой маленький кусок: одна находит в картинках copy/paste, другая — добавленных или удалённых людей. МО для проекта делают несколько вузов от Италии до Калифорнии, а особняком стоят две внутренних разработки.

Первая — специализированная МО-система, позволяющая обнаруживать deep fakes: фотографии и видео, на которых при помощи нейронных сетей одни люди заменены на других. Вот, например, один из самых безобидных примеров deep fake: Терминатор, где в главной роли Сталлоне, а не Шварценеггер.

Вторая же — мозг всей системы, проверяющий при помощи подмодулей изображение на разные модификации одновременно. Зачем она нужна? Представьте, у нас есть вероятности модификаций от каждого подмодуля: copy/paste — вероятность 0.164, добавлены люди — 0.214, deep fake — 0.317. Как понять, с какой вероятностью изображение — фейк? Задача нетривиальная, и её решает как раз этот модуль.

В общем, борьба кипит нешуточная, болеем за наших! И, конечно, ждём новых удивительных алгоритмов по обработке текста и визуала — это вечный спутник гонки вооружений.

#ai startups #искусственный интеллект #технологии #новости #машинное обучение