Найти в Дзене
Наука для всех

ВЫ НЕ ПОВЕРИТЕ, НАСКОЛЬКО ХОРОШО ЭТОТ АЛГОРИТМ РАСПОЗНАЕТ CLICKBAIT

Согласно новым исследованиям, с помощью обучения людей и машин модель искусственного интеллекта может превзойти другие детекторы поиска. Кроме того, новое решение на основе искусственного интеллекта также смогло определить разницу между заголовками, которые генерируются машинами или ботами, и теми, которые пишут люди, говорят они. В ходе исследования исследователи попросили людей написать свой собственный clickbait-интересный, но вводящий в заблуждение заголовок новостей, предназначенный для привлечения читателей, чтобы нажимать на ссылки на другие онлайн-истории. Исследователи также запрограммировали машины для создания искусственной наживки. Затем исследователи использовали заголовки от людей и машин в качестве данных для обучения алгоритму обнаружения наживки. Способность полученного алгоритма предсказывать заголовки clickbait была примерно на 14,5% лучше, чем у других систем, по мнению исследователей, которые опубликовали свои выводы на международной конференции IEEE/ACM 2019 года
Оглавление

Согласно новым исследованиям, с помощью обучения людей и машин модель искусственного интеллекта может превзойти другие детекторы поиска.

Кроме того, новое решение на основе искусственного интеллекта также смогло определить разницу между заголовками, которые генерируются машинами или ботами, и теми, которые пишут люди, говорят они.

В ходе исследования исследователи попросили людей написать свой собственный clickbait-интересный, но вводящий в заблуждение заголовок новостей, предназначенный для привлечения читателей, чтобы нажимать на ссылки на другие онлайн-истории. Исследователи также запрограммировали машины для создания искусственной наживки. Затем исследователи использовали заголовки от людей и машин в качестве данных для обучения алгоритму обнаружения наживки.

Способность полученного алгоритма предсказывать заголовки clickbait была примерно на 14,5% лучше, чем у других систем, по мнению исследователей, которые опубликовали свои выводы на международной конференции IEEE/ACM 2019 года по достижениям в анализе социальных сетей.

ПОДАЧА АЛГОРИТМА

Помимо его использования в обнаружении clickbait, подход команды может помочь улучшить производительность машинного обучения в целом, говорит Донгвон ли, главный исследователь проекта и доцент колледжа информационных наук и технологий и филиал Института кибернетики в штате Пенн.

"Это шаг к решению фундаментального узкого места контролируемого машинного обучения, которое требует большого количества высококачественных учебных данных.”

По словам Тая Ле, докторанта колледжа информационных наук и технологий, одной из проблем, стоящих перед развитием обнаружения clickbait, является отсутствие помеченных данных. Так же, как людям нужны учителя и учебные пособия, чтобы помочь им учиться, модели ИИ нуждаются в данных, которые помечены, чтобы помочь им научиться создавать правильные связи и ассоциации.

“Одна из вещей, которую мы поняли, когда начали этот проект, заключается в том, что у нас нет много положительных точек данных”, - говорит Ле. “Чтобы идентифицировать наживку, нам нужно, чтобы люди помечали эти обучающие данные. Необходимо увеличить количество положительных точек данных, с тем чтобы в дальнейшем мы могли обучать лучшие модели.”

-2

ОХОТА НА НАЖИВКУ

Хотя найти clickbait в интернете может быть легко, его многочисленные вариации добавляют еще один уровень сложности, по словам С. Шям Сундара, профессора медиа-эффектов и содиректора исследовательской лаборатории медиа-эффектов.

“Есть clickbaits, которые являются списками или листиками; есть clickbaits, которые формулируются как вопросы; есть те, которые начинаются с who-what-where-when; и все виды других вариаций clickbait, которые мы идентифицировали в нашем исследовании на протяжении многих лет”, - говорит Сундар. "Таким образом, нахождение достаточного количества образцов всех этих типов clickbait является сложной задачей.

По словам исследователей, исследование показывает различия в том, как люди и машины подходили к созданию заголовков. По сравнению с машинной наживкой, заголовки, генерируемые людьми, как правило, имеют больше определителей-таких слов, как “что” и “то”—в своих заголовках.

Обучение также, по-видимому, вызвало различия в создании clickbait. Например, подготовленные писатели, такие как журналисты, как правило, используют более длинные слова и больше местоимений, чем другие участники. Журналисты также были склонны использовать цифры, чтобы начать свои заголовки.

"Для нас clickbait-это всего лишь один из многих элементов , которые составляют поддельные новости, но это исследование является полезным подготовительным шагом, чтобы убедиться, что у нас есть хорошая система обнаружения clickbait”, - говорит Сундар.

Подписывайтесь и ставьте лайк