Найти тему
Машинное обучение

AI против Momentum: прогнозирование цен на акции с использованием настроений в социальных сетях

Оглавление

Поскольку корпоративный ландшафт развивается, а социальные сети продолжают влиять на деловой мир, мы решили провести исследование с использованием искусственного интеллекта (ИИ), чтобы понять, сможем ли мы понять взаимосвязь между курсом акций компании и восприятием компании общественностью как определяется «настроениями» этой компании в социальных сетях в Twitter. Чтобы увидеть, можем ли мы найти взаимосвязь между ценами на акции и настроениями, мы использовали технологию искусственного интеллекта, чтобы проанализировать скорость изменения цены акций компании на основе настроений, используя анализ твитов, в которых упоминается компания. Сопоставив цену акций компании и настроения в Twitter, мы смогли увидеть закономерности, указывающие на то, что настроения в социальных сетях можно использовать как инструмент для оценки восприятия бренда общественностью.

-2

Существующие исследования

Существующие исследования
Существующие исследования

Чтобы определить, могут ли настроения в социальных сетях быть связаны с тенденциями цен на акции, мы начали с рассмотрения более ранних исследований, которые указывают на наличие корреляции между настроениями в Twitter и тенденциями цен на акции. Исследование показывает, что тенденции в социальных сетях являются, пожалуй, наиболее важным хранилищем общественных настроений. Существует сильная корреляция между ростом или падением цен на акции компании и общественным мнением или эмоциями по поводу этой компании, выраженными в Твиттере через твиты. Есть также свидетельства причинно-следственной связи между настроениями общественности и моментами на фондовом рынке с точки зрения взаимосвязи между настроением (на основе среднего дневного настроения в Twitter) и ценой закрытия. Кроме того, мы видим, что полярность настроений пиков Twitter подразумевает направление совокупной аномальной доходности.

Наша модель

Чтобы увидеть, сможем ли мы найти связь, наша модель использовала настроения компании в Twitter и коррелировала с доходностью акций. Для изучения доходности акций мы использовали скорость изменения цены; цена закрытия акции компании за один день минус цена закрытия акции в предыдущий день, деленная на цену закрытия акции в предыдущий день. Скорость изменения цены - это пропорция, на которую цена акций компании увеличивается или уменьшается в течение дня.

Применение машинного обучения

Наши модели машинного обучения использовали пять входных функций или точек данных , чтобы предсказать целевые переменные (скорость изменения курса акций). Наши входные функции использовали следующие точки входных данных в заданный день:

- Количество опубликованных позитивных твитов, опубликованных сегодня

- Количество негативных твитов, опубликованных сегодня

- Количество положительных твитов, опубликованных вчера

- Количество негативных твитов, опубликованных вчера

- Скорость изменения сегодняшнего курса акций

Модель машинного обучения
Модель машинного обучения

С помощью машинного обучения мы можем использовать эти входные функции и обучать модель. Входные функции могут использовать миллионы точек данных для создания модели, которая учится прогнозировать, какой будет целевая переменная.

Модель управления

Модель управления - это модель, которая предсказывает сегодняшнюю скорость изменения курса акций (ROC) на основе вчерашней скорости изменения курса акций.

-5

Мы сравниваем нашу модель с моделью контроля, которая, по сути, представляет собой тот же процесс, за исключением настроений Twitter. Это важно, потому что, если мы получаем хорошие результаты от нашей модели, мы хотим убедиться, что настроения в Твиттере создавали значимую информацию. Если модель контроля работает лучше, чем наша модель, это означает, что настроения в Twitter не коррелируют со скоростью изменения курса акций.

Инструменты, используемые в нашей модели

Для запуска нашей модели мы использовали следующие программы:

-6

Twitterscraper - это скрипт Python, доступный бесплатно в Интернете. Это надежный вариант для быстрого сбора большого количества твитов. Мы добывали твиты на основе хэштегов и кэштегов. Cashtags представил Twitter несколько лет назад. Если пользователь Twitter напрямую хочет рассказать о финансовом положении компании или акций, он использует денежный тег ($). Эти данные важны для нашей конкретной модели, поскольку они гарантируют, что люди напрямую говорят об акциях.

-7

Textblob - это инструмент для естественного языка, который доступен бесплатно в Интернете. Textblob - это библиотека Python для обработки текстовых данных, которая предоставляет простой API-интерфейс для решения общих задач обработки естественного языка (NLP). Textblob используется для анализа полярности твитов, независимо от того, являются ли они положительными или отрицательными по тональности.

Чтобы проанализировать наши твиты, мы создали объект Textblob, который представляет собой особый тип объекта Python. Затем мы передаем объект в Textblob, и он выводит число. Это число варьируется от -1 до +1, и это полярность твита. Чем больше отрицательное число, тем больше отрицательных твитов.

-8

Платформа разработчика IEX - это веб-API, предоставляющий данные о котировках и торговле. Это позволяет вам получать доступ к курсам акций компании в режиме реального времени. Поскольку нас больше интересовали исторические данные об акциях, мы использовали модуль Python IEX financial для доступа к ценам закрытия акций Apple и Tesla за двухлетний период с 2016 по 2018 год.

Обучение модели машинного обучения

Для модели обучения машинного обучения набор данных используется для обучения алгоритма, чтобы понять, как применять такие концепции, как нейронные сети, для обучения и получения результатов. Он включает как входные данные, так и ожидаемый результат.

Данные нашей модели организованы по торговым дням. Для каждого торгового дня у нас есть одна точка данных. Каждая из этих точек данных включает пять входных функций, которые помогают предсказать целевую цену. Назначение входных характеристик алгоритма и целевой переменной - это процесс обучения, используемый в этой модели машинного обучения.

-9

Цель обучения машинному обучению - как только мы введем достаточное количество этих входных функций, модель научится предсказывать целевую переменную. Допустим, мы используем модель сегодня, и мы можем проанализировать сегодняшние настроения в Твиттере, вчерашние настроения в Твиттере и сегодняшнюю скорость изменения цен (ROC). Когда у нас будет надежная и надежная модель, мы можем ввести эти функции, и модель сообщит нам, какой, по ее мнению, будет цена ROC на завтра. Для нашей модели мы использовали исторические данные о запасах с 2016 по 2018 год. В течение трех четвертей этого периода мы использовали данные для обучения нашей модели, а в последнем квартале периода мы протестировали модель.

Результаты модели

Для автомобильной компании Tesla мы запустили три модели, используя разные уровни твитов, чтобы увидеть, насколько точной может быть наша модель. На диаграмме синий цвет представляет собой прогнозируемую контрольную скорость изменения (ROC), а красный - фактическую ROC на основе твитов.

-10

Модель Tesla 270,000 твитов

Модель твитов Tesla 27K крайне неточна, она показывает, что нет корреляции с фактическими значениями, тогда как модель управления более точна. Наша модель также имеет высокое значение средней абсолютной ошибки в процентах. Средняя абсолютная процентная ошибка - это средняя пропорция, на которую прогноз отличался от фактического значения. Так что более низкие средние абсолютные проценты лучше. Модель

Tesla 560000 твитов

Модель Tesla 560K очень точна, так как у нас увеличилось количество твитов от модели 270k. Мы видим, как увеличивая объем данных (твитов), мы можем добиться более точных результатов.

-11

Модель Tesla 1.2M Tweets

Используя 1,2 миллиона твитов, модель почти перебила точность контрольной модели.Это означает, что наша модель учится, становится лучше. Чем больше настроений в Твиттере мы сможем изучить, тем лучше будет модель. Этот результат указывает на то, что настроения в Twitter могут быть важным фактором, помогающим определять цены на акции.

-12

Модель Apple 1,7 млн твитов

В этой модели мы использовали тот же процесс, что и для Tesla, и исходные данные для Apple Inc. Модель с 1,7 миллиона твитов показывает, что наши результаты неточны.

Модель Apple 2,7 млн твитов

Увеличивая количество твитов до 2,7 миллионов твитов, наша модель приближается к перехвату модели контроля. Этот результат снова показывает возможную корреляцию между настроениями в Twitter и курсами акций. Как нам улучшить нашу модель?

-13

Хотя мы увидели некоторые интересные результаты с нашей моделью машинного обучения, предстоит еще поработать, чтобы увидеть, сможем ли мы создать предсказуемую корреляцию между настроениями в социальных сетях и фактическими курсами акций.

Одна из областей, которую следует улучшить, - это продолжить обучение нашей модели, чтобы улучшить ее способность проводить анализ настроений. Один из способов сделать это - улучшить способ предварительной обработки текста, например, просмотрев различные варианты написания, сокращения или смайлики, которые используются, и присвоив этим индикаторам тональность.

Далее мы хотели бы изучить другие типы алгоритмов машинного обучения. Пока мы не знаем, можно ли моделировать отношения линейно.

Еще одна область, которую мы хотели бы попробовать, - это использование модели социальных сетей поверх модели количественной торговли, чтобы увидеть, какие результаты это принесет. Если мы будем использовать наш анализ настроений поверх этих моделей, возможно, он будет иметь больше оснований на текущих тенденциях цен на акции, и анализ настроений может добавить некоторую уместную информацию, которая может улучшить эти модели.

-14

Вывод

В этом исследовании «Прогнозирование цен на акции с помощью настроений в социальных сетях» мы попытались выяснить, можно ли использовать настроения в социальных сетях, чтобы помочь нам предсказать тенденции цен на акции компании. Мы использовали модели машинного обучения искусственного интеллекта, чтобы понять взаимосвязь между настроениями двух конкретных компаний, основанными на Twitter, и их корреляцией с ценами на акции, используя крупномасштабный сбор данных из твитов. Мы также исследовали, как различные уровни твитов влияют на точность моделей. Наша модель была крайне неточной при меньшем количестве твитов. Но как только мы увеличили количество твитов, наша модель перехватила точность контрольной модели. Это означает, что чем больше настроений в Твиттере мы сможем проанализировать, тем лучше будет наша модель - это означает, что настроения в Твиттере могут быть важным фактором, помогающим прогнозировать цены на акции. Наши результаты показывают, что негативные и позитивные твиты общественности имеют сильную причинно-следственную связь с движением цен отдельных акций. Хотя анализ настроений сам по себе может быть не так полезен, возможно, лучшим вариантом его использования будет помощь количественным трейдерам в получении преимущества в качестве инструмента, которого нет у их конкурентов с помощью только анализа импульса. Мы знаем, что одна из причин, по которой цены на акции следуют случайному блужданию с очень небольшой точностью, заключается в том, что новости очень сильно влияют на акции. Как мы можем подключиться к новостям? Лучший способ - через сантименты в социальных сетях. Мы считаем, что при дальнейшем развитии этот инструмент можно будет использовать для оценки восприятия бренда общественностью и, таким образом, более точного прогнозирования цены акций с учетом настроений потребителей.

Для получения дополнительной информации посетите наш веб-сайт https://www.accentedge.com/.