Найти в Дзене

Анализ данных и машинное обучение. Orange Data Mining.

Оглавление
Изображение для статьи сгененрировала нейросеть Midjourney
Изображение для статьи сгененрировала нейросеть Midjourney

В современных технологиях, объединяемых общим название "Искусственный интеллект", можно выделить две крайне важные, и при этом вполне доступные для демонстрации "Как это работает". Это - анализ данных и машинное обучение. Пока "ИИ" остается просто "вещью в себе", неким черным ящиком, который непонятно как построен и живет по каким-то не постижимым законам, все эти термины и технологии так же окутаны дымкой неизвестности. И очень хочется у тех же учеников эту дымку перед глазами разогнать, показать, как работают те или иные механизмы, встроенные в ИИ.

На текущий момент мы выделяем два ресурса, которые можно использовать с этой целью. Причем, что очень важно, как для ознакомления и демонстрации в старших классах школы, или в ВУЗах, так и для проведения с их использованием реальной работы, создания серьезных коммерческих проектов. В критериях отбора - простота, понятность (несмотря на отсутствие русскоязычного интерфейса) и бесплатность для пользования, в лучшем варианте - открытый код продукта.

Сегодня мы познакомимся с первым из них и посмотрим, где можно получить первичные знания о его использовании.

Orange Data Mining. (https://orangedatamining.com/)

Пример проекта в Orange Data Mining
Пример проекта в Orange Data Mining

Страница загрузки - https://orangedatamining.com/download/

основные поддерживаемые ОС- Windows и MacOS. Под Linux мы не пробовали, но описания установки есть - https://www.geeksforgeeks.org/how-to-install-orange-data-mining-tool-on-linux/

Для Windows есть portable версия. То же самое по содержанию, но просто папка с программой, можно носить с собой на флешке.

-3

Варианты использования

Из названия Orange Data Mining можно понять, что здесь будут технологии, предлагаемые знаменитым Orange: набор инструментов для визуализации данных, машинного обучения и интеллектуального анализа данных с открытым исходным кодом. Важно, что он имеет интерфейс визуального программирования для очень качественного анализа данных и интерактивной визуализации данных.

А еще в названии фигурирует Data mining – интеллектуальный анализ данных, совокупность методов обнаружения в данных ранее неизвестных, нетривиальных и практически полезных закономерностей, получения новых знаний.

Давайте проще. Как все это привязать к школе (я говорю о школе, но еще раз подчеркну - использовать инструментарий Orange Data Mining можно и в студенческих и в коммерческих проектах).

Понятно, что в школе можно использовать просто для демонстрации собственно процесса и подходов. Но все это можно прекрасно подключить к реальным проектам, даже на уровне школы.

Пример 1. В ходе какого либо исследования мы получили большой набор данных. Свели в таблицу. Это могли быть данные, полученные с какого либо датчика, подключенного к распространенным контроллерам, типа Arduino или Esp32, результаты социологических опросов и т.д. Современные учебные робосистемы, например, любимые нами mBot2 от MakeBlock, уже на уровне блоков среды управления имеют встроенную возможность гнать данные потоком через WiFi соединение в таблицы Google. Это очень классная тема для построения различных исследований.

Итак, у нас есть данные в таблице. Мы подключаем их к Orange Data Mining, подключаем механизмы анализа данных и можно проводить целое исследование, искать закономерности, подбирать функции, визуализировать различные параметры и т.д. Например, сейчас один из проектов ребят из школы - сетевого партнера проводится с использованием набора
«Юный нейромоделист» BiTronics Lab. есть потоки данных, которые они снимают нейродатчиками. И эти данные требуют обработки и анализа. Вот здесь как раз уместен Orange Data Mining.

Пример 2. В базу данных Orange Data Mining входит множество готовых сборников "больших данных" различных коммерческих проектов прошлого. На их основе можно учиться строить модели, проводить машинное обучение, подбирать параметры для уточнения и т.д. А можно и на своих данных модель построить).

В общем - это реальный мощный инструментарий, который вполне можно рассмотреть в рамках занятий по информатике, или на каком-то профильном кружке. Или просто при необходимости обработки данных в каком-то конкретном проекте изучить возможности и использовать.

Где посмотреть и как начать пользоваться.

Я уже говорил, что русскоязычный интерфейс в программе отсутствует. Но тут есть хороший аргумент для обучения - в современном мире большинство цифровых инструментов имеют англоязычный интерфейс, им надо учиться пользоваться. Да и в целом освоение проходит хорошо, так как в Orange Data Mining процессы работы над проектом построены, как создание некоей визуальной схемы, перетаскиванием объектов, протягиванием линий зависимостей и т.д. Попробуйте, на самом деле очень интересно.

Сначала думал снять несколько видео про вхождение в анализ данных с Orange Data Mining, но нашел очень неплохие и уже готовые видео, ссылки приложу. А я сделаю инструкции и поснимаю видео по второму инструменту, который мы так же активно используем, облачному ресурсу - https://studio.edgeimpulse.com. Там есть решения, которые мы придумали совсем недавно и интересно будет поделиться.

Итак, ссылки на видео по Orange Data Mining:

Orange Data Mining. Ввод-вывод данных. Основные объекты

Orange Data Mining. Классификация данных

Orange Data Mining. Статистика. Корреляция. Визуализация

Orange Data Mining. Линейная и логистическая регрессии

Вполне достаточно для вхождения.

Для более глубокого погружения можно пройти бесплатный курс на платформе Stepik - Анализ данных просто и доступно (или поискать другие, сейчас вполне можно отыскать варианты))

Курс состоит из 12 видео-уроков по 2 часа и 12 бонусных видео с дополнительными уроками.

Там также много внимания уделено Orange Data Mining, от установки и до решения серьезных практических задач.

В заключение. Если кто-то знает какие-то другие ресурсы/программы схожей тематики и возможностей, которые успешно апробированы на уровне школы, напишите в комментариях. Мир развивается так быстро, что можно просто не отследить)))

p.s. Материалы по второму интересному ресурсу, Edge Impulse, уже начал выкладывать, загляните.