Добавить в корзинуПозвонить
Найти в Дзене
DenoiseLAB

Обнаружение спама, не так все тривиально как казалось

🏠Вчера бился с задачей обнаружения спама методами Native Bayec. В целом задача давно решенная и написать алгоритм это не так сложно, что я и сделал, но есть одно но. Надо было выкататить решение через новомодную библиотеку PyMC и nutpie. Если что вот ссылки на них: https://github.com/aseyboldt/nutpie и https://github.com/pymc-devs/pymc. Задача более чем решаема и я написал несколько моделей. 💪Но в чем был затык, обнаружение спама, это ка правило две колонки в одной текст в другой метки, типа спам не спам, вот тут пришлось повозится. Да кстати, что потребовалось при сборке, потребовались следущие вещи: https://python.arviz.org/en/0.14.0/index.html - это графики, https://docs.xarray.dev/en/stable/getting-started-guide/installing.html - данные, и графики https://xhistogram.readthedocs.io/en/latest/contributing.html - небольшая надстройка и обшее описание легматизации https://webdevblog.ru/podhody-lemmatizacii-s-primerami-v-python/. Да вот еще ссыль на видосы в ютубчике: https://www.you

🏠Вчера бился с задачей обнаружения спама методами Native Bayec. В целом задача давно решенная и написать алгоритм это не так сложно, что я и сделал, но есть одно но. Надо было выкататить решение через новомодную библиотеку PyMC и nutpie. Если что вот ссылки на них: https://github.com/aseyboldt/nutpie и https://github.com/pymc-devs/pymc. Задача более чем решаема и я написал несколько моделей.

💪Но в чем был затык, обнаружение спама, это ка правило две колонки в одной текст в другой метки, типа спам не спам, вот тут пришлось повозится. Да кстати, что потребовалось при сборке, потребовались следущие вещи:

https://python.arviz.org/en/0.14.0/index.html - это графики, https://docs.xarray.dev/en/stable/getting-started-guide/installing.html - данные, и графики https://xhistogram.readthedocs.io/en/latest/contributing.html - небольшая надстройка и обшее описание легматизации https://webdevblog.ru/podhody-lemmatizacii-s-primerami-v-python/.

Да вот еще ссыль на видосы в ютубчике: https://www.youtube.com/@pymc-devs - можно глянуть, общий тренд складывается такой что мы снова взвращаемся к глубокому погружению в модели и отход от "коробочных" решений типа всяких там бустов и прочего. Оно с одной стороны неплохо, но как-то не всегда дружественно. Хотя... ))))

💥Поддержите нас - подписывайтесь на канал !

🔥Если вы хотите нас поддержать вы можете сделать небольшой вклад на нашей страничке boosty: https://boosty.to/denoise_lab

Мы в Телеграмм: https://t.me/DenoiseLAB

Мы на Profi.ru: https://profi.ru/profile/MironovVO8/

Мы на Repetitor.ru: https://v3.repetitors.info/repetitor/p/MironovVO8/

Мы на YandexDzen: https://dzen.ru/vishmat?lang=ru

Мы на YouDO: https://youdo.com/u9455664

Мы на HabrFreelance: https://freelance.habr.com/freelancers/MLab

Наш второй канал по математике: https://dzen.ru/vishmat