Иногда бывает: нужно собрать информацию с десятка сайтов, чтобы, например, «скормить» её нейросети для анализа, а ты сидишь и вручную копируешь текст, чистишь его от мусора, форматируешь... В общем, рутина, которая съедает кучу времени. И вот недавно наткнулся на информацию об одном интересном проекте с открытым кодом — WaterCrawl. Его описывают как раз как инструмент, который эту головную боль и решает. Это, по сути, целое веб-приложение, созданное для того, чтобы «ползать» по сайтам и превращать их содержимое в готовые данные для больших языковых моделей (LLM). В основе этого софта лежит связка из довольно известных технологий: Python, Django, Scrapy и Celery. Если говорить по-простому, Scrapy — это мощный «паук», который обходит веб-страницы, Django предоставляет удобный веб-интерфейс для управления всем этим, а Celery позволяет выполнять задачи асинхронно, то есть в фоновом режиме. Короче, запустил процесс и пошёл пить кофе, а не ждёшь у экрана, пока всё закончится. Люди пишут,
Замена ручному сбору данных: обзор WaterCrawl — инструмента, который готовит контент для анализа нейросетью
20 октября 202520 окт 2025
15
3 мин