AnyCrawl - это такой бодрый "швейцарский нож" для парсинга :)
Он умеет вытаскивать страницы поштучно, обходить целые сайты и при этом не умирать даже на больших объемах. Есть поддержка Google и других поисковиков, можно включить многопоточность и запускать задачи пачками. Плюс встроен ИИ для извлечения структурированных данных в JSON прямо со страниц.
Код открыт, лицензия MIT, технологии знакомые: Node.js, TypeScript, Redis. У проекта уже 1900 звезд на GitHub, 166 форков и 17 наблюдателей - явно не одинокая разработка.
Разработчики активно обновляют документацию и Docker-конфиги, добавляют поддержку прокси и движков для рендеринга JavaScript вроде Playwright и Puppeteer.
Отлична идея, замечу. Мы что-то подобное делаем, но медленно...