Бесплатный инструмент, который вытаскивает чистый текст из любого URL.
Когда нейросеть пытается прочитать обычную страницу, она получает не текст статьи - она получает всё подряд: меню сайта, рекламные блоки, скрипты, куски кода, комментарии к записям. Весь этот мусор нейросеть тоже читает и обрабатывает. Время, деньги, лимиты - всё это уходит на навигацию и баннеры, а не на то, ради чего вы вообще открыли страницу.
Разработчики webclaw измерили это конкретно: одна и та же страница в виде сырого HTML содержит 4820 единиц текста, которые обрабатывает нейросеть. После очистки через webclaw - 1590. Минус 67%. Если вы платите за ИИ-сервис, который считает объём обработанного текста, - вот ваша реальная экономия. Если пользуетесь бесплатным лимитом - вот почему он кончается быстрее, чем хотелось бы.
webclaw - бесплатная программа с открытым кодом, лицензия MIT. Работает на вашем компьютере, данные никуда не уходят. Написана на Rust - языке программирования, который создавался с упором на скорость и надёжность. Страница проекта - на GitHub, автор - разработчик под ником 0xMassi.
Почему нейросеть «не видит» сайты нормально
У большинства нейросетей нет возможности самостоятельно зайти на сайт и прочитать страницу. Они работают только с тем, что вы им даёте. Хотите, чтобы ИИ-помощник разобрал конкретную статью или документацию - нужно либо скопировать текст вручную, либо дать инструменту, который сделает это автоматически.
Платные решения для этого существуют. Самый известный - Firecrawl. По сравнительной таблице со страницы проекта его стоимость попадает в категорию «очень дорого». Для личных задач или небольшого проекта такая подписка не оправдана.
Есть и бесплатные инструменты - Readability, Trafilatura. По данным сравнительных тестов, опубликованных на странице webclaw, программа обгоняет их по точности извлечения текста: 95.1% против 83.5% у Readability и 80.6% у Trafilatura. По скорости тоже: 3.2 миллисекунды на страницу в 100 килобайт, против 8.7 у Readability и 18.4 у Trafilatura.
Важная деталь: webclaw не запускает браузер в невидимом режиме - это громоздкий подход, который раньше использовался повсеместно и требует запуска Chrome ради одного запроса. Вместо этого программа имитирует поведение настоящего браузера на уровне сетевого протокола. Быстрее, легче, без лишних зависимостей.
webclaw против Firecrawl: цена вопроса
Сравнение прямое: Firecrawl - платный сервис, webclaw - бесплатный с открытым кодом. По таблице сравнения со страницы проекта:
Работа на своём компьютере без чужих серверов - есть у webclaw, нет у Firecrawl. Поддержка MCP-протокола для прямой интеграции с ИИ-помощниками - есть у webclaw, нет у Firecrawl. Необходимость запускать браузер - не нужна ни тому, ни другому. Данные по точности извлечения - есть только у webclaw.
Здесь интересный момент: webclaw не просто бесплатная копия чего-то платного. В ряде параметров - MCP-поддержка, скорость, прозрачность кода - он предлагает то, чего у Firecrawl нет вообще. Платите меньше и при этом получаете больше возможностей - такое сочетание редко встречается даже в мире открытого кода.
Десять инструментов, восемь из которых работают без аккаунта
webclaw поставляется как MCP-сервер. MCP - это специальный протокол, который позволяет ИИ-помощникам напрямую вызывать внешние инструменты прямо в процессе разговора. Подключили webclaw к Claude Desktop, Cursor, Windsurf или другому поддерживаемому клиенту - и теперь нейросеть сама обращается к нему, когда ей нужно прочитать страницу. Вы задаёте задачу, программа делает остальное в фоне.
По данным разработчика, из десяти инструментов MCP-сервера восемь работают полностью локально - без аккаунта и без API-ключей. Базовые - сбор текста с одного адреса и пакетная обработка нескольких URL одновременно. Для тех, кому нужно пройтись по целому разделу сайта, - режим автоматического обхода страниц и составление карты ссылок. Дополнительно: отслеживание изменений (сравниваете сохранённый снимок страницы с текущей версией), краткое изложение страницы, извлечение конкретных данных по запросу на обычном языке, выгрузка фирменного стиля сайта - цветов, шрифтов, логотипов. Два оставшихся инструмента - поиск и многоисточниковое исследование - требуют подключения к стороннему поисковому сервису.
Установить MCP-сервер можно одной командой в терминале - программа сама определяет, какие ИИ-клиенты установлены на компьютере, и настраивает всё автоматически. Если вы никогда не работали с терминалом, пошаговая инструкция есть на странице проекта. Альтернативный вариант запуска - через Docker, программу-контейнер для изолированного запуска приложений.
Пять форматов вывода на выбор: обычный текст, структурированный текст в формате Markdown, JSON (удобен для автоматической обработки другими программами), HTML и специальный режим, оптимизированный под работу с нейросетями - именно он даёт те самые минус 67% по объёму.
Откуда webclaw берёт скорость
Как указано на странице проекта, webclaw написан на Rust - языке программирования, который создавался с целью работать быстро и не давать сбоев. Это не маркетинговое заявление: в тестах на 50 разных страницах программа обрабатывает 100 килобайт HTML за 3.2 миллисекунды. Ближайшие бесплатные конкуренты - в 2.7 и 5.7 раза медленнее соответственно.
При автоматическом обходе нескольких страниц разница ещё заметнее. По данным из таблицы на странице проекта, при 20 параллельных потоках webclaw обрабатывает 32.1 страницы в секунду. Ближайший конкурент в том же тесте - 21.8 страницы в секунду.
Это важно, когда вам нужно не одну страницу прочитать, а пройтись по всему разделу документации или мониторить несколько источников одновременно. Там, где медленный инструмент будет работать минуты, webclaw справится за секунды.
Коммерческие сервисы берут деньги в том числе за производительность - за быструю инфраструктуру и надёжные серверы. webclaw предлагает сопоставимую скорость прямо на вашем устройстве, без ежемесячной платы.
Когда webclaw пасует
Есть категория сайтов, которые активно защищаются от автоматического сбора данных - сложные системы проверки, которые требуют полноценного запуска браузера. Локальная версия webclaw с такими справляется не всегда.
Для этих случаев разработчик предлагает подключение к облачному API через webclaw.io. Это опциональное платное расширение, не обязательная часть программы. Бесплатная локальная версия пробует справиться первой - облако включается только если локально не вышло.
Привычного окна с кнопками нет. Всё управление - через командную строку, программный интерфейс или через ИИ-помощника с MCP. Для тех, кто рассчитывает нажать одну кнопку и сразу получить результат, - барьер реальный.
Документация на английском языке. Готовых мануалов на русском пока нет - если что-то пойдёт не так, разбираться придётся по оригиналу.
На мой взгляд, webclaw - редкий случай, когда бесплатная программа с открытым кодом не просто «похожа» на платный аналог, а по конкретным измеримым показателям его превосходит. Минус 67% токенов - это не рекламное обещание, это число из сравнительного теста, методологию которого можно проверить на странице проекта. Такие вещи приятно видеть.
Интересно другое: насколько вы вообще уже используете нейросети для работы с конкретными сайтами - или пока в основном даёте им текст, который сами нашли и скопировали?
Источник: webclaw
🔔 Подпишитесь на КликХак - здесь только то, что можно скачать и попробовать прямо сейчас.