Тренды и будущее парсинга в эпоху искусственного интеллекта.
Эта статья о трендах и предсказаниях в области ИИ и парсинга в 2024 году.
Парсинг и ИИ: где мы находимся и как мы сюда попали?
В ноябре 2022 года появился ChatGPT. С того рокового дня искусственный интеллект пережил несколько ребрендингов.
Все началось с апокалиптических спекуляций, напоминающих научно-фантастические фильмы, и страха перед массовой утратой рабочих мест. За этим последовало нечто более скучное и отчасти более предсказуемое. Искусственный интеллект стал матерью всех модных слов. Все компании присоединились к зомби-подобной борьбе, чтобы посыпать это термином на каждый продукт.
Менее чем через год после запуска ChatGPT термин ИИ почти лишен смысла. Кажется, что почти все, что связано с тем, что компьютеры делают, является технологией "на базе искусственного интеллекта".
➡️ Программа для организации ваших фотографий по дате? ИИ!
➡️ Компьютер, распознающий пиксели на изображении? Опять же, ИИ!
➡️ Роботизированная автоматизация процессов? ИИ снова!
➡️ Генерация браузерных отпечатков для избежания обнаружения вашего парсера? Вы угадали! ИИ!
Почти все, что мы автоматизировали или использовали программное обеспечение до ноября 2022 года, было переосмыслено как "технология на базе искусственного интеллекта" в 2023 году. Все это размыло границы между искусственным интеллектом и парсингом. Поэтому, прежде чем рассмотреть, что может произойти в будущем в 2024 году, давайте вспомним, что произошло, и оценим текущее состояние ИИ и парсинга.
ИИ и интернет 🌎
Парсинг был тихим героем/виновником в широком внедрении моделей искусственного интеллекта. Вряд ли это удивительно. Интернет - самый крупный и удобный репозиторий информации, который мы когда-либо знали, и парсинг - наиболее эффективный метод извлечения этой информации.
Все LLM (большие языковые модели) - ChatGPT, Bard, PaLM, Gopher и подобные - были обучены данными, извлеченными из веба. То же самое относится к моделям изображений, таким как Stable Diffusion, DALL-E и Midjourney.
Это был первый случай использования парсинга в области искусственного интеллекта и машинного обучения: извлечение данных для обучения наборов данных.
Возникновение векторных баз данных 🔢
Перед появлением ChatGPT миры машинного обучения и баз данных находились на курсе прямого столкновения. ИИ представлял данные в виде векторов, и ни одна существующая база данных действительно не могла их эффективно управлять. Так появились векторные базы данных.
Созданные для обработки уникальной структуры векторных вложений (плотные векторы чисел, представляющие текст), эти базы данных могут индексировать векторы для удобного поиска и извлечения путем сравнения значений и нахождения тех, которые наиболее похожи друг на друга. Это делает их идеальными для приложений на основе обработки естественного языка и искусственного интеллекта.
Такие векторные базы данных можно использовать для расширения больших языковых моделей долгосрочной памятью, предоставляя свои собственные данные. Вы можете запросить соответствующие документы из вашей базы данных, чтобы обновить контекст, что настраивает конечный ответ на запрос, переданный LLM.
Это был второй случай использования парсинга в области искусственного интеллекта: предоставление данных для питания векторных баз данных
Введение в LangChain 🦜🔗
Появление LangChain в октябре 2022 года было большим событием для искусственного интеллекта. В отличие от вышеупомянутых векторных баз данных, которые предназначены специально для хранения векторов, LangChain является более общей библиотекой, которая упрощает процесс интеграции различных векторных баз данных в приложение.
LangChain подключается к моделям, фреймворкам и платформам искусственного интеллекта, которые вы хотите использовать, таким как OpenAI, Hugging Face и Haystack, и связывает их с внешними источниками. Это означает, что вы можете объединять команды, чтобы модель искусственного интеллекта знала, что ей нужно делать, чтобы предоставить ответы или выполнить задачи, которые вам необходимы.
LangChain быстро стала и остается библиотекой выбора для построения поверх моделей искусственного интеллекта. Среди прочего, это важный элемент в создании настраиваемых чат-ботов на основе искусственного интеллекта, которые в последние несколько месяцев стали наиболее популярным случаем использования искусственного интеллекта (возьмем, например, чат-бот на основе искусственного интеллекта Intercom).
Таким образом, возникло третье применение парсинга, ориентированного на искусственный интеллект: Интеграция собранных данных с LangChain позволяет настраивать модели искусственного интеллекта с актуальной информацией, тем самым преодолевая ограничение памяти LLM и ограничение знаний ИИ только данными, использованными на момент обучения.
💣 OpenAI бросила бомбу:
"Теперь ChatGPT может браузить интернет, чтобы предоставить вам актуальную и авторитетную информацию, включая прямые ссылки на источники. Теперь он не ограничен данными до сентября"
На момент 27 сентября 2023 года знания GPT-4 больше не ограничены данными, использованными на момент обучения.
Плагины GPT 🔌
Еще одним событием, которое открыло широкий спектр применения, являются плагины GPT. Плагины - это инструменты, специально разработанные для языковых моделей, которые помогают ChatGPT получать актуальную информацию, выполнять вычисления или использовать сторонние сервисы.
В этом отношении они выполняют функцию, аналогичную LangChain. Преимущество LangChain перед плагинами ChatGPT, однако, заключается в его совместимости с большинством доступных LLM. Разработчики, использующие ChatGPT, ограничены определением конкретных действий или HTTP-точек входа для вызова языковой моделью. Это затрудняет создание инструментов сторонними разработчиками, которые нуждаются в LLM.
Какое это имеет отношение к парсингу?
Вы можете использовать плагин ChatGPT, такой как Code Interpreter (теперь включен в GPT-4), для написания кода для парсинга веб-сайтов с сложной структурой веб-страниц или с активными протоколами защиты от парсинга. Он может помочь в визуализации вывода, разборе, отладке и выполнении кода, интеграции с исполняемыми файлами программного обеспечения и выполнении других программных задач.
Парсинг для ИИ vs. ИИ для парсинга 💻
Это приводит нас к использованию ИИ для парсинга. До сих пор мы упоминали случаи использования парсинга для ИИ в контексте обучения моделей машинного обучения, подачи данных для векторных баз данных, настройки и доработки LLM, а также создания чат-ботов.
Вопрос в том, действительно ли работают инструменты парсинга с использованием ИИ? И являются ли они действительно ИИ? Как мы сказали в начале, в наши дни почти все, что связано с технологиями, называется ИИ. Это не менее верно для парсинга, и эти две буквы - ИИ - вставляются в практически все средства парсинга, которые существуют.
ИИ стал синонимом "безкодовых" и "низкокодовых" средств парсинга. Переименование их не меняет того, как они работают или что они могут делать. Тем не менее, стоит отметить, что существуют инструменты, которые действительно используют генеративный ИИ для обработки некоторых аспектов парсинга.
Например, Kadoa позволяет парсить без использования селекторов CSS или Path. Вы можете давать команды на естественном языке, и для этого не требуется синтаксис. Тем не менее, возможности таких инструментов в настоящее время ограничены. Для серьезных и масштабных проектов по извлечению данных вам нужна инфраструктура, а не просто "ИИ-усиленный" парсер.
Восхождение мультимодального ИИ🌊
Идея ИИ, обладающего глазами и ушами, может показаться чем-то из научной фантастики, но в некотором смысле это уже происходит. До недавнего времени под ИИ подразумевали почти исключительно чат-ботов (подумайте о веб-интерфейсах Bard, GPT-усиленного Bing и Claude), но в течение последних нескольких месяцев появились новые способы использования ИИ.
Когда был выпущен GPT-4, его приветствовали как мультимодальный ИИ. Однако оказалось, что его мультимодальность так и не увидела света из-за затрат. Но Bing внедрил мультимодальные функции в свой креативный режим, использующий GPT-4, и ChatGPT от OpenAI теперь включает в себя GPT-4V(ision), который может анализировать графику и фотографии. Google также планирует выпустить своего конкурента в области мультимодальности, Gemini, к концу 2023 года.
Мультимодальный ИИ позволяет модели видеть и понимать изображения. Другими словами, ИИ теперь способен описывать и объяснять фотографии, мемы и видео. Это означает, что он даже может создавать отзывы о продуктах на основе их фотографий. Конечно же, ИИ по-прежнему подвержен ошибкам и иногда страдает от галлюцинаций. Тем не менее стало ясно, что мультимодальный ИИ позволяет нам делать вещи, которые раньше были невозможны.
То же самое относится к аудио. Многие, возможно, не знают, что OpenAI представила систему автоматического распознавания речи под названием Whisper в сентябре 2022 года. Эта система голосового текста, которая является частью приложения ChatGPT на мобильных устройствах, более точная и эффективная, чем у Siri и Google. Вместо того чтобы диктовать каждое слово, как это бывает с Google и Siri, вам нужно лишь высказать свою цель, и ИИ выполнит действие, которое вам нужно. Например, вы можете сказать что-то вроде "Мне нужно, чтобы ты написал письмо, поясняющее...", и Whisper создаст то, что вы запросили.
Как это связано с парсингом? Давайте узнаем в наших прогнозах для ИИ и парсинга в 2024 году...
Прогнозы ИИ и парсинга на 2024
Лучшие чат-боты на ИИ 🤖
Мне никогда не удавалось полностью понять, почему компании так любят чат-ботов, учитывая, насколько сильно клиенты их ненавидят. Тем не менее, сочетание парсинга и ИИ означает, что у чат-ботов может быть информация, необходимая для быстрого и эффективного ответа на многие запросы.
Процесс парсинга вашего собственного веб-сайта и передача информации в большую языковую модель означает, что ваши чат-боты могут предоставлять информацию на основе содержимого вашего веб-сайта или документации, чтобы предоставлять точные и достоверные ответы на запросы клиентов. При правильном выполнении чат-боты будут только улучшаться в 2024 году.
Текстовой парсинг будет недостаточным 🖼️
Мультимодальный ИИ, вероятно, станет следующим большим трендом в 2024 году. Это означает, что парсинг текста будет недостаточным для удовлетворения потребностей пользователей. Даже для языковых моделей, таких как GPT, изображения, видео и звук будут такими же важными, как и письменное слово. Мультимодальный ИИ требует извлечения такого контента для разметки данных, необходимых для обучения и питания LLM. Это означает, что методы и инструменты для парсинга мультимедийных данных будут в большом запросе.
Парсеры на ИИ 🦾
Парсинг на ИИ все еще ограничен, но делаются определенные шаги вперед. Компании, утверждающие, что их парсеры работают на ИИ, когда это не так, окажутся на обочине. Эти новые инструменты для парсинга без или с минимальным кодом будут полезны не только тем, кто имеет мало знаний в области кодирования; они также упростят жизнь опытных разработчиков.
Использование инструментов, таких как GPT, может сделать парсеры устойчивее к изменениям на странице, так как не требуются селекторы CSS. Эти селекторы могут перестать работать после редизайна или изменения макета страницы разработчиками, например.
Сможет ли ИИ выполнять масштабный парсинг? 🤔
Большой вопрос:
Сможет ли ИИ справиться с задачами крупномасштабного парсинга?
Самые большие препятствия, с которыми сталкивается любой серьезный проект по парсингу, - это защита от ботов: CAPTCHA, блокировки Cloudflare, ловушки с медом и подобные. Работа с такими проблемами требует надежной инфраструктуры и сложных техник парсинга, таких как умная ротация прокси и генерация отпечатков браузера. ИИ может помочь сделать некоторые задачи по парсингу проще, но учитывая текущие ограничения моделей ИИ, маловероятно, что они смогут справиться с этими вещами без значительного вмешательства человека.
Этические и юридические аспекты использования ИИ и парсинга ⚖️
С учетом медленных изменений юридического положения под ногами сложно предсказать, куда нас приведет законодательство об использовании ИИ и парсинга. Дебаты о юридических ограничениях парсинга и этике сбора данных не новы, но также идет дебат о том, защищено ли авторским правом контент, сгенерированный ИИ.
Законодательство движется не так быстро, как ИИ, и пока кажется, что контент, сгенерированный ИИ, еще не имеет прав на авторскую защиту. Но мы увидим, как развивается законодательство об авторских правах, чтобы узнать, какие ограничения (если они есть) будут установлены на парсинг и использование контента, созданного с использованием ИИ.
AI-моделям потребуется переобучение на больших наборах данных 📚
Еще одна вещь, на которую стоит обратить внимание (возможно, уже в 2024 году), - это необходимость частого переобучения даже самых крупных языковых моделей и других генеративных ИИ. Проблемы деградации ИИ и коллапса моделей означают, что в противном случае эти модели будут только ухудшаться. Единственным жизнеспособным решением является переобучение ИИ-моделей с использованием новых источников эталонных данных, ручной разметки данных и больших объемов данных.
Мы узнали, что генерация синтетических данных только усугубляет проблему, в то время как готовые наборы данных устаревают и сложно настраиваются. Итак, каким будет лучший способ сбора данных для ИИ? Как всегда, это будет парсинг.
Данные - наше любимое дело
Что общего у ИИ и парсинга? Данные. Очень много данных! От обучения и переобучения LLM и подачи данных в векторные базы данных до создания и настройки чат-ботов с использованием ИИ, извлечение веб-данных остается наилучшим решением для систем и приложений ИИ. Пока данные остаются топливом для ИИ, что, скорее всего, и будет в 2024 году, парсинг будет оставаться в бизнесе.
Ещё больше полезной информации, готовых решений и ценных советов — в нашем блоге.
Статья переведена с сайта Apify