Найти в Дзене
Максим Кульгин

Мне пишут, удивительно- любопытный проект человек делает

Мне пишут, удивительно- любопытный проект человек делает. Если вам лень читать на картинке, цитирую ниже: "Я тут решил себе сделать AI телеграм-бота, который бы мне помогал с диетой. Диетолог получился неплохой, добавил туда информацию о своих предпочтениях в блюдах. Всё ничего, но бот постоянно мне предлагал те продукты, которые можно найти только в специализированных магазинах премиум сегмента, а я затариваюсь в основном в Пятеторчке. Значит нужно вытащить списки продуктов с сайта Пятерочки. Полез туда питоном, и так и сяк, блокирует меня гадский сайт "Ботам тут не место". В итоге нашел на другом сайте перечень продуктов Пятерочки своего региона, видимо какая то компания имеет доступ к API Пятерочки, дергает списки с основного сайта и выкладывает у себя, но у них уже защита лажовая, получилось стырить списки и стоимость продуктов, причем работало даже с раскрыванием списка. Запускаю скрипт, загружается отдельное окно Хрома и там уже скрипт шастает по сайту, раскрывает вкладки, в

Мне пишут, удивительно- любопытный проект человек делает. Если вам лень читать на картинке, цитирую ниже:

"Я тут решил себе сделать AI телеграм-бота, который бы мне помогал с диетой. Диетолог получился неплохой, добавил туда информацию о своих предпочтениях в блюдах.

Всё ничего, но бот постоянно мне предлагал те продукты, которые можно найти только в специализированных магазинах премиум сегмента, а я затариваюсь в основном в Пятеторчке.

Значит нужно вытащить списки продуктов с сайта Пятерочки. Полез туда питоном, и так и сяк, блокирует меня гадский сайт "Ботам тут не место".

В итоге нашел на другом сайте перечень продуктов Пятерочки своего региона, видимо какая то компания имеет доступ к API Пятерочки, дергает списки с основного сайта и выкладывает у себя, но у них уже защита лажовая, получилось стырить списки и стоимость продуктов, причем работало даже с раскрыванием списка.

Запускаю скрипт, загружается отдельное окно Хрома и там уже скрипт шастает по сайту, раскрывает вкладки, в конце отчитывается сколько чего стянул и сохраняет списки в файл.

Далее этот файл со списком продуктов я загружаю через векторизацию в бд Qdrant и подключаю к боту. Вроде ничего так, но жалко что не получилось пробить защиту сайта Пятерочки, и оттуда тянуть списки. Видимо Пятерочка знает основные библиотеки Python для парсинга и блокирует их по каким то признакам.

А писать что-то свое, уникальное, которые будет пробивать защиту, ну не тот вариант, слишком дорого по времени. Если бы мой проект был коммерческим, можно было бы упороться с парсингом Пятерочки."

Сижу и думаю - что только люди не делают :) Фантазеры... Как хобби идея нормальная, но как бизнес - не знаю. Не представляю, кто за это будет готов платить.

Русский ИТ бизнес