1293 подписчика
Если вы думаете заниматься обработкой больших данных, то присмотритесь к такому удивительному инструменту, как manticore search. Легко найдете. Позволяет делать очень быстрый поиск по огромному количеству документов.
Мы активно используем в процессе создания баз компаний (и парсинга) такой движок как Elastic Search, так вот, Manticore в 15.6 раз быстрее Эластика на тесте в 1.1 миллиона документов. См. картинку.
К сожалению, нам очень сложно уйти от Elastic, но новый проекты (в частности наш поисковик по Интернет- магазинам poisk.im) мы сразу делаем на базе Manticore.
Что важно - он open source и можно подаваться в реестр Минцифры РФ для аккредитации вашего ПО.
p.s. простите за технический пост, но я просто делюсь опытом. Лично меня очень привлекает бизнес, связанный с обработкой больших массивов данных, т.к. считаю это очень перспективным. Отсюда и желание разобраться в технологиях поиска.
Около минуты
22 февраля 2024