Почему векторные базы данных (FAISS, Milvus) не решают проблему семантического поиска?
Семантический поиск — это когда система ищет по смыслу, а не по ключевым словам. За последние годы векторные базы данных (FAISS, Milvus, Qdrant) стали стандартом де-факто. Но насколько они идеальны? Расскажу, с чем столкнулся в своих исследованиях.
Как работают векторные БД
Любой объект (текст, изображение) превращается в эмбеддинг — точку в многомерном пространстве. Поиск похожего — это поиск ближайших точек. FAISS делает это быстро даже для миллиардов векторов. Всё логично.
Проблема 1: статичность
Эмбеддинг вычисляется один раз и застывает. Если смысл со временем меняется или появляются новые данные, статический вектор не адаптируется. Настоящий семантический поиск должен уметь обновлять представления без полного переобучения модели.
Проблема 2: игнорирование неопределённости
Эмбеддинг всегда даёт одну точку, даже если объект размытый или модель не уверена. В зашумлённых данных это приводит к ошибкам. В наших экспериментах при добавлении шума точность статических методов падала на 12%, а у подходов с учётом неопределённости — всего на 5%.
Проблема 3: катастрофическое забывание
Векторные БД не обучаются на новых данных. Чтобы обновить эмбеддинги, нужно переобучить модель и переиндексировать всю базу. Для многих компаний это простой на часы или дни.
Что вместо?
Мы предложили парадигму Нейровесовых Полей (Neural Weight Fields, NWF). Каждый объект кодируется в параметры небольшой нейросети, при этом сохраняется его «зона неопределённости» (ковариация). Поиск — это оценка перекрытия этих зон. Система устойчива к шуму, адаптируется инкрементально и даёт более высокое семантическое сжатие.
🔬 Подробности — в препринте:
Подписывайтесь, чтобы не пропустить новые эксперименты и разборы архитектуры!
#семантический_поиск #векторные_базы_данных #FAISS #Milvus #NWF #нейросети #байесовский_вывод #наука_о_данных #препринт
1 минута
23 марта