Суть: би-encoder быстрый и масштабируемый, но теряет взаимодействие между запросом и документом. Cross-encoder читает пару 'запрос+документ' вместе и решает противоречия — это сильнее, но медленнее. Поэтому в production работает двухэтапная схема: быстрый отбор → точный rerank. Разбор от владельца: для меня это про деньги и свободу. Правильный rerank снижает количество ненужных генераций и GPU-времени, semantic cache может экономить ~76% ранжирований, а distillation даёт почти cross-encoder качество на скорости bi-encoder — меньше серверов, меньше ФОТ, меньше контроля ручками. Финал: как вы балансируете точность и стоимость в своих RAG-пайплайнах? #RAG #bi-encoder #cross-encoder #rerank #semantic-cache
Когда поиск выдаёт 'нормально', но не 'отлично' — часто виноват reranking
12 апреля12 апр
~1 мин