18 подписчиков

Когда поиск выдаёт 'нормально', но не 'отлично' — часто виноват reranking

12 апреля12 апр

~1 мин

Суть: би-encoder быстрый и масштабируемый, но теряет взаимодействие между запросом и документом. Cross-encoder читает пару 'запрос+документ' вместе и решает противоречия — это сильнее, но медленнее. Поэтому в production работает двухэтапная схема: быстрый отбор → точный rerank. Разбор от владельца: для меня это про деньги и свободу. Правильный rerank снижает количество ненужных генераций и GPU-времени, semantic cache может экономить ~76% ранжирований, а distillation даёт почти cross-encoder качество на скорости bi-encoder — меньше серверов, меньше ФОТ, меньше контроля ручками. Финал: как вы балансируете точность и стоимость в своих RAG-пайплайнах? #RAG #bi-encoder #cross-encoder #rerank #semantic-cache

Разбор от владельца: для меня это про деньги и свободу. Правильный rerank снижает количество ненужных генераций и GPU-времени, semantic cache может экономить ~76% ранжирований, а distillation даёт почти cross-encoder качество на скорости bi-encoder — меньше серверов, меньше ФОТ, меньше контроля ручками.

Финал: как вы балансируете точность и стоимость в своих RAG-пайплайнах?

#RAG #bi-encoder #cross-encoder #rerank #semantic-cache