Dan Petrovic проанализировал функции внутреннего поиска Chrome и обнаружил информацию, связанную с тем, как он обрабатывает, интерпретирует и анализирует страницы сайта. Алгоритм DocumentChunker Данный алгоритм разбивает страницу на «значимые отрывки», которые затем могут быть использованы для LLM. В частности, есть параметр "max_words_per_aggregate_passage", который ограничивает отрывки всего 30 абзацами (~200 слов каждый). Алгоритм обхода дерева Системы также обрабатывают содержимое по мере его продвижения вниз по дереву документа и в значительной степени полагаются на семантическую структуру HTML. Это означает, что хорошо отформатированный контент (заголовки, маркеры, списки, пары ключ-значение) легче обрабатывается системой. Ограничения на объем данных Также есть параметр "max_passages_per_page", который равен 30. Это означает, что Chrome может извлечь только до 30 различных отрывков на одной странице, независимо от того, насколько длинным является контент. Каждый пассаж закладывае