Найти в Дзене

Создан офлайн-пайплайн RAG на мобильных устройствах с реакцией меньше 200 мс

Разработан новый офлайн-пайплайн RAG (поиск с увеличением извлечения) для мобильной разработки, который обеспечивает поиск за менее чем 200 миллисекунд. Этот проект существенно повышает эффективность мобильных приложений, позволяя делать офлайн-запросы без зависимости от сетевых подключений. Технология включает использование SQLite для хранения векторных индексов и ONNX Runtime для генерации внедрений. Пайплайн совместим с Android и iOS благодаря Kotlin Multiplatform и весит менее 50 МБ, что делает его удобным для мобильных устройств. Архитектура состоит из трёх ключевых этапов: генерация внедрений, поиск по ссылкам и составление контекста. В тестах на Google Pixel 7a пайплайн демонстрировал время отклика около 140 мс при p95, что позволяет быстро обрабатывать запросы пользователей. Установка и интеграция компонентов проста: разработчики используют библиотеку sqlite-vss для работы с данными и минимизируют нагрузку за счет оптимизации кода. Использование KMP позволяет выделить общую лог
Оглавление

Офлайн RAG пайплайн для мобильной разработки

Разработан новый офлайн-пайплайн RAG (поиск с увеличением извлечения) для мобильной разработки, который обеспечивает поиск за менее чем 200 миллисекунд. Этот проект существенно повышает эффективность мобильных приложений, позволяя делать офлайн-запросы без зависимости от сетевых подключений.

Технические детали и преимущества

Технология включает использование SQLite для хранения векторных индексов и ONNX Runtime для генерации внедрений. Пайплайн совместим с Android и iOS благодаря Kotlin Multiplatform и весит менее 50 МБ, что делает его удобным для мобильных устройств.

Архитектура состоит из трёх ключевых этапов: генерация внедрений, поиск по ссылкам и составление контекста. В тестах на Google Pixel 7a пайплайн демонстрировал время отклика около 140 мс при p95, что позволяет быстро обрабатывать запросы пользователей.

Установка и интеграция компонентов проста: разработчики используют библиотеку sqlite-vss для работы с данными и минимизируют нагрузку за счет оптимизации кода. Использование KMP позволяет выделить общую логику для всех платформ, тем самым упрощая сопровождение проекта.

Что это значит для разработчиков? Теперь они могут создавать мобильные приложения с мощными инструментами поиска без необходимости использовать облачные сервисы. Эта технология потенциально увеличивает конкурентоспособность на рынке.

Следующим шагом разработчики планируют оптимизацию модели внедрений, что должно дополнительно повысить скорость обработки запросов.

The post Создан офлайн-пайплайн RAG на мобильных устройствах с реакцией меньше 200 мс appeared first on iTech News.