🌐📱 Grab и проблемы с азиатскими языками
Сингапурская компания Grab, известная своим суперприложением, столкнулась с трудностями в интерпретации азиатских языков. Grab работает в Сингапуре, Малайзии, Индонезии, на Филиппинах, во Вьетнаме, Таиланде, Камбодже и Мьянме. Эти страны используют письменности, отличные от латинского алфавита, что создаёт сложности для распознавания текста.
📜🔍 Проблемы с OCR и LLM
Grab попробовала использовать OCR-системы, но они не справлялись с разнообразием шаблонов документов. Проприетарные LLM также не справлялись с пониманием языков Юго-Восточной Азии. Открытые модели, такие как Vision LLMs, были более эффективными, но недостаточно точными для использования в продакшене.
💡🤖 Разработка собственной модели
Grab решила разработать собственную модель Vision LLM. Компания выбрала модель Alibaba Clouds Qwen2-VL 2B из-за её эффективного размера, поддержки языков Юго-Восточной Азии и динамического разрешения. Для создания модели Grab извлекла контент из Common Crawl и разработала внутреннюю систему синтетических данных.
🔬🎯 Тонкая настройка и результаты
Grab провела полную тонкую настройку параметров модели, обучив её на синтетических наборах данных OCR. Результаты превзошли показатели OCR-инструментов, Qwen2, ChatGPT и Googles Gemini. Компания планирует разработать дополнительные модели на основе Chain of Thought для OCR и извлечения ключевой информации KIE.
🌍🌐 Будущее ИИ в корпоративной среде
Опыт Grab подтверждает прогнозы о будущем ИИ в корпоративной среде. Многие организации будут разрабатывать собственные модели для выполнения специализированных задач, которые не могут быть решены с помощью общих моделей.
#большие_языковые_модели #оптическое_распознавание_символов #юго_восточная_азия
📌 Не забудь подписаться