Найти в Дзене
2 подписчика

Краткий анализ Extract-0: специализированная модель для извлечения информации

Extract-0 — это 7-миллиардная языковая модель для извлечения структурированной информации из документов, которая превосходит GPT-4.1, o3 и GPT-4.1-2025 при стоимости обучения всего $196.

Ключевые достижения
Модель достигает среднего вознаграждения 0.573 на 1000 тестовых задач, превосходя GPT-4.1 (0.457), o3 (0.464) и GPT-4.1-2025 (0.459) на 25%. При этом использует в 10-100 раз меньше параметров, демонстрируя преимущество специализации над универсальным масштабированием.

Трёхкомпонентная методология
Генерация синтетических данных (280,128 примеров) с последовательной обработкой чанков и сохранением памяти: Mi=Mi−1∪E(ci)M_i = M_{i-1} \cup E(c_i)Mi=Mi−1∪E(ci). Данные из arXiv, PubMed, Wikipedia и FDA с ограничением 532-1900 токенов на пример.
LoRA-настройка модифицирует только 0.53% весов (40.4M из 7.66B параметров) с рангом r=16 и коэффициентом α=32. Адаптация: W′=W0+αrBAW' = W_0 + \frac{\alpha}{r}BAW′=W0+rαBA.
GRPO с семантической функцией вознаграждения использует сходство эмбеддингов MiniLM для распознавания эквивалентных извлечений: R(y,y∗)=1∣F∣∑f∈FFieldSim(yf,yf∗)R(y, y^*) = \frac{1}{|\mathcal{F}|} \sum_{f \in \mathcal{F}} \text{FieldSim}(y_f, y_f^*)R(y,y∗)=∣F∣1∑f∈FFieldSim(yf,yf∗). Для списков применяется биpartitное сопоставление с порогом 0.35

Результаты обучения
Производительность выросла от базовых 0.232 (валидность JSON 42.7%) до 0.507 после SFT (+118.5%) и 0.573 после GRPO (+147.0% от базы). Валидность JSON увеличилась до 89.0%.
GRPO-обучение за 248 шагов улучшило вознаграждение с 0.488 до пикового 0.661 на шаге 190 (+35.4%), демонстрируя три фазы: исследование, эксплуатацию и конвергенцию.

Практическая значимость
Стоимость $196 (H100 GPU) делает разработку специализированных моделей доступной для организаций с ограниченными ресурсами. Модель особенно полезна для здравоохранения, финансов, юриспруденции и регуляторных секторов, обрабатывающих миллионы документов.

Ограничения
Модель обучена только на английских документах, требует адаптации для высокоспециализированных документов (патенты, медицинские отчеты) и обрабатывает документы независимо, без кросс-документных связей. Семантическая функция вознаграждения может упускать критические нюансы (например, "John Smith" vs "John P. Smith").

Выводы
Исследование доказывает, что целенаправленная оптимизация 7B-модели для конкретной задачи может превзойти универсальные системы на 1-2 порядка больше при радикально меньших затратах. Код и данные открыты на HuggingFace и GitHub, обеспечивая воспроизводимость результатов.scikit-
2 минуты