1 подписчик

📝 TabEmbed — универсальные эмбеддинги для таблиц, и версия 0.6B почти вдвое обгоняет текстовые в поиске

ВчераВчера

1 мин

Суть открытия в одном предложении: TabEmbed научили превращать строки таблиц в векторы, которые подходят и для поиска, и для классификации, как будто это единая “карта смысла” для данных. Если сравнить, как модели работают с таблицами “как с текстом” (через текстовые эмбеддинги), то идея TabEmbed ближе к тому, чтобы листать оглавление книги по разделам: модель учитывает числовые значения и связи между колонками, а не просто слова. В самом заметном месте — retrieval — TabEmbed-0.6B даёт MRR@10 = 71.72%, тогда как лучшие текстовые эмбеддинги (8B) держатся около 40.06%: почти двукратный разрыв при той же задаче поиска. Это против ожидания “больше параметров = лучше” и намёкает, что таблицам нужны свои обучающие приоритеты. Ключ к обучению — Positive-aware hard negative mining (отбор сложных отрицательных примеров с учётом того, что именно “похоже”), чтобы сохранять “тонкую” семантику: не только классы, но и нюансы чисел и зависимостей между полями. Что это значит для практики: можно и

Если сравнить, как модели работают с таблицами “как с текстом” (через текстовые эмбеддинги), то идея TabEmbed ближе к тому, чтобы листать оглавление книги по разделам: модель учитывает числовые значения и связи между колонками, а не просто слова.

В самом заметном месте — retrieval — TabEmbed-0.6B даёт MRR@10 = 71.72%, тогда как лучшие текстовые эмбеддинги (8B) держатся около 40.06%: почти двукратный разрыв при той же задаче поиска. Это против ожидания “больше параметров = лучше” и намёкает, что таблицам нужны свои обучающие приоритеты.

Ключ к обучению — Positive-aware hard negative mining (отбор сложных отрицательных примеров с учётом того, что именно “похоже”), чтобы сохранять “тонкую” семантику: не только классы, но и нюансы чисел и зависимостей между полями.

Что это значит для практики: можно индексировать таблицы в Faiss и искать похожие записи по смыслу, а для классификации поверх эмбеддингов обучить простую логистическую регрессию без переобучения самой модели; модели пока, судя по обсуждениям, не везде доступны, но концепция уже прикладная.

Детали и бенчмарк: авторы собрали TabBench (311 датасетов классификации, 30k запросов retrieval) и берут за основу бэкбон Qwen3-Embedding.

#paper #tabembed #Embedding #MRR #retrieval #Faiss #MoE

🔗 TabEmbed: Benchmarking and Learning Generalist Embeddings for Tabular Understanding