Суть открытия в одном предложении: TabEmbed научили превращать строки таблиц в векторы, которые подходят и для поиска, и для классификации, как будто это единая “карта смысла” для данных. Если сравнить, как модели работают с таблицами “как с текстом” (через текстовые эмбеддинги), то идея TabEmbed ближе к тому, чтобы листать оглавление книги по разделам: модель учитывает числовые значения и связи между колонками, а не просто слова. В самом заметном месте — retrieval — TabEmbed-0.6B даёт MRR@10 = 71.72%, тогда как лучшие текстовые эмбеддинги (8B) держатся около 40.06%: почти двукратный разрыв при той же задаче поиска. Это против ожидания “больше параметров = лучше” и намёкает, что таблицам нужны свои обучающие приоритеты. Ключ к обучению — Positive-aware hard negative mining (отбор сложных отрицательных примеров с учётом того, что именно “похоже”), чтобы сохранять “тонкую” семантику: не только классы, но и нюансы чисел и зависимостей между полями. Что это значит для практики: можно и
📝 TabEmbed — универсальные эмбеддинги для таблиц, и версия 0.6B почти вдвое обгоняет текстовые в поиске
ВчераВчера
1 мин