Недавнее исследование показывает, что токенизация без потерь не уменьшает выразительность языковых моделей и не добавляет ненужной избыточности. Ключевые идеи заключаются в том, что распределение по строкам можно точно воспроизвести с помощью распределения по последовательностям токенов. Согласно данным Чирковой и др. (2023), модели прибавляют вероятность на неканонические токенизации на уровне 0,5–2%. Однако преднамеренное внедрение этого шума с помощью BPE-Dropout может улучшить общие результаты моделей. Это открытие ставит под сомнение общепринятое мнение о том, что токенизация без потерь является идеальным решением. Для разработчиков и исследователей в области машинного обучения это подчеркивает необходимость экспериментов с различными методами токенизации для достижения оптимальных результатов от своих языковых моделей. The post Новые данные: токенизация без потерь не приводит к избыточности appeared first on iTech News.
Новые данные: токенизация без потерь не приводит к избыточности
16 марта16 мар
~1 мин