104 подписчика

Новые данные: токенизация без потерь не приводит к избыточности

16 марта16 мар

~1 мин

Недавнее исследование показывает, что токенизация без потерь не уменьшает выразительность языковых моделей и не добавляет ненужной избыточности. Ключевые идеи заключаются в том, что распределение по строкам можно точно воспроизвести с помощью распределения по последовательностям токенов. Согласно данным Чирковой и др. (2023), модели прибавляют вероятность на неканонические токенизации на уровне 0,5–2%. Однако преднамеренное внедрение этого шума с помощью BPE-Dropout может улучшить общие результаты моделей. Это открытие ставит под сомнение общепринятое мнение о том, что токенизация без потерь является идеальным решением. Для разработчиков и исследователей в области машинного обучения это подчеркивает необходимость экспериментов с различными методами токенизации для достижения оптимальных результатов от своих языковых моделей. The post Новые данные: токенизация без потерь не приводит к избыточности appeared first on iTech News.

Оглавление

Подтверждение эффективности токенизации
Практическое применение BPE-Dropout

Подтверждение эффективности токенизации

Практическое применение BPE-Dropout

Согласно данным Чирковой и др. (2023), модели прибавляют вероятность на неканонические токенизации на уровне 0,5–2%. Однако преднамеренное внедрение этого шума с помощью BPE-Dropout может улучшить общие результаты моделей. Это открытие ставит под сомнение общепринятое мнение о том, что токенизация без потерь является идеальным решением.

Для разработчиков и исследователей в области машинного обучения это подчеркивает необходимость экспериментов с различными методами токенизации для достижения оптимальных результатов от своих языковых моделей.

The post Новые данные: токенизация без потерь не приводит к избыточности appeared first on iTech News.