Найти в Дзене
47,8 тыс подписчиков

В семействе трансформеров T5 пополнение. Уже были базовый T5 (и улучшенный T5.1.1), мультиязычный mT5 , байтовый byT5 , а теперь вот мультизадачный ExT5. Следующим должен стать мультиязычный мультизадачный, а там и до байтового мультизадачного мультиязычного недалеко.


Семейство T5 в целом как-то недооценено. И вообще почему-то полные encoder-decoder трансформеры недооценены, что T5, что семейство BART (https://t.me/gonzo_ML/153). Топ применений, кажется, собрали половинки трансформеров, или энкодеры (семейство BERT), или декодеры (семейство GPT, https://t.me/gonzo_ML/305). Хотя полные трансформеры в принципе более богаты, так как декодер полного трансформера имеет возможность “смотреть” на эмбеддинги энкодера через encoder-decoder self-attention (а в чистом декодере типа GPT этот блок выпилен), а это как бы увеличивает эффективный attention span и в трансформер можно загнать больше данных. И кроме того полная архитектура позволяет комбинировать

Около минуты