Фиксики 🥁🎺🎸 БОЛЬШОЙ сборник фиксипелок - Песенки для детей
📌 Ai2: Гибридные модели и трансформеры по-разному работают с текстом
Институт Аллена опубликовал работу, в которой выяснили, как архитектура моделей влияет на понимание текста. Спойлер: гибридные модели лучше улавливают смысл, а классические трансформеры точнее копируют данные. Для эксперимента взяли 2 собственные языковые модели - Olmo 3 и Olmo Hybrid. Обе обучались абсолютно одинаково, отличалось лишь их внутреннее устройство. 🟢Olmo 3: классический decoder-only трансформер 🟠Olmo Hybrid: гибрид c чередованием слоев RNN и трансформеров в пропорции 3:1 Трансформеры используют механизм внимания на каждом слое...