Найти в Дзене

ночью вышел Qwen 3, c чем я всех и поздравляю; и без меня разберут метрики на разнообразных бенчмарках, но мой коллега обратил внимание на

ночью вышел Qwen 3, c чем я всех и поздравляю; и без меня разберут метрики на разнообразных бенчмарках, но мой коллега обратил внимание на интересный аспект: как поменялась архитектура Qwen 3 по сравнению с Qwen 2.5 (первая и вторая картинки соотв.); количество слоев во всех вариантах осталось тем же (кроме самой маленькой модельки), но везде увеличилось количество голов внимания

универсальная теорема аппроксимации наносит ответный удар? напомню формулировку на всякий случай:

искусственная нейронная сеть с достаточным количеством нейронов в слое может приблизить любую непрерывную функцию

(вот тут неплохое изложение теории)

-2