коллеги из Google выпустили статью с интересной идеей: вернуться к концепции encoder-decoder (недавно такую модель выпустил Microsoft); суть
коллеги из Google выпустили статью с интересной идеей: вернуться к концепции encoder-decoder (недавно такую модель выпустил Microsoft); суть подхода изложена на первой картинке - берем готовую декодерную модель, в их случае Gemma, и инициализируем все веса декодировщика из нее, веса кодировщика также берутся из декодерной модели, кроме весов внимания, которое учится с нуля; в качестве преимущества подхода заявляется возможность создания несбалансированных...
04:18
1,0×
00:00/04:18
94,6 тыс смотрели · 5 лет назад