Найти в Дзене

идет подъем интереса к рекуррентным моделям, вот и коллеги из Sakana AI подключились (они периодически выдают что-то интересное, в прошлый

идет подъем интереса к рекуррентным моделям, вот и коллеги из Sakana AI подключились (они периодически выдают что-то интересное, в прошлый раз было про искусственного ученого), они представили архитектуру под сбивающим с названия названием Continuous Thought Machines; по названию я бы предположил, что это одна из современных рассуждающих моделей; но нет, суть подхода показана на картинке (хотя все равно там не особо понятно), больше все мне этот подход напомнил Structured State Space models, наиболее известна из них mamba; еще один референс - это капсулы от Хинтона интересно, что SSM создавались изначально текстов, а вот CTM и капсулы - для картинок (видео); почему CTM, которые рекуррентны по своей природе, не стали тестировать на текстах - загадка; могу порекомендовать также сайт статьи, очень красивые демки, может быть поэтому на текстах и не показывают, что демки не такие залипательные, но и в статье результатов на текстах нет, что странно @valuableai

идет подъем интереса к рекуррентным моделям, вот и коллеги из Sakana AI подключились (они периодически выдают что-то интересное, в прошлый раз было про искусственного ученого), они представили архитектуру под сбивающим с названия названием Continuous Thought Machines; по названию я бы предположил, что это одна из современных рассуждающих моделей; но нет, суть подхода показана на картинке (хотя все равно там не особо понятно), больше все мне этот подход напомнил Structured State Space models, наиболее известна из них mamba; еще один референс - это капсулы от Хинтона

интересно, что SSM создавались изначально текстов, а вот CTM и капсулы - для картинок (видео); почему CTM, которые рекуррентны по своей природе, не стали тестировать на текстах - загадка; могу порекомендовать также сайт статьи, очень красивые демки, может быть поэтому на текстах и не показывают, что демки не такие залипательные, но и в статье результатов на текстах нет, что странно

@valuableai