идет подъем интереса к рекуррентным моделям, вот и коллеги из Sakana AI подключились (они периодически выдают что-то интересное, в прошлый раз было про искусственного ученого), они представили архитектуру под сбивающим с названия названием Continuous Thought Machines; по названию я бы предположил, что это одна из современных рассуждающих моделей; но нет, суть подхода показана на картинке (хотя все равно там не особо понятно), больше все мне этот подход напомнил Structured State Space models, наиболее известна из них mamba; еще один референс - это капсулы от Хинтона интересно, что SSM создавались изначально текстов, а вот CTM и капсулы - для картинок (видео); почему CTM, которые рекуррентны по своей природе, не стали тестировать на текстах - загадка; могу порекомендовать также сайт статьи, очень красивые демки, может быть поэтому на текстах и не показывают, что демки не такие залипательные, но и в статье результатов на текстах нет, что странно @valuableai
идет подъем интереса к рекуррентным моделям, вот и коллеги из Sakana AI подключились (они периодически выдают что-то интересное, в прошлый
15 мая 202515 мая 2025
2
~1 мин