Одна из основных проблем нейросетей — ограниченное контекстное окно: чем длиннее входной текст, тем сложнее модели удерживать информацию из ранних частей. В 2020–2022 годах исследователи из российского института AIRI (Куратов, Булатов, Бурцев) предложили решение — Recurrent Memory Transformer с токенами памяти, которые позволяют передавать информацию между сегментами длинного текста. Это позволяет увеличивать контекст до миллионов токенов без значительного роста вычислительных затрат. Google напрямую ссылается на эти работы в своей архитектуре Titans, а бенчмарк BABILong от той же команды стал стандартом для оценки работы моделей с длинным контекстом. В общей сложности — более 800 цитирований. Фундамент для одного из ключевых направлений Google Research был заложен в Москве NeuroFlux #Google #искусственныйинтеллект #нейросети #AIRI #архитектура #технологии #исследования #RecurrentMemoryTransformer #бенчмарки #инновации
Google разрабатывает новые архитектуры ИИ, основываясь на идеях российских ученых
26 февраля26 фев
~1 мин