1547 подписчиков

📌 Тайная слабость нейросетей: почему большие окна работают хуже

1 июня1 июн

~1 мин

Что произошло: Исследование Mechanistic Interpretability показало — увеличение context window не линейно улучшает качество. Модели «теряют» информацию из середины длинных контекстов (middle missing problem). Attention механизм неравномерно распределяет веса — начало и конец окна запоминаются хорошо, середина — нет. Если просто: LRUs (Long Rotation Units) как в холодильнике — свежие продукты видны, а что лежит в середине — забывается. Большой холодильник не значит лучший. Что это значит для тебя: • ML Engineers: при проектировании pipeline важно класть critical info в start/end контекста, не в середину • LLM Application Developers: RAG поверх длинных документов даёт нестабильные результаты — chunking strategy критична • Researchers: открытая проблема — current architectures не решают middle missing, нужно architectural innovation Подвох: Исследование на synthetics tasks, не на real-world NLP. Практический impact зависит отtask. #AI #LLM #MLresearch

Если просто: LRUs (Long Rotation Units) как в холодильнике — свежие продукты видны, а что лежит в середине — забывается. Большой холодильник не значит лучший.

Что это значит для тебя:

• ML Engineers: при проектировании pipeline важно класть critical info в start/end контекста, не в середину

• LLM Application Developers: RAG поверх длинных документов даёт нестабильные результаты — chunking strategy критична

• Researchers: открытая проблема — current architectures не решают middle missing, нужно architectural innovation

Подвох: Исследование на synthetics tasks, не на real-world NLP. Практический impact зависит отtask.

#AI #LLM #MLresearch