Пока мир спорит, какая из языковых моделей лучше—ChatGPT, Gemini или DeepSeek—китайский технологический гигант Tencent решает задать совершенно новый тренд. Встречайте «Hunyuan-T1» — первую в мире ультрабольшую модель, работающую на гибридной архитектуре Transformer-Mamba. В чём её уникальность, почему это важно, и действительно ли пришло время говорить об уходе классических трансформеров на второй план? Архитектура Mamba, о которой ещё недавно знали только специалисты, внезапно становится героем больших языковых моделей. Её особенность — эффективная обработка очень длинных текстов и решение задачи потери контекста, от которой страдают традиционные трансформеры. Главные проблемы классических моделей, с которыми успешно справляется Mamba: Mamba, благодаря линейной вычислительной сложности, позволяет обрабатывать огромные последовательности информации значительно быстрее и дешевле. В Hunyuan-T1 это вылилось в двукратное ускорение обработки запросов по сравнению с обычными моделями трансф
🚀 Tencent Hunyuan-T1: будущее больших моделей на архитектуре Mamba?
23 марта 202523 мар 2025
3 мин