214 подписчиков

🚀 Tencent Hunyuan-T1: будущее больших моделей на архитектуре Mamba?

23 марта 202523 мар 2025

3 мин

Пока мир спорит, какая из языковых моделей лучше—ChatGPT, Gemini или DeepSeek—китайский технологический гигант Tencent решает задать совершенно новый тренд. Встречайте «Hunyuan-T1» — первую в мире ультрабольшую модель, работающую на гибридной архитектуре Transformer-Mamba. В чём её уникальность, почему это важно, и действительно ли пришло время говорить об уходе классических трансформеров на второй план? Архитектура Mamba, о которой ещё недавно знали только специалисты, внезапно становится героем больших языковых моделей. Её особенность — эффективная обработка очень длинных текстов и решение задачи потери контекста, от которой страдают традиционные трансформеры. Главные проблемы классических моделей, с которыми успешно справляется Mamba: Mamba, благодаря линейной вычислительной сложности, позволяет обрабатывать огромные последовательности информации значительно быстрее и дешевле. В Hunyuan-T1 это вылилось в двукратное ускорение обработки запросов по сравнению с обычными моделями трансф

Оглавление

🐍 Что такое Mamba и почему это революция?
🧠 Как Tencent создавала «мыслящую» модель?
📊 На что способна Hunyuan-T1?

🐍 Что такое Mamba и почему это революция?

Архитектура Mamba, о которой ещё недавно знали только специалисты, внезапно становится героем больших языковых моделей. Её особенность — эффективная обработка очень длинных текстов и решение задачи потери контекста, от которой страдают традиционные трансформеры.

Главные проблемы классических моделей, с которыми успешно справляется Mamba:

🐌 Медленная скорость работы с длинными текстами
📉 Потеря контекста на больших расстояниях
🔋 Высокое потребление вычислительных ресурсов

Mamba, благодаря линейной вычислительной сложности, позволяет обрабатывать огромные последовательности информации значительно быстрее и дешевле. В Hunyuan-T1 это вылилось в двукратное ускорение обработки запросов по сравнению с обычными моделями трансформеров при тех же условиях развертывания.

🧠 Как Tencent создавала «мыслящую» модель?

В основе Hunyuan-T1 лежит базовая модель TurboS, сочетающая традиционный Transformer и новую архитектуру Mamba. Но самое интересное начинается на этапе «доводки» модели с помощью усиленного обучения (reinforcement learning):

🎯 96,7% вычислительных ресурсов ушло именно на этап усиленного обучения.
📚 Обучение по учебному плану: модель постепенно усложняла свои задачи, начиная с простых задач и переходя к наиболее сложным и длинным контекстам.
♻️ Повторное использование данных и периодический сброс политики: модель регулярно переобучалась на уже известных данных, что повысило её стабильность более чем на 50%.
💡 Самооценка: Hunyuan-T1 училась сама оценивать свои результаты (на основе ранней версии модели), получая за это награды, что позволило ей развивать «самокритику» и значительно улучшить точность и глубину ответов.

📊 На что способна Hunyuan-T1?

Tencent не побоялись замахнуться на крупнейшие тесты, где проверяется не просто знание фактов, а способность модели мыслить и решать сложные задачи:

🎓 MMLU-PRO (оценка общих знаний и памяти): 87,2 балла, второе место после OpenAI O1.
🧪 GPQA-Diamond (профессиональные научные задачи уровня PhD): 69,3 балла, один из лучших результатов в индустрии.
💻 LiveCodeBench (задачи на программирование): 64,9 балла.
📐 MATH-500 (математика высшей сложности): выдающиеся 96,2 балла, практически на уровне лидера DeepSeek R1.
🤖 ArenaHard (задачи на следование инструкциям и взаимодействие с инструментами): 91,9 балла.

Также модель уверенно опережает конкурентов в задачах творческого характера и качественной генерации инструкций.

🤔 Личное мнение автора: стоит ли ждать глобального перехода на Mamba?

Технологический прорыв Tencent может кардинально изменить ландшафт больших языковых моделей. Несмотря на огромную популярность классических трансформеров, эффективность и экономичность Mamba открывают совершенно новые горизонты.

На мой взгляд, это начало новой эпохи моделей, которые способны не просто хранить огромное количество информации, но и эффективно работать с ней, понимая контекст, сохраняя логику и быстро находя связи в огромных объёмах данных.

Hunyuan-T1—это не просто шаг вперёд, это настоящая революция, после которой рынок LLM уже не будет прежним.

🔗 Полезные ссылки и ресурсы:

🌟 Вывод:
Tencent выпустила не просто очередную модель, а задала новый стандарт, продемонстрировав всему миру, что границы возможностей искусственного интеллекта далеко не исчерпаны. Мы явно на пороге новой волны инноваций, и Hunyuan-T1—её яркий предвестник.