Китайские компании продолжают выпускать модели ИИ, которые по возможностям конкурируют с системами, разработанными OpenAI и другими американскими компаниями в области ИИ.
На этой неделе MiniMax , стартап, поддерживаемый Alibaba и Tencent, который привлек около $850 млн венчурного капитала и оценивается более чем в $2,5 млрд, представил три новые модели: MiniMax-Text-01, MiniMax-VL-01 и T2A-01-HD. MiniMax-Text-01 — это только текстовая модель, в то время как MiniMax-VL-01 может понимать как изображения, так и текст. T2A-01-HD, тем временем, генерирует аудио — в частности, речь.
MiniMax утверждает, что MiniMax-Text-01, размер которого составляет 456 миллиардов параметров, работает лучше, чем такие модели, как недавно представленная Google Gemini 2.0 Flash, на таких бенчмарках, как MMLU и SimpleQA, которые измеряют способность модели отвечать на математические задачи и вопросы, основанные на фактах. Параметры примерно соответствуют навыкам решения проблем модели, и модели с большим количеством параметров, как правило, работают лучше, чем модели с меньшим количеством параметров.
Что касается MiniMax-VL-01, MiniMax утверждает, что он соперничает с Claude 3.5 Sonnet от Anthropic в оценках, требующих мультимодального понимания, таких как ChartQA, который ставит перед моделями задачу отвечать на запросы, связанные с графиками и диаграммами (например, «Каково пиковое значение оранжевой линии на этом графике?»). Конечно, MiniMax-VL-01 не превосходит Gemini 2.0 Flash во многих из этих тестов. GPT-4o от OpenAI и открытая модель под названием InternVL2.5 также превосходят его в нескольких.
Следует отметить, что MiniMax-Text-01 имеет чрезвычайно большое контекстное окно. Контекст модели, или контекстное окно, относится к входным данным (например, тексту), которые модель рассматривает перед генерацией выходных данных (дополнительный текст). С контекстным окном в 4 миллиона токенов MiniMax-Text-01 может проанализировать около 3 миллионов слов за один раз — или чуть больше пяти копий «Войны и мира».
Для контекста (без каламбура), окно контекста MiniMax-Text-01 примерно в 31 раз больше, чем у GPT-4o и Llama 3.1.
Последняя из моделей MiniMax, выпущенная на этой неделе, T2A-01-HD, представляет собой аудиогенератор, оптимизированный для речи. T2A-01-HD может генерировать синтетический голос с регулируемой модуляцией, тоном и тенором примерно на 17 различных языках, включая английский и китайский, и клонировать голос всего из 10 секунд аудиозаписи.
MiniMax не опубликовала результаты бенчмарков, сравнивающих T2A-01-HD с другими моделями, генерирующими звук. Но для уха этого репортера выходы T2A-01-HD звучат наравне с аудиомоделями от Meta и стартапов вроде PlayAI .
За исключением T2A-01-HD, которая доступна исключительно через API MiniMax и платформу искусственного интеллекта Hailuo, новые модели MiniMax можно загрузить с GitHub и платформы разработки искусственного интеллекта Hugging Face.
Однако тот факт, что модели «открыто» доступны, не означает, что они не заблокированы в определенных аспектах. MiniMax-Text-01 и MiniMax-VL-01 не являются по-настоящему открытыми исходными кодами в том смысле, что MiniMax не выпустила компоненты (например, данные для обучения), необходимые для их воссоздания с нуля. Более того, они находятся под ограничительной лицензией MiniMax, которая запрещает разработчикам использовать модели для улучшения конкурирующих моделей ИИ и требует, чтобы платформы с более чем 100 миллионами активных пользователей в месяц запрашивали специальную лицензию у MiniMax.
MiniMax была основана в 2021 году бывшими сотрудниками SenseTime, одной из крупнейших китайских фирм ИИ. Проекты компании включают такие приложения, как Talkie, ролевая платформа на базе ИИ по образцу Character AI , и модели преобразования текста в видео, которые MiniMax выпустила в Хайлуо.
Некоторые продукты MiniMax стали предметом небольших споров.
Приложение Talkie, которое было удалено из App Store компании Apple в декабре по неуказанным «техническим» причинам, содержит искусственный интеллект-аватары публичных личностей, включая Дональда Трампа, Тейлор Свифт, Илона Маска и Леброна Джеймса, ни один из которых, по-видимому, не давал согласия на размещение в приложении.
В декабре журнал Broadcast сообщил , что видеогенераторы MiniMax могут воспроизводить логотипы британских телеканалов, что говорит о том, что модели MiniMax были обучены на контенте этих каналов. А MiniMax, как сообщается, подает в суд на iQiyi, китайский сервис потокового видео, который утверждает, что MiniMax незаконно обучался на записях iQiyi, защищенных авторским правом.
Новые модели MiniMax появились через несколько дней после того, как уходящая администрация Байдена предложила более жесткие правила экспорта и ограничения на технологии ИИ для китайских предприятий. Компаниям в Китае уже было запрещено покупать передовые чипы ИИ, но если новые правила вступят в силу в том виде, в котором они написаны, компании столкнутся с более строгими ограничениями как на полупроводниковые технологии, так и на модели, необходимые для начальной загрузки сложных систем ИИ.
В среду администрация Байдена объявила о дополнительных мерах, направленных на недопущение в Китай сложных чипов. Компании по производству и упаковке чипов, которые хотят экспортировать определенные чипы, будут подвергаться более широким лицензионным требованиям, если они не будут проявлять большую осмотрительность и должную осмотрительность, чтобы не допустить попадания своей продукции к китайским клиентам.