Сперва главное:
🔍 Китайский стартап MiniMax, поддерживаемый Alibaba и Tencent, представил три новые модели искусственного интеллекта:
1. MiniMax-Text-01 — модель, работающая только с текстом, которая превосходит Gemini 2.0 Flash от Google по некоторым показателям. Она имеет огромное контекстное окно в 4 миллиона токенов, что позволяет ей анализировать около 3 миллионов слов за один раз.
2. MiniMax-VL-01 — модель, способная понимать как изображения, так и текст, конкурирует с Claude 3.5 Sonnet от Anthropic на тестах, требующих мультимодального понимания. Однако она не превосходит Gemini 2.0 Flash по многим из этих тестов.
3. T2A-01-HD — генератор аудио, оптимизированный для речи, который может создавать синтетический голос с регулируемой каденцией, тоном и тембром примерно на 17 языках. Он также может клонировать голос всего за 10 секунд аудиозаписи.
📊 Модели, кроме T2A-01-HD, можно загрузить с GitHub и платформы Hugging Face. Однако MiniMax-Text-01 и MiniMax-VL-01 не являются полностью открытыми, поскольку MiniMax не выпустила компоненты, необходимые для их воссоздания с нуля.
💡 MiniMax был основан в 2021 году бывшими сотрудниками SenseTime, одной из крупнейших китайских фирм, занимающихся искусственным интеллектом. Некоторые продукты MiniMax стали предметом споров. Например, приложение Talkie было удалено из App Store в декабре по неуказанным «техническим» причинам. Также сообщается, что iQiyi подала в суд на MiniMax за незаконное использование записей, защищённых авторским правом.
⚖️ Новые модели MiniMax появились через несколько дней после того, как администрация Байдена предложила более строгие правила экспорта и ограничения на технологии искусственного интеллекта для китайских предприятий. Компании в Китае уже не могут покупать передовые чипы искусственного интеллекта, но если новые правила вступят в силу, компании столкнутся с более строгими ограничениями как на полупроводниковые технологии, так и на модели, необходимые для создания сложных систем искусственного интеллекта.
Теперь подробнее:
Китайские фирмы продолжают выпускать модели искусственного интеллекта, которые конкурируют по возможностям с системами, разработанными OpenAI и другими американскими компаниями в области ИИ.
На этой неделе стартап MiniMax, поддерживаемый Alibaba и Tencent, привлёк около 850 миллионов долларов венчурного капитала и оценивается более чем в 2,5 миллиарда долларов, представил три новые модели: MiniMax-Text-01, MiniMax-VL-01 и T2A-01-HD.
MiniMax-Text-01 — это модель только для работы с текстом, в то время как MiniMax-VL-01 может понимать как изображения, так и текст. T2A-01-HD, в свою очередь, генерирует аудио, а именно речь.
MiniMax утверждает, что MiniMax-Text-01, размер которой составляет 456 миллиардов параметров, работает лучше, чем такие модели, как недавно представленный Google Gemini 2.0 Flash, по таким тестам, как MMLU и SimpleQA, которые измеряют способность модели отвечать на математические задачи и основанные на фактах вопросы. Параметры примерно соответствуют навыкам решения проблем модели, и модели с большим количеством параметров обычно работают лучше, чем модели с меньшим количеством параметров.
Что касается MiniMax-VL-01, то MiniMax говорит, что она конкурирует с Claude 3.5 Sonnet от Anthropic на оценках, требующих мультимодального понимания, таких как ChartQA, которая ставит перед моделями задачу отвечать на запросы, связанные с графиками и диаграммами (например, «Каково пиковое значение оранжевой линии на этом графике?»). Конечно, MiniMax-VL-01 не превосходит Gemini 2.0 Flash во многих из этих тестов. OpenAI GPT-4o и открытая модель под названием InternVL2.5 также превосходят её по нескольким показателям.
Следует отметить, что у MiniMax-Text-01 очень большое окно контекста. Контекст модели или окно контекста относится к входным данным (например, тексту), которые модель учитывает перед генерацией выходных данных (дополнительного текста). Имея окно контекста в 4 миллиона токенов, MiniMax-Text-01 может проанализировать около 3 миллионов слов за один раз — или чуть более пяти копий «Войны и мира».
Для сравнения окно контекста MiniMax-Text-01 примерно в 31 раз больше, чем у GPT-4o и Llama 3.1.
Последняя из моделей MiniMax, выпущенных на этой неделе, T2A-01-HD, представляет собой генератор звука, оптимизированный для речи. T2A-01-HD может генерировать синтетический голос с регулируемой частотой, тоном и тембром примерно на 17 различных языках, включая английский и китайский, и клонировать голос всего за 10 секунд аудиозаписи.
MiniMax не публиковал результаты тестов, сравнивающих T2A-01-HD с другими моделями генерации звука. Но, на слух этого репортёра, выходные данные T2A-01-HD звучат наравне со звуковыми моделями от Meta и стартапов вроде PlayAI.
За исключением T2A-01-HD, которая доступна исключительно через API MiniMax и платформу Hailuo AI, новые модели MiniMax можно загрузить с GitHub и платформы разработки ИИ Hugging Face.
То, что модели «открыто» доступны, не означает, что они не заблокированы в определённых аспектах. MiniMax-Text-01 и MiniMax-VL-01 на самом деле не являются открытым исходным кодом в том смысле, что MiniMax не выпустила компоненты (например, обучающие данные), необходимые для воссоздания их с нуля. Более того, они находятся под ограничительной лицензией MiniMax, которая запрещает разработчикам использовать модели для улучшения конкурирующих моделей ИИ и требует, чтобы платформы с более чем 100 миллионами активных пользователей в месяц запрашивали специальную лицензию у MiniMax.
MiniMax была основана в 2021 году бывшими сотрудниками SenseTime, одной из крупнейших китайских фирм, занимающихся искусственным интеллектом. Проекты компании включают такие приложения, как Talkie, платформа для ролевых игр на базе искусственного интеллекта, аналогичная Character AI, и модели преобразования текста в видео, которые MiniMax выпустила в Hailuo.
Некоторые продукты MiniMax стали предметом незначительных споров.
Talkie, удалённое из App Store Apple в декабре по неуказанным «техническим» причинам, содержит аватары публичных фигур, созданные с помощью искусственного интеллекта, в том числе Дональда Трампа, Тейлор Свифт, Илона Маска и Леброна Джеймса, ни один из которых, похоже, не дал согласия на использование в приложении.
В декабре журнал Broadcast сообщил, что видеогенераторы MiniMax могут воспроизводить логотипы британских телевизионных каналов, предположив, что модели MiniMax были обучены на контенте этих каналов. Сообщается, что на MiniMax подаёт в суд iQiyi, китайская служба потокового видео, которая утверждает, что MiniMax незаконно использовала записи, защищённые авторским правом iQiyi.
Новые модели MiniMax появились через несколько дней после того, как уходящая администрация Байдена предложила ужесточить правила экспорта и ограничения на технологии искусственного интеллекта для китайских предприятий. Компаниям в Китае уже было запрещено покупать передовые чипы искусственного интеллекта, но если новые правила вступят в силу в нынешнем виде, компании столкнутся с более строгими ограничениями как на полупроводниковые технологии, так и на модели, необходимые для создания сложных систем искусственного интеллекта.
В среду администрация Байдена объявила о дополнительных мерах, направленных на предотвращение попадания сложных чипов в Китай. Производители микросхем и компании, занимающиеся упаковкой, которые хотят экспортировать определённые микросхемы, будут подчиняться более широким лицензионным требованиям, если они не будут проявлять большую осмотрительность и должную осмотрительность, чтобы предотвратить попадание своей продукции китайским клиентам.