Найти в Дзене
OVERCLOCKERS.RU

Microsoft представила небольшую модель ИИ, но мощную как ChatGPT и способную работать на телефонах

Инструменты искусственного интеллекта, такие как Microsoft Copilot, OpenAI ChatGPT или Google Gemini, и модели, которые их поддерживают, размещаются в облаках с огромными мощностями. Эти модели имеют миллиарды или даже триллионы параметров и, естественно, не могут работать на смартфонах или компьютерах. Однако компания Microsoft представила малогабаритную модель Phi-3 Mini, которая может предложить производительность, аналогичную самым большим языковым моделям на рынке.

Phi-3 Mini, одна из трех компактных языковых моделей ИИ, над которыми работает Microsoft, имеет вес 3,8 млрд параметров. В ближайшее время Microsoft планирует дополнить это семейство моделями Phi-3 Small (7 млрд параметров) и Phi-3 Medium (14 млрд). Microsoft утверждает, что Phi-3 Mini, несмотря на свои небольшие размеры, по мощности не уступает другим огромным моделям, которые в 10 раз больше ее.

Согласно данным, предоставленным Microsoft, которые вы можете видеть на изображении ниже, Phi-3 Mini может конкурировать с GPT-3.5 с 175+ млрд параметров, на котором работает ChatGPT, моделью Mixtral 8x7B от Mistral и моделью Claude 3 Sonnet от Anthropic. Не забывайте, что Phi-3 Mini - это модель ИИ, которая работает на устройстве, как смартфоны, и не требует подключения к облаку.

-2

Как правило, для более "интеллектуальных" моделей ИИ требуется больше параметров. Параметры в ИИ - это переменные, которые модель узнает в процессе обучения. Это внутренние переменные, которые модель использует для прогнозирования или принятия решений. Большее количество параметров обычно означает более глубокое понимание ваших запросов. Однако параллельно растут и требования к вычислениям.

С другой стороны, исследователи Microsoft утверждают, что добились удивительных результатов в Phi-3 Mini за счет улучшения самих обучающих данных. Современные массивные модели ИИ обучаются на "всем", что есть в Интернете и в библиотеках. В этом наборе данных могут быть как бесполезные, так и полезные вещи. Microsoft обучала Phi-3 Mini на тщательно подобранном наборе данных, состоящем из высококачественного веб-контента и синтетически сгенерированного материала, разработанного на основе предыдущих моделей Phi. Это обеспечило высокую производительность модели для ее размера. Одним словом, упор был сделан на качество, а не на количество.

При этом модель может одновременно обрабатывать до 4 000 токенов контекста, а также доступна специальная версия с 128 токенами. Microsoft сделала эту модель доступной с открытым исходным кодом на Azure, Hugging Face и Ollama. В ближайшее время компания планирует запустить Phi-3 Small (7B параметров) и Phi-3 Medium (14B параметров).