2358 подписчиков
“All you need is love,” пели прекрасные Beatles, но у Microsoft иная песня: Language is not all you need. В работе с именно таким названием команда тамошних исследователей представила MLLM — мультимодальную большую языковую модель. Называется она Kosmos-1, и выглядит на первый взгляд действительно как “просто космос!”
Ей на вход можно подавать не только текст, но и картинки и аудио. Пример диалога на картинке здесь; в статье есть еще впечатляющие скриншоты. Приятно, что теперь можно будет общаться с алгоритмом, который умеет не только читать, но и видеть и слышать. Вскорости и рисовать его научат — понятно же, с кем скрещивать:)
Меня, конечно, впечатляет: за годы существования канала еще не было случая, чтоб крутейшие новости таким плотным и пока не собирающимся иссякать потоком поступали бы от Майкрософта. К чему бы это:)
Около минуты
2 марта 2023