Как мы знаем не так давно вышли новые модель Llama 3.2. Новая версия Llama 3.2 стала мультимодальной, что значит, что она теперь может обрабатывать не только текст, но и изображения. Модель может распознавать объекты на картинках по заданным описаниям и даже интерпретировать графики и диаграммы.
На данный момент вышли новые модели с открытым исходным кодом Llama 3.2 1B, 3B, 11B или 90B и др.
Протестировать бесплатно их можно на сайте nvidia - https://build.nvidia.com/meta/llama-3.2-90b-vision-instruct
Кроме этого там доступны: llama 3.1 405b instruct, nemotron 4 340b reward, mistral nemo 12b instruct.
К сожалению русский язык не входит в число официально поддерживаемых языков для модели llama 3.2 90b vision и она плохо справляется с диалогами на русском языке.
Если Вам необходима модель хорошо работающая на русском языке с возможностью обрабатывать и генерировать изображения, а так же понимать речь и отвечать голосом можете воспользоваться бесплатным ботом в telegram: