Найти в Дзене
80 подписчиков

Hugging Face снимают барьер для входа в ML: представили возможность обращения к AI-моделям естественным языком — Transformer Agents.


Можно давать задания 100,000+ моделей HF, общаясь с Transformers и Diffusers. Агенты полностью мульти-модальны: поддерживают текст, изображения, видео, аудио, документы.

Распознаём что на картинке командой:
agent.run("Caption the following image", image=image)

Зачитываем вслух с помощью:
agent.run("Read the following text out loud", text=text)

Набор инструментов, курируемый HF:

* Ответы на вопросы по документам: дается документ (например, PDF) в формате изображения.

* Ответы на вопросы по тексту: дается длинный текст и вопрос (Flan-T5).

* Cоздание подписей к изображениям (BLIP)

* Ответы на вопросы по изображению (VILT)

* Сегментация изображения (CLIPSeg).

* Преобразование речи в текст: получить аудиозапись разговора человека, расшифровать речь в текст (Whisper).

* Преобразование текста в речь (SpeechT5)

* Классификация текста с нулевым результатом: дается текст и список меток, модель определит, какой метке соответствует текст больше всего (BART)

* Суммаризация текста (BART)

Пользователям доступны и кастомные инструменты:

* Загрузчик текста с веб-адреса
* Text-2-Image (SD)
* Img-2-img (instruct pix2pix)
* Text-2-video (damo-vilab)

Hugging Face снимают барьер для входа в ML: представили возможность обращения к AI-моделям естественным языком — Transformer Agents.
1 минута