80 подписчиков
Hugging Face снимают барьер для входа в ML: представили возможность обращения к AI-моделям естественным языком — Transformer Agents.
Можно давать задания 100,000+ моделей HF, общаясь с Transformers и Diffusers. Агенты полностью мульти-модальны: поддерживают текст, изображения, видео, аудио, документы.
Распознаём что на картинке командой:
agent.run("Caption the following image", image=image)
Зачитываем вслух с помощью:
agent.run("Read the following text out loud", text=text)
Набор инструментов, курируемый HF:
* Ответы на вопросы по документам: дается документ (например, PDF) в формате изображения.
* Ответы на вопросы по тексту: дается длинный текст и вопрос (Flan-T5).
* Cоздание подписей к изображениям (BLIP)
* Ответы на вопросы по изображению (VILT)
* Сегментация изображения (CLIPSeg).
* Преобразование речи в текст: получить аудиозапись разговора человека, расшифровать речь в текст (Whisper).
* Преобразование текста в речь (SpeechT5)
* Классификация текста с нулевым результатом: дается текст и список меток, модель определит, какой метке соответствует текст больше всего (BART)
* Суммаризация текста (BART)
Пользователям доступны и кастомные инструменты:
* Загрузчик текста с веб-адреса
* Text-2-Image (SD)
* Img-2-img (instruct pix2pix)
* Text-2-video (damo-vilab)
1 минута
11 мая 2023