40,1 тыс подписчиков

GigaChat научился анализировать изображения: от распознавания текста и математических задач до рекомендаций по подбору одежды

1 минута

9 прочтений

8 октября

Система искусственного интеллекта теперь поддерживает работу с изображениями как источником информации и обрабатывает в четыре раза больше данных за один запрос.

Теперь в качестве запроса пользователь может отправить иллюстрацию, чтобы сервис использовал её как дополнительный контекст.

Модель определит, сколько людей на фото, во что они одеты, даст совет по стилю одежды и многое другое.

Также модель научилась распознавать печатный и рукописный текст, формулы, графики, таблицы и анализировать данные, которые в них содержатся. Например, студенты могут сфотографировать часть учебного материала или конспекта, загрузить изображение и в несколько кликов получить короткое содержание текста, его ключевую тему и сформировать план дальнейшей работы с ним.

Функциональность доступна и бизнес-клиентам через API. Компании могут использовать искусственный интеллект в ещё большем числе сценариев:

модерировать и классифицировать отзывы,
систематизировать медиаконтент,
автоматизировать линию поддержки (когда клиент прикладывает к обращению скрин или фото).

Ретейлеры могут загружать изображение товара и просить сервис придумать к нему продающее описание.

Также в четыре раза был увеличен размер контекста как GigaChat Pro, так и версии GigaChat Lite — с 8 тысяч до 32 тысяч токенов.

Если раньше в один запрос можно было загрузить объём текста, сопоставимый с 15 страницами A4 (шрифт 14 pt), то теперь максимальный объём запроса вырос до 60 страниц.

Кроме того, у моделей повысился уровень математических знаний, а GigaChat Pro научился лучше форматировать текст — расставлять параграфы, заголовки, используя выделения и списки.

Раздел "Новости индустрии" на сайте https://mobile-review.com