Корейские исследователи из Института электроники и телекоммуникаций (ETRI) представили технологию, объединяющую искусственный интеллект и визуальное восприятие для создания изображений по текстовому вводу всего за 2 секунды. Это значительный шаг вперед в области сверхбыстрой генерации визуальной информации. Институт выпустил пять моделей, включая три модели «KOALA», способные генерировать изображения из текста в пять раз быстрее, чем существующие методы. Также представлены две модели разговорного визуально-языкового взаимодействия «Ko-LLaVA» с возможностью ответов на вопросы с использованием изображений или видео. Модель «KOALA» существенно сократила количество параметров, используя технику дистилляции знаний, улучшив скорость генерации изображений в высоком разрешении в два раза по сравнению с предыдущими методами и в пять раз по сравнению с DALL-E 3. ETRI успешно уменьшил размер моделей (1.7 млрд (Large), 1 млрд (Base), 700 млн (Small)) и увеличил скорость генерации до 2 секунд, что