OpenAI выпустили GPT-4o, она же omni или в простонародье Чо. Также есть видеопрезентация. Это мультимодальная модель, натренированная на тексте, картинках и видео, которая может видеть мир через камеру и без задержки говорить и петь. В чатгпт и раньше имелся Voice Mode, через который можно было побеседовать с GPT-3.5 или GPT-4, но там была задержка до 5 секунд между ответами из-за того, что использовались 3 нейронки в одном пайплайне (аудио-текст-аудио). Здесь же всё обрабатывает одна Чо, и потому скорость реалтаймовая. А так как данные не теряются по пути, то она лучше понимает интонацию человека, фоновые звуки, и не только. Вместе с этим модель стала эмоциональнее, приближая её к AI из фильма Она. Распознавание визуала тоже работает в реальном времени и можно даже сделать так, что одна нейронка видит окружение, а другая его описывает. На бесплатном акке можно гонять пока не упрёшься в лимит, дальше попросят подписку. Голосовой чат будут раскатывать постепенно. Также Чо прево