Новый омнимодальный бот может смотреть через камеру телефона или на экран компьютера и отвечать голосом на 50 языках и делать это в реальном времени. Где такие умения окажутся востребованными? У нейросети OpenAI появились глаза и уши. Новая модель GPT-4o может распознавать не только текст и картинки, но и голос, и видео. Среди прочего компания предлагает использовать ее в качестве репетитора по математике и языкам, после чего акции Duolingo заметно просели. Уверенный лидер нейрорынка, OpenAI решил застолбить свою позицию, представив миру свою первую по-настоящему мультимодальную модель GPT-4o. Сами разработчики называют ее «омнимодальной», оттуда и буква «О» в названии. Распознаванием текста или картинок уже никого не удивишь, а новый бот может смотреть через камеру телефона или на экран компьютера и отвечать голосом на 50 языках. Причем все это — в реальном времени и с минимальными задержками, едва ли большими, чем в беседе с настоящим человеком. Инновацию оценивает главный архитектор