Найти тему
У OpenAI вышла новая языковая модель
Модель называется GPT-4o mini. Как утверждают разработчики, эта модель меньше и шустрее обычной GPT-4o (флагманская LLM от OpenAI на сегодняшний день), а по стоимости и производительности превосходит GPT-3.5-turbo. Поэтому OpenAI советует всем, кто пользуется GPT-3.5-turbo по API (а таких много), переходить на новую модель. Пишут, что модель мультимодальная. Пока что на вход может принимать не только текст, но и изображения. В будущем можно будет отправлять еще аудио и видео. Модель доступна и через веб-интерфейс, и по API...
8 месяцев назад
Название ролика: Even better then Claude Artifacts? And for free? What can't you make with this? Канал: Eduards Ruzga Продолжительность ролика: 0:22:59 Дата публикации: 10.07.24 Я давно не заходил в чат-бот Claude, поэтому про возможность создавать артефакты слышал, но сам не пробовал. Артефактами разработчики Claude называют фрагментами контента, такие как код, документы, макеты сайтов, диаграммы, которые при их генерации отображаются в отдельном окне. Артефакты можно просматривать, скачивать, редактировать, а также делиться ими с другими пользователями. Таким образом упрощается работа. А тут попалось видео про сравнение Claude с бесплатным сервисом WebSim, который тоже основан на Claude, но благодаря более удачному проптингу генерирует сайты лучше. Посмотрите ролик, выглядит впечатляюще. Особенно мне понравился эксперимент с физикой. Разработать оригинальную лендинговую страничку теперь стало совсем просто.
8 месяцев назад
Вот пример с картинкой, русским промптом и русским ответом (условно русским😅) Ответ модели: Конечно, я виду на картинке робота-стильного риза, который выглядит как урокист в classroom. Роботу назвали "Natural Network" и он обладает многими контроллерами и датчиками на своем телом, которые могут отслеживать или регулировать различные аспекты его поведения. Вокруг робота есть различные изображения и тексты, которые могут быть интерпретированы как элементы Classroom. Включая геометрические и алгебраические изображения, которые могут быть использованы для изучения математики и науки. Также на фотографии есть физические объекты, такие как топор и ручку, которые могут быть использованы для изучения физики и техники. Таким образом, эта картина может быть интерпретирована как изображение, которое сочетает в себе элементы робототехники, научных изображений и classroom-стильной рисовки. Картинку оставлю в комментах.
8 месяцев назад
Большой интерес представляют мультимодальные модели, которые на вход могут принимать не только текст, но и другую информацию. Не так давно вышла обновленная версия LLaVA (Large Language and Vision Assistant) под названием LLaVA-NeXT. Линейка LLaVA предназначена для работы как с текстом, так и с картинками. Картинка делится на кусочки, которые токенизируются и добавляются к текстовой последовательности, идущей на вход модели. Поэтому таким моделям можно задавать вопрос по картинкам. Модель воспринимает картинку как такую же часть контекста как и обычный текст. Новой модели LLaVA-NeXT можно скормить не только отдельную картинку, но и целое видео. Вот ссылка на репозиторий: https://github.com/LLaVA-VL/LLaVA-NeXT?tab=readme-ov-file Там есть ссылки на демо и другие материалы. Я тоже немного поэкспериментировал с моделью. С русским у нее плохо, а так описание делает неплохо, хотя не без галлюцинаций. Далее прикреплю пару своих экспериментов.
8 месяцев назад