С первого информационного бума нейросетей, а именно выхода chatgpt 3.5 прошло всего два года. В начале люди отнеслись к этому инструменту с презрением. Трансформер допускал много ошибок, много выдумывал, и многие подумали что это просто игрушка, не более. Но в мире разработчиков к этому отнеслись очень серьёзно. Сообщество начало стремительно расти, как и количество моделей, которое сегодня насчитывает более миллиона доступных моделей. За два года их создали больше, чем за 20 лет выпустили приложений в разных сферах.
Моё личное знакомство с нейросетями было ещё до этого бума. Я 3д визуализатор. И как то ко мне обратились с заказом увеличить размер изображения. Я скачал приложение, загрузил туда картинку, нажал волшебную кнопку, подождал пару секунд, и приложение выдало готовый результат. Я получил свои 1000 рублей за нажатие всего одной кнопки. Это было впечатляюще.
Так же ситуация в графике сильно изменилась с выходом Stable Diffusion. Первые версии так же взбудоражили сообщество художников. Сразу начались протесты, забастовки, акции за то чтобы это не использовалось в профессиональном мире, но все проиграли. Студии и работодатели увидели в этом потенциал и начали перестраивать рабочие процессы под эти новые инструменты. На данный момент вы вряд ли увидите вакансию 2д художника без знаний и применений Stable Diffusion.
Затем сильно улучшились трансформеры. Что это такое я расскажу чуть позже. На данный момент на их основе создают многофункциональных ии-агентов, которые постепенно начнут заменять людей во всех сферах. Уже заменяют.
В жизни я много общаюсь с людьми на разные темы, и сейчас эта тема самая волнующая и увлекательная, поэтому я решил рассказать обо всём этом широкой публике на этом портале.
Это моя первая статья в Дзене. Я хочу дать вам вводную информацию о нейросетях самыми простыми словами и объяснениями. Мы будем рассматривать самые популярные модели и сервисы и расскажу вам что это такое и как они работают. Начнём!
Что такое СhatGPT?
Сейчас chatgpt это полноценный многофункциональный чатбот. Это оркестр нейросетей, в котором каждая выполняет свою задачу в зависимости от запроса. Чтобы понять этот оркестр и разложить всё по полочкам, нужно заглянуть в начало его пути. И начать с выхода chatgpt 3.5
На момент выхода chatgpt был просто одиночной языковой моделью трансформером.
Нейросети — это математические модели, которые имитируют работу человеческого мозга. Они состоят из множества взаимосвязанных искусственных нейронов, которые способны обрабатывать большие объемы данных и находить в них сложные закономерности. На компьютере это просто файлы: Обученная база данных (токенов) model.safetensors, и обработчик tokenizer.json. Самим интеллектом является обработчик базы. Но до этого ещё далеко.
Токены в нейросетях — это единицы текста, на которые разбивается входная информация для обработки моделью. Они могут представлять собой слова, части слов или даже символы, что позволяет эффективно анализировать и генерировать текст.
Трансформер — это тип нейронной сети, который особенно хорошо подходит для обработки последовательностей данных, таких как текст. Он использует механизм внимания, который позволяет модели сосредотачиваться на наиболее значимых частях входных данных, что улучшает понимание контекста и взаимосвязей между словами.
GPT - Generative Prompt Transformer (Генеративный промпт трансформер), а chat - просто маркетинговое имя. По сути это нейронная модель, которая умеет генерировать связанный смыслом текст. Это не интеллект, это просто генератор вероятностей.
А теперь добавим к нему интеллект. И получаем аббревиатуру LLM
LLM (Large Language Model) — это тип искусственного интеллекта, который специализируется на обработке и генерации человеческого языка. Эти модели обучаются на огромных объемах текстовых данных, что позволяет им понимать, анализировать и создавать текст в естественном языке.
ChatGPT 4 это LLM.
Итак, мы немного разобрались с началом этого сервиса. Рассмотрим пример запроса на генерацию изображений в chatgpt. Что происходит когда мы отправляем ему такой запрос?
Теперь мы знаем что chatgpt это llm - языковая текстовая модель. Она может генерировать только текст. И возникает немой вопрос "откуда тогда изображение?"
Тут как раз и приходит понятие автоматизации нейросетей. У OpenAI много разных моделей, включая диффузионную модель DALL-E. Когда мы отправляем запрос что-то нарисовать, chatgpt автоматически генерирует промпт и передаёт его другой модели для генерации изображений (диффузионной модели). Та же в свою очередь выполняет запрос и возвращает результат в виде изображения. Это происходит автоматически. И вот вы видите в чате текст и изображение.
Это самый простой оркестр, можно сказать дуэт нейросетей.
Теперь мы знаем что такое нейросети и что они могут работать сообща, создавая ещё более сложную автоматизированную сеть для выдачи более сложного результата.
Это небольшая компактная вводная теория с реальным примером. Дальше я собираюсь раскрыть эту тему подробней. Рассказать как всегда быть на пике этих технологий и пользоваться самыми передовыми инструментами в этой области.
Надеюсь это статья была полезной для вас. Подписывайтесь на канал, ставьте лайки, оставляйте комментарии. Я всегда рад обратной связи.
Так же я веду свой блог в телеграмм https://t.me/elpaspace
И введу лекции и консультации на эту тему канале https://t.me/elpaconsult
Меня зовут Павел, спасибо за внимание)