148 подписчиков

Круговорот нейросетей. Вдохновлённые сами собой.

4 сентября 20244 сен 2024

3 мин

Уже в прошлом 2023 году чат-бот GPT получил возможность брать информацию из интернета. Хорошо это или плохо, показать сможет только время. Если фильтры, которые необходимы для нейросети при отборе информации отлажены хорошо, то это никак не скажется на работе чат-бота. Данные фильтры включают в себя предобработку данных, такие как очистка данных от шумов и выбросов, нормализацию и стандартизацию, а также фильтрацию по релевантности, чтобы обеспечить, что только важная информация используется для обучения. Дополнительно могут применяться фильтры, основанные на заданных критериях, таких как тематика данных, их свежесть и качество. Эти фильтры помогают улучшить обобщающую способность нейросети и её эффективность. Но проблема заключается сейчас в том, что уже достаточно много текстовой информации в интернете сгенерировано в более ранних версиях чат-ботов и нейросети могут пропустить эту информацию, а, значит, произойдёт процесс деградации нейросети. Хорошо, что с нейросетями, которые генер

Хорошо, что с нейросетями, которые генерируют изображение пока такая проблема не стоит и их обучают только на вручную проверенных данных человеком. Например, когда я создавала нейросетевого Чебурашку в двух российских нейросетях Шедеврум и Kandinsky, меня озадачил Шедеврум, который до сих пор не может нарисовать этого знаменитого мультипликационного героя нормально.

"Теперь я Чебурашка, мне каждая дворняжка при встрече сразу лапу подаёт"?

А я против этого.20 августа 2024

Меня заинтересовал вопрос, а почему Kandinsky смог? Если проанализировать более ранние генерации этой нейросети, то можно сделать вывод, что Кандинский либо не имел представления о российской культуре, либо был с ней знаком лишь поверхностно. Поэтому у разработчиков возникла необходимость собрать данные по этому направлению для улучшения генераций модели, которая, в конечном счете, является отечественной. Однако у них сразу появилось несколько сложностей. Во-первых, нет ясности в том, что именно требуется собрать, как определить русский культурный код и его составляющие. Во-вторых, нет понимания, где искать эти материалы. Кроме того, изображения должны соответствовать определенным стандартам качества и размера, чтобы пригодиться для обучения нейросети.

Чтобы уточнить, что именно нужно было искать, разработчики вручную составили таблицу русских сущностей, в которую включили все, что связано с российской культурой. Затем они пересмотрели этот список, классифицировали сущности и очистили его. В результате выделились такие темы, как еда (например, блины, селедка под шубой и др), достопримечательности (Казанский собор, Красная площадь) и персонажи популярных мультфильмов и фильмов. В настоящее время их список насчитывает около 8000 сущностей, разбитых на 16 тематик. Изображения были собраны из различных открытых источников, а также из доступных всем советских и российских фильмов и мультфильмов. Однако не всегда качество этих изображений было хорошим, и описания не всегда подходили. Сейчас Kandinsky генерирует Чебурашку уже похожим на себя. Но, конечно же не все российские сущности есть в этой таблице и не весь русский культурный код ещё описан.

Вот, например, домовёнок Кузя, сгенерированный это нейросетью. Видимо ещё пока не помылся.)

Обновление генерации дало пока тоже только домовёнка с неестественно приклеенными глазами.

Ввела промт: "домовёнок Кузя и Нафаня". И что же получила? Нафаня - это, вообще, девочка.

А вот вам промт: "домовёнок Кузя и баба Яга". Только баба омолодилась очень уж и превратилась в девочку, а домовёнок у неё экспроприировал ступу.)

Ну, вот хотя бы милая баба Яга отдельно от домовёнка Кузи получилась.

Вот баба Яга есть, а Кощея Бессмертного не ввели в таблицу сущностей.

Хорошо, что Kandinsky теперь понимает, что селёдка под шубой - это салат, а не рыба в шубе, которую он рисовал раньше.

А у меня так и остался вопросы, а можно ли вообще определить русский культурный код и его составляющие? Можно ли его вообще оцифровать до конца? А если ещё предоставить нейросетям доступ к фотостокам интернета (как это сделали для чат-бота), то что мы будем тогда вообще генерировать? Многочисленные генерации уже сделанные нейросетями?

На последок решила спросить у самого чат-бота: "Что лучше интернет, созданный человеком или интернет, созданный нейросетями?" Вот его ответ:

Так что однозначно сказать, что произойдёт даже с интернет-технологиями в скором будущем сейчас уже нельзя. Риск снижения качества контента не отрицает и чат-бот. А ведь, не излечившись от галлюцинаций, нейросети предлагают и использовать их в качестве репетиторов. Например нейросеть Tutor ai. Правда, эта нейросеть, как истинный репетитор требует практически сразу оплаты за курс. Так что, только самому человеку решать у кого информация более актуальна - у нейросети или у преподавателя-человека.

Если вам понравилась статья, то ставьте лайк. Подписывайтесь на канал. Всего вам доброго и безопасного.