3160 подписчиков

Результаты работы ИИ представляют угрозу самому ИИ

5 октября 20245 окт 2024

2 мин

Интернет переполнен словами и изображениями, созданными искусственным интеллектом. Становится все сложнее обнаружить данные, генерируемые ИИ. Поэтому возрастает вероятность того, что они будут перехвачены будущим ИИ, что приведет к худшему результату. Сэм Альтман, генеральный директор OpenAI, писал в феврале, что компания генерирует около 100 миллиардов слов в день — это миллион текстов, написанных ежедневно, и огромная доля из них попадает в Интернет. Это создает проблему для компаний, которые прочесывают интернет в поисках новых данных для обучения своих следующих моделей. Они, вероятно, поглотят часть своего собственного контента, сгенерированного ИИ, создавая непреднамеренный цикл обратной связи. В долгосрочной перспективе этот цикл может представлять угрозу для самого ИИ. Исследования показали, что когда генеративный ИИ обучается на большом количестве собственных результатов, он может стать намного хуже. Это явление, известное как "коллапс модели", приводит к сужению диапазона рез

Сэм Альтман, генеральный директор OpenAI, писал в феврале, что компания генерирует около 100 миллиардов слов в день — это миллион текстов, написанных ежедневно, и огромная доля из них попадает в Интернет.

Это создает проблему для компаний, которые прочесывают интернет в поисках новых данных для обучения своих следующих моделей. Они, вероятно, поглотят часть своего собственного контента, сгенерированного ИИ, создавая непреднамеренный цикл обратной связи.

В долгосрочной перспективе этот цикл может представлять угрозу для самого ИИ. Исследования показали, что когда генеративный ИИ обучается на большом количестве собственных результатов, он может стать намного хуже. Это явление, известное как "коллапс модели", приводит к сужению диапазона результатов работы ИИ и отдалению от реальности.

Проблема наблюдается как в текстовых, так и в визуальных моделях ИИ. Исследователи обнаружили, что в выходных данных ИИ начинают накапливаться сбои и артефакты, в конечном итоге создавая искаженные изображения.

Это происходит потому, что данные, генерируемые ИИ, часто являются плохой заменой реальных данных. Когда генеративный ИИ "обучается" на огромных объемах данных, он на самом деле собирает статистическое распределение (набор вероятностей, который предсказывает следующее слово в предложении или пиксели на изображении), которое со временем становится все более узким и отдаляется от исходных данных.

NewsGuard - группа, отслеживающая онлайн-дезинформацию, недавно выявила более тысячи веб-сайтов , которые штампуют подверженные ошибкам новостные статьи, сгенерированные ИИ.

Эта проблема может замедлить развитие ИИ, поскольку существующие источники данных иссякают или загрязняются "мусором" ИИ. Она также может привести к увеличению вычислительных затрат на обучение моделей ИИ.

Решением может быть использование более качественных и разнообразных данных, полученных от людей, а не из интернета. Компании также работают над инструментами для обнаружения результатов работы ИИ. Однако исследователи предупреждают, что эта проблема неизбежна и требует пристального внимания со стороны компаний, занимающихся ИИ.

Более того, эта проблема может привести к "эрозии разнообразия" в выходных данных ИИ. Исследования показывают, что когда модели ИИ обучаются на собственных результатах, они становятся все более похожими, теряя уникальность и разнообразие. Это может усилить предвзятость данных и привести к удалению данных, относящихся к меньшинствам.

Чтобы решить эту проблему, компаниям, занимающимся ИИ, необходимо не только использовать высококачественные данные, но и тщательно отбирать синтетические данные, генерируемые их моделями. Это поможет сохранить разнообразие и предотвратить дальнейшее ухудшение качества.

Кроме того, исследователи предупреждают, что по мере роста моделей ИИ, они могут исчерпать общедоступные данные в Интернете, что потребует поиска новых источников данных или разработки более эффективных методов обучения.

***

Друзья, сегодня подготовила для вас подборку цветочных нейроиллюстраций (12 фото):

Эти нейроарты созданы мною в бесплатной нейросети Recraft.

P.S. Приглашение на Мастер-Классы по изучению Топовых Нейросетей, где Вас ждут Бонусы и Подарки:

<<<Участвовать Бесплатно>>>

Гаджеты и электроника

5,73 млн интересуются