15 подписчиков

❤︎ Понравилось

Взято у Максима Спиридонова (предприниматель).

Цитата раз:

"Вплоть до недавнего времени для обучения моделей генеративного ИИ использовались данные, созданные людьми. OpenAI, Google и другие игроки рынка просто парсили интернет и собирали всё, что не приколочено — оцифрованные книги, статьи, блоги, посты в соцсетях, видео, аудио и фотоизображения.

Проблема в том, что легкодоступные и качественные данные для обучения, созданные «кожаными мешками», тупо заканчиваются. А «кормить» языковые модели, чтобы выпускать их новые и всё более продвинутые версии, нужно постоянно.

Как быть? По информации Financial Times, компании начали чаще использовать для обучения моделей синтетические данные, то есть искусственно сгенерированные при помощи алгоритмов. Получается что-то вроде замкнутого цикла. Нейросети генерируют данные, которые впоследствии используются для их же дальнейшего обучения. При этом нет никаких проблем с конфиденциальностью и авторскими правами.

Что дальше? Исследование, проведённое учёными ведущих университетов, пришло к выводу, что обучение моделей ИИ на их собственных данных может со временем привести к деградации этой технологии. Примерно о том же говорят некоторые участники рынка. Причин, как минимум, две:

«Галлюцинации» нейросетей — они, как известно, иногда выдают весьма убедительные, но полностью выдуманные ответы, которые не имеет ничего общего с фактами.

Как правило, контент, сгенерированный языковыми моделями — это просто перефразированные и уже известные человечеству знания без добавления каких-либо новых идей.

Вывод? Всё больше склоняюсь к тому, что «хэнд-мейд»-контент, произведённый людьми, сохранит свою нишу и будет цениться сильнее и оцениваться дороже.

Представителям творческих профессий, собравшимся переквалифицироваться в управдомы, можно пока расслабиться.

А фразу «Данные — новая нефть» впору (пока предварительно) дополнить примерно так: «а данные, созданные людьми — новое золото»."

Цитата два:

"Обучение продвинутых ИИ-моделей с каждым годом требует всё больше денег. ... за последние 7 лет расходы выросли с микроскопических $930 до ошеломляющих $190 миллионов — столько вбухал Google в свою Gemini Ultra. Конца этой гонки пока даже не просматривается на горизонте. И, к слову, как все эти затраты будут отбиваться — пока тоже неясно.

Поэтому игроки рынка судорожно ищут новые решения для обучения моделей. В том числе — пытаются создавать небольшие и узкоспециализированные нейросети для выполнения конкретных задач. Некоторые активно экспериментируют с синтетическими данными для обучения, что вообще-то может быть чревато деградацией технологии.

Каждый раз, сталкиваясь с очередным свидетельством стремительного внедрения ИИ в нашу жизнь, я думаю о том, насколько плохо мы понимаем глобальные последствия своих действий в этой области. Как позитивные, так и негативные."

По сути о том же, но с другого ракурса, писала здесь. Разве только что я не считаю, что "можно пока расслабиться". Так как использование ИИ в профдеятельности еще полбеды (тем более, что это местами полезно и уже явно неизбежно), а вот когда ИИ войдет в бытовую жизнь каждого и начнет, того больше, влиять на досуг, - тогда уже надо будет бить в колокол. И нет, я не ретроград. Просто когда граната попадает в руки обезьяны (а человечество к таким технологиям сознанием своим, имхо, не готово), то можно сильно пожалеть. Ухи свои, короче, лучше держать востро!

❤︎ Понравилось Взято у Максима Спиридонова (предприниматель). Цитата раз: "Вплоть до недавнего времени для обучения моделей генеративного ИИ использовались данные, созданные людьми.

2 минуты

13 июля 2024