Найти в Дзене
Алина неКабаева

Искусственный интеллект и медиа: как журналисты оказались связаны с IT?

Оглавление

О том, что СМИ должны делать, чтобы быть с ИИ на одной волне, и почему нейронка может выдать 10 пальцев на одной руке

Искусственный интеллект — угроза для профессионалов или помощник в развитии? Страхи о его замене программистов, журналистов, администраторов, маркетологов и даже бухгалтеров до сих пор не оправдались. Наоборот, не исключив их с рынка труда, ИИ скорее стал оптимизатором, а зачастую и «палкой в колеса» в виде фейков. Максим Толчинский считает, что «нейросети — это имитация мозга, но пока что это трехлетний ребенок дурачок с деменцией. Контекст они держать не умеют и глючат на ровных местах». На круглом столе в Высшей школе журналистики КФУ эксперт, отвечающий за технологический стек, обозначил вызовы ИИ, проблему фейков в СМИ и важность коммуникации представителей медиа и IT-специалистов.

фото взято с ресурса Freepik
фото взято с ресурса Freepik

Что скрывают айтишники и почему нейронки так называются?

«Что такое искусственный интеллект? Это немного маркетинг (на самом деле, много). Тот самый ИИ — это старые добрые нейронки, которые упакованы в более удобоиспользуемый внешний вид», — с этого объяснения начал свое выступление Толчинский на круглом столе «Аутентификация контента в эпоху искусственного интеллекта: вызовы, проблемы, решения».

Нейронка, в свою очередь, сложная математическая матрица, которая использует огромное количество данных, дата-сет, собранный заранее для ее обучения. Качество напрямую зависит от того, сколько данных в ней есть и насколько они хороши. Именно это и стало причиной того, что нейронки «вляпались» в СМИ — они присутствуют в больших массивах данных, как источники статей, перепечаток, контента, на котором нейросети переобучаются.

Толчинский отметил, что парадокс заключается в том, что многие студенты понимают и могут применять то, о чем идет речь в докладе, лучше, чем некоторые преподаватели. Кто-то напрямую говорит, что пока ни одного слова не понимает, хотя мир медиа в этом уже по уши. Также спикер поделился, что в Высшей школе журналистики он ведет технологический стек, который они в медиа активно развивают.

Важный момент о нейронках, про который не часто говорят даже сами айтишники на конференциях, потому что это не «модно» — тот факт, что мы сами не понимаем, как нейронки обучаются. Мы запускаем в нейросеть некий стек информации, она через себя это пропускает и выдает какой-то результат. Что происходит посередине между этими двумя состояниями конечного понятия нет, поэтому приходится пробовать разные модели, алгоритмы, подходы.

Вообще, нейросеть так называют, потому что она репетирует то, как работает мозг человека, нейроны. Почему ее так называют? Каждая матрица — это небольшой нейрон информации, данные гоняются туда-сюда и усредняются путем того, что проходит через эти самые нейроны. Среднестатистическая локальная модель, которую можно запустить на ноутбуке состоит примерно из 6 млрд параметров. То есть это примерно 6 млрд нейронов, через которые гоняются туда-сюда данные и выдают результат: это может быть текст, картинка, компьютерное зрение на распознавание камер и так далее.

-2

Что вообще предлагает ИИ-мир?

«Что из себя в данном моменте представляет искусственный интеллект, а конкретно генеративный? Остановимся на нем, потому что компьютерное зрение нам не очень интересно и остальные виды нейронок тоже ближе к другим областям наших коллег», — прояснил Толчинский. Например, нейронные сети активно применяются в медицине, чтобы понимать, что на рентгеновском снимке есть опухоль и обратить на это внимание врача. Это вещи, по словам спикера, которые стали будничными в медицине.

Самый популярный тип генерации — изображения, причем по текстовому запросу, когда за вас нейронка работает на удаленном сервере, нужно лишь вбить запрос, чтобы она ответила изображением. Очень много шума наделала Midjorney, потому что это была качественная и доступная генерация. Теперь туда можно попасть только по приглашению, так как ими было сгенерировано достаточно громких фейков.

Вторая нейронка, которая доступна — «Шедеврум» от «Яндекса». Есть мнение, что она бесплатная и легкодоступная для того, чтобы собирать запросы и за счет пользователей дообучить ту модель, которую в будущем раскатают за деньги.

Также есть модель Dall-E, которая работает в Chat GPT от компании Open AI, из России без использования VPN она недоступна. Ее особенность в том, что она встроена в продукт чат-бота, и для нее не нужно запускать отдельных приложений, достаточно лишь сказать ей что-то, вводя запрос в Chat GPT.

«Дальше у нас GPT-модели. Что это вообще означает? Это всего лишь описание модели генерации текста при всех запросах. Когда вы вбиваете что-то в телефоне, он предлагает следующее слово. По факту, GPT не создает что-то, у него нет никакого творчества, это модель того, что мы хотим получить от текста по мнению нейросети» — поделился Толчинский. Она [нейронка] пытается предсказать следующее предложение на основе того контекста, который мы задали через свой запрос. Есть много параметров, огромный дата-сет, большое количество железа, которое все это крутит, но в сущности GPT-модель — это просто очень новороченная модель того, какой текст вы хотите получить, исходя из своего запроса.

«При этом GPT — это не торговая марка. Chat GPT — это торговая марка», — объясняет эксперт. Искусственный интеллект сильно упирается в те языки, на которых он обучен. GPT-модель на английском так продвинута, потому что есть очень много англоязычных данных. То же самое и у русскоязычных GPT-моделей, например GigaChat у «Сбера». Есть огромное количество контента, на котором он может обучаться. А вот создать GPT-модель на татарском языке будет очень сложно, потому что татароязычного контента недостаточно.

Также существует генерация реалистичных видео по запросу. Спикер отметил, что презентация успела устареть за несколько недель, потому что в ней описывалась только SORA, которая генерирует видео от Chat GPT. В процессе появилась китайская модель создания контента, и она очень мощная. В отличие от SORA, она способна сгенерировать уже минуту высококачественного видео. «А пока мы готовили круглый стол, Google показал собственную модель генерации видео, она выглядит не хуже SORA, и позволяет делать уже пять минут, да еще и в разрешении Full HD. Толчинский предположил, что они даже откроют ранний доступ к ней.

«Пока у всех моделей генерация видео не находится в публичном доступе, вы не можете ни в одну из них зайти, потому что там есть куча нюансов, все это занимает гигантские мощности, поэтому мы не спешим с выводами. Если месяц назад у нас были иллюзии, что SORA будет опасной и мощной, то сейчас мы не очень в этом уверены, потому что вскрылось, что и там немножко приврали, и что китайцы не торопятся открывать ранний доступ, и что Google тоже говорит о том, что пока не имеет понятия, как это будет окупать», — раскрыл эксперт аудитории.

Существуют также локальные модели, с ними все еще интереснее. Самая популярная из них — это Stable Diffusion. Она пытается угадать картинку по нескольким проходам и его особенность в том, что она абсолютно безгранична, сервер не может поставить никакие ограничения, вы упираетесь только в свое железо. Stable Diffusion — одна из первых моделей генерации изображений, она развивалась дольше и активнее всего, сейчас ее можно внедрить даже в смартфоны.

Еще один пласт, который редко затрагивают в контексте нейросетей — индустрия переводчиков. Она сочетает языковые пары и быстро переводит с разных языков, в отличие от классических словарей, которые пытаются сопоставлять по похожести, переводчик на нейросетях пытается естественную структуру языка переложить из одной в другую. Очень легко переводить русско-английские пары, но преимуществом является тот факт, что их могут параллельно озвучивать нейросетевые голоса, и получается перевод налету. Еще один момент, что нейросети устранили главный барьер онлайн-переводчиков — плохие языковые пары. Условно, татарский переводится очень плохо, потому что этот язык не такой большой, как основные языки ООН. Deep-L же вполне сносно работает с редкими языковыми парами, переводя даже с грузинского на татарский, благодаря чему возникают сочетания, которых в онлайн-переводчиках не было никогда, что открывает простор творчеству.

-3

«Мы находимся на пике развития нейросетей»

«Мы новых подходов не найдем. В нейросетях уже все придумано на фундаментальном уровне. Сейчас все будет упираться в то, какая у нас база данных и дата-сет», — объясняет спикер. Качественная генерация текста, картинок и видео зависит от базы данных. Это важно потому, что никто сейчас не может прийти с улицы и написать крутую нейронку, которая станет коммерческим продуктом. Все это переходит в монополию компаний, у которых есть большие и разнообразные базы данных. Толчинский привел в пример «Сбер», который «так хорошо выстрелил», потому что его клиент — вся Россия, то есть у них крупнейшая база данных для обучения.

Второй момент — алгоритмы. Если это GPT-модели, они плюс-минус похожи. У «Яндекса» есть свой подход к тому, как прочёсывать базу данных, у Chat GPT свой, у компании Google свой, и это сказывается на разнице результатов.

ИИ много не умеет, технология супер несовершенна, и на нее начинают так сильно полагаться, что это начинает пугать, потому что у генеративных нейронок огромное количество проблем.

Во-первых, если нейросеть пытается понять ваш запрос, не факт, что она поймет его правильно. На примере изображения пальцев был выявлен недостаток в том, что нейросеть не знает, что такое человеческая рука на самом деле. Она знает, что есть некий объект, он называется человек, и у усредненного человека 10 пальцев. Как они будут распределены по человеку, математику не волнует. Она лишь усредненный результат. Цель нейросети — найти среднее арифметическое, которое будет отвечать вашему запросу. И если вдруг 10 пальцев оказывается на одной руке, то никакой проблемы будто и нет, ведь все математически правильно.

Во-вторых, на самих изображениях, на которых обучены нейросети, не всегда видно все 10 пальцев, например, когда люди жмут друг другу руки. Нейронка всё это проглатывает, запоминает и выдаёт неправильную руку. Это грозит тем, что низкокачественные результаты генерации появляются в достаточно серьезном контексте.

Дальше всплывает проблема контекста. В MIT уровень памяти нейросети измеряют в токенах. Это значит, что самая дорогая, крутая итерация Chat GPT умеет держать контекст 500 страниц. После 500 страниц она пишет полную галиматью, потому что она не в состоянии держать дальше контекст. У многих популярных и доступных моделей контекст еще хуже А поскольку большая часть людей не платит, пользуется бесплатными версиями, контекст может быть 4-5 абзацев, и после них нейросетка не способна поддерживать рассказ.

«Нейросети — это имитация мозга, но пока что это трехлетний ребенок дурачок с деменцией. Контекст она держать не умеет и глючит на ровных местах», — объяснил спикер

На практике это оборачивается тем, что нейросети не умеют правильно толковать истории. Если спросить у нейросетей, что произошло на Красной площади в таком-то году, она выдумает потрясающую сказку, очень достоверную, но далекую от реальности, потому что даже в собственных данных у нее теряется контекст. Она должна держать его внутри собственной модели. Все это справедливо и для генерации видео, где сложность заключается в том, что нейросеть должна держать контекст на протяжении нескольких тысяч кадров. Толчинский объясняет, что единственный выход из ситуации — наращивать вычислительные мощности, но в один момент можно дойти до того, что для того, чтобы сгенерировать котика, придется строить электростанцию.

«Качество результата напрямую зависит от того, сколько видео-карточек может подсыпать IT-сервис на то, чтобы считать эти все нейронки. И чем сложнее объем задач, тем сложнее аппаратная проблема. У нас может возникнуть момент, что сейчас мы находимся на пике развития нейросетей, когда они умнее всего, потому что все находятся на фазе роста, все ищут инвестиции, все пользуются дешевыми деньгами. Качество генерации начнет падать через несколько лет, потому что все начнут оптимизировать экономику, резать качество выдаваемых запросов», — поделился опасениями эксперт.

Это все буквально происходит при нас. Chat GPT-5 анонсировал недавно новую модель и сделал Chat GPT-4 бесплатным для всех пользователей. И беда в том, что спустя немного времени у Chat GPT лежали сервера на протяжении 6 часов, потому что все им воспользовались, из-за чего все легло. И основная проблема в том, что легли все клиенты компании OpenAI: Microsoft, у которой не работал поиск Bing, ряд СМИ, которые пользовались Chat GPT для написания рерайтов, сайты, которые генерировали автоматически картинки для новостных лент, они все не работали.

«Вы представляете, вы стоите 6 часов просто потому, что ваш ИИ-партнер отвалился, у него кончились вычислительные мощности», — возмутился эксперт.

Самая большая проблема в том, что мы не знаем, на какой информации обучена нейроесть, не воровали ли информацию у СМИ без спроса. На чем обучена Dalle-E, которая генерирует картинки почему-то очень похожие на изображения с каких-то сайтов, которые не давали лицензию на обучение? Есть еще проблема того, что качество самих данных тоже проверить пока не получается. Недавно Дмитрий Медведев у себя в канале отмечал, что очень недоволен тем, как «Алиса» (голосовой помощник от «Яндекса») отвечает на некоторые исторические и политические вопросы. Это не из-за того, что у нее был какой-то злой умысел, а скорее всего в базу нейросети были загружены низкокачественные данные и недостаточное количество исторической информации. И узнать это никак не получится, потому что айтишники постоянно из интернета складывают все в огромную базу, а дальше нейросеть «сама разбирается».

В определенный момент данные для нейросетей закончились. С этим стокнулась компания Open AI, которая учит Chat GPT, и отчасти «Яндекс», потому что это две компании, которые выбрали все доступные и качественные данные в англоязычном интернете. Теперь нейросети должны сами себя обучать и делать это через запросы пользователей. То, что открыли бесплатную модель кажется довольно странным PR-шагом, но это не он, а только холодный бизнес-расчет. Когда вы общаетесь с моделью бесплатно, вы фактически выступаете ее тренером, но не за деньги, а за доступ к Open AI.

-4

«Со временем все станет еще хуже, причем через несколько месяцев, а не лет»

Перед искусственным интеллектом стоят вполне конкретные вызовы:

Усложнение. В определенный момент из-за того, что есть фактор «черной коробки», когда мы не знаем, что происходит между входом и выходом данного, модель нейросеток может стать такой сложной, что сами авторы перестанут понимать, «какого дьявола они генерируют». И это уже происходит.

«У „Яндекса“ скандал с Медведевым разразился не на пустом месте. Компания очень долго строила огромное количество ограничений своему искусственному интеллекту, прежде чем запустить нейропоиск в паблик. У них даже получилось, но не до конца, потому что они сами не понимают полностью, как это работает», — сказал спикер.

Непонимание. Отсюда же вытекает проблема того, что за пределами круга авторов даже хорошо задокументированной модели, абсолютно все перестают понимать происходящее с нейросетью, включая партнеров и работающих с API клиентов.

Достоверность. Крайне сложно понять, что фейк, а что нет, все надо постоянно перепроверять по 10 раз. С картинками все еще более проблемно. Толчинский уверен, что со временем все станет еще хуже, причем через несколько месяцев, а не лет.

Распыление. Дальше возникнет проблема с кадрами. В основном медиа-редакции и так небольшие, сотрудников не хватает. И СМИ без того тратит много ресурсов на проверку информации, потому что в РФ есть ряд жестких законов, которые тебя наказывают за фейки на определенные темы. Также все усложняют локальные модели, у которых вообще нет никакой цензуры, они могут генерировать что угодно, любые картинки и тексты на самые жесткие темы. Кроме того, локальные модели это могут делать быстро, поэтому спикер утверждает, что количество сетевых фейков от бото-ферм будет только нарастать в соцсетях, откуда это будут нести в СМИ.

Мы идем к тому, что нам надо создать механизм того, как мы будем аутентифицировать контент: что создано человеком, что создано нейросетью? Этим вопросом уже задались на западе сами представители индустрии. Они создали стандарт, который называет С2PA, в него входят практически все производители камер. Компании добавляют специальную метку в некий ключ, который возможно выдернуть внутри файла. И так можно получить подтверждение, что файл сделан на определенную камеру, причем к старой технике это не относится.

В это вписались крупные генерирующие компании — Microsoft, Google. Они прекрасно понимают, что сейчас власть имущие проснутся и начнут задавать вопросы. На западе на них ответ есть. Нам, по словам спикера, тоже надо задуматься о том, чтобы в России появился некий аналог С2РА, так как надо решить, как мы будем определять достоверность того контента, с которым работаем. Стоит предложить это отрасли и сделать все в таком виде, чтобы это было понятно, прозрачно государству, но в то же время удобно и быстро нам самим, чтобы мы сами могли с этим работать.

-5

Что, если мы не почешемся, нас ждет?

Во-первых, чрезмерная формализация. Если государство примется само за систему аутентификации контента, нас ждет ад в духе erid — сейчас это проблема рекламодателей, с ним бодаются все.

«Нам надо самим выступить с инициативой о том, какой механизм нам удобен. И даже если государство сделает что-то более формализованное и громоздкое, оно все равно будет знать, чего мы от него хотим, это очень важно. Никто не будет вникать в нашу проблему, что среднестатистическое СМИ постоянно недоукомплектовано, что у нас есть проблемы с оперативностью», — объяснил Толчинский.

Он также привел в пример, что если введут реестр маркировки ИИ и реального контента, то публикация будет проходить час, а за это время новость протухнет. А без токена новость совсем не получится опубликовать, потому что нельзя получить подтверждение, реальный это контент или выдуманный.

В Высшей школе журналистики сейчас идет процесс создания прототипа единой базы данных, которую будет удобно подключать к сайту автоматически, без участия программистов. Это делает возможным без участия сотрудников маркировать все ключи, которые выдают нейронки, а которые выдают реальные камеры, потому что они все равно записывают информацию.

Спикер заверяет, что нас в любом случае ждет появление хотя бы одного фактчекера на холдинг, будет такой человек, который займется анализом контента на его достоверность. Придется. Второй момент — нейросетевой редактор с навыком работы с нейросетями, чтобы он генерировал картинки по запросу, знал базовые принципы работы LLM, чтобы хорошо работать с генерируемым текстом.

Также надо учитывать, что в технологических компаниях довольно слабый гуманитарный стек, «исторически так сложилось». Сами СМИ, если они создадут некий профессиональный союз, должны выйти к «Сберу», «Яндексу» с рядом каких-то предложений.

«Скорее всего компании не откажутся, просто инициатив нет, а сами они действительно в этом ничего не понимают. Я думаю, если бы перед запуском ИИ „Яндекс“ пошли бы в „ТАСС“ и „РИА новости“ и спросили бы, какие темы лучше не трогать, наверное бы поста Медведева не было», — отметил Толчинский.

Также он обозначил, что важна роль вузов, потому что нам надо готовить новые компетенции, вырабатывать площадки для консультаций, создавать новые профили, работать с министерством образования, чтобы оно учитывало нейросеть в своей краткосрочной перспективе, потому что тема развивается очень быстро.

-6