88,3 тыс подписчиков

Google показала SynthID Text — технологию маркировки и распознавания ИИ-контента

24 октября 202424 окт 2024

1 мин

Google открыла доступ к своему новому инструменту SynthID Text, предназначенному для создания водяных знаков к ИИ-контенту, которые не видят люди, но замечают нейросети. В компании рассказали, как они создаются и зачем вообще нужны. Технология SynthID Text позволяет определить, был ли текст сгенерирован нейросетью. Для этого она вшивает в него «рисунок» того, как «думала» нейросеть при написании текста. При проверке на происхождение контента этот водяной знак заметит другая нейросеть и сообщит, что текст сгенерирован. «Рисунком» становится паттерн создания текста, незаметный человеку. Создание водяного знака возможно благодаря тому, как работают большие языковые модели. Для обработки информации они используют токены — строительные блоки сгенерированного контента. Например, это один символ, слово или фраза. Перед созданием нейросеть «смотрит», какой токен сейчас подойдёт больше всего, и использует его, ориентируясь на эту оценку. Так, шаг за шагом, ориентируясь на процентную вероятность

Технология SynthID Text позволяет определить, был ли текст сгенерирован нейросетью. Для этого она вшивает в него «рисунок» того, как «думала» нейросеть при написании текста. При проверке на происхождение контента этот водяной знак заметит другая нейросеть и сообщит, что текст сгенерирован. «Рисунком» становится паттерн создания текста, незаметный человеку.

Создание водяного знака возможно благодаря тому, как работают большие языковые модели. Для обработки информации они используют токены — строительные блоки сгенерированного контента. Например, это один символ, слово или фраза. Перед созданием нейросеть «смотрит», какой токен сейчас подойдёт больше всего, и использует его, ориентируясь на эту оценку.

Так, шаг за шагом, ориентируясь на процентную вероятность того или иного токена, нейросеть создаёт контент. Упрощённо говоря, SynthID Text вносит небольшую поправку в этот процесс, изменяя «траекторию мысли» нейросети на уровне токенов так, чтобы её можно было распознать при анализе текста. Этот слепок в дальнейшем и становится водяным знаком определённого текста.

В Google заявляют, что сервис не влияет на скорость, качество и креативность генерации и лучше всего работает с большими текстами, так как там больше вариантов использования того или иного слова, тогда как в небольших фразах или фактических ответах на вопрос свободы действия гораздо меньше, и паттерн «вшить» некуда.