Найти в Дзене
Zoo Loopy

Нейросети в науке: готовится ли Скайнет к атаке?

ChatGPT, YandexGPT, Rytr, Kandinsky 2.2 «Сбера» умеют не только генерировать изображения по промтам и писать текст (как видите, не очень удачно 😅). Они уже давно стали помощниками учёных и активно используются для решения проблем человечества. Давайте опустим коммерцию, тут понятно: поставщики товаров и услуг стараются интегрировать НС, на любом этапе, если его можно удешевить: эффективнее таргет рекламы, эффективнее предлагать товары и услуги на маркетплейсах, эффективнее обрабатывать бухгалтерские документы, и так далее. Но во-первых, помогает ли это развитию человечества как вида, во-вторых, хотелось бы коснуться одной важной темы под названием “эмерджентность”.

Одна из фундаментальных проблем человечества в биологии – задача по предсказанию формы белка, исходя из того как он закодирован в ДНК. Дело в том, что геометрия белка, его форма, является основной для его функциональности. Большая часть нашего физического: органы, кровь, клетки - реализована именно геометрией, то есть формой закодированного в наших генах. Проблема в том, что для исследований мы, зачастую, хотим знать форму белка. А просто посмотреть в микроскоп на него нельзя, нужны дорогие способы, рентгеновская кристаллография. Это процедура не на 5 минут, да и на каждую мутацию, каждого белка ее не наделаешься. Хитрая матрица, в которой мы живем (это тоже шутка если что), природа, решает эту задачу за ноль целых….А именно: свернуть белок из условно длинной цепочки за миллисекунды, а мы…

ШТОШ...предположим, есть белок из 100 аминокислот, вариантов его формы мы можем предположить что-то около…10^98. Даже если мы перебираем то, какой формы будет белок со скоростью, пусть 10^20 вариантов в секунду (а мы так пока не можем), нам потребуется 10^78 секунд, что намного превышает возраст вселенной. Следовательно перебор не подходит, нужны новые подходы! Хитрые ученые решили: "смоделируем все взаимодействия и обсчитаем форму не перебором, а по законам природы!" В итоге, IBM строит суперкопьютер Blue Gene, Anton и так далее. И….у нас прорыв, возможно криминал! Посчитали-прослезились, методами молекулярной динамики мы можем проводить обсчеты чуть быстрее чем возраст вселенной, однако все равно недостаточно быстро. Так причем тут ChatGPT и трансформеры.

Последние наработки в нейросетевых алгоритмах позволили разработать программу Alfafold. Алгоритму показывали известные нам формы белков и перечисляли аминокислотную последовательность из которой состоит белок, и о чудо “КАКИМ-ТО” образом АльфаФолд, насмотревшись как выглядят белки, начала неожиданно предсказывать структуру белков с очень высокой точностью, на измеримом ближе к тому как работает природа, чем к возрасту вселенной.

Подводные камни или “Да что мы раньше показать нейросетям ничего не могли что ли??!?!?!?????”
Все дело в том, что это требует больших вычислительных ресурсов. Это “А”, а “Б” потребовало от ученых использование моделей под названием трансформеры, архитектура и содержание которых были предложены и протестированы относительно недавно. Что касается вычислительных ресурсов тут тоже не все так просто, возьмем к примеру ChatGPT. Эта модель, которая натренирована на ВСЕВОЗМОЖНЫХ человеческих текстах и содержит в себе сотни миллиардов параметров. Все для того, чтобы точнее предсказывать, что вы хотите прочитать исходя из контекста. Задача состояла в том, чтобы эту модель обучить. Обучение стоило многие десятки миллионов долларов, это долгая и затратная процедура в отношении машинного времени. Зато сама работа, а именно поддержание разговора с вами – не стоит почти ничего, особенно если прикидывать в переводе на одного пользователя. Но интеллект GPT такой один, в некотором роде есть слепок, и он легко тиражируется, дешев в эксплуатации и так далее. Но дальше, два интересных вывода:

Во-первых, персонализировать разговор именно с вами – пока несбыточная мечта. Чтобы узнать кто вы такой, нейросеть должна дообучиться, отрефлексировать, если угодно, разговор с вами и сохранить его в памяти. Лично для вас запускать процесс дообучения никто не будет, это будет стоить тех сумасшедших денег о которых я писал выше – конкретно для вас не десятки миллионов конечно, но и не три доллара.

Во-вторых, нейросеть нового поколения (большая языковая модель в частности и трансформеры в целом) с ростом числа параметров, приобретает такое свойство как эмерджентность. Это новое свойство системы, которое не было заложено дизайном элементов из нее состоящих. Хорошие примеры это знаменитый закон “перехода количества в качество”, что мы и наблюдаем. То есть мы не до конца понимаем почему они так хорошо работают и умеют выполнять неспецифические или специфические задачи. Как я писал выше, прорыв в решении задачи фолдинга белка толкнет молбиол с новой силой. Так же как и другие прорывы. Хорошо то, что таких искусственных интеллектов пока мало – тренировать их и обучать могут себе позволить только лишь мегакорпорации: Google, OpenAi если мы говорим о мировых, Сбер или Яндекс, если мы говорим об РФ.

Основной минус новых моделей эмерджентности, если угодно, в том, что мы не понимаем какие именно свойства они приобретут и в какой момент. Кроме того, мы хоть и называем их искусственными нейросетями, от наших они отличаются значительно. Ведь если заставить вас прочитать все книги…А возможно ли это вообще? А НС упаковали это в маленькую модель трансформер, которую можно развернуть практически на каждом утюге. Повод задуматься о том, что из себя РЕАЛЬНО представляют нейросети нового поколения и какие вызовы, помимо того, что они выкинут нас с работы, еще предстоит разрешить.

Скажу лишь что в глобальную войну я не верю, но в том, что привить этику человека нейросети будет сложно – это совершенно точно ☝
ChatGPT, YandexGPT, Rytr, Kandinsky 2.2 «Сбера» умеют не только генерировать изображения по промтам и писать текст (как видите, не очень удачно 😅). Они уже давно стали помощниками учёных и активно используются для решения проблем человечества. Давайте опустим коммерцию, тут понятно: поставщики товаров и услуг стараются интегрировать НС, на любом этапе, если его можно удешевить: эффективнее таргет рекламы, эффективнее предлагать товары и услуги на маркетплейсах, эффективнее обрабатывать бухгалтерские документы, и так далее. Но во-первых, помогает ли это развитию человечества как вида, во-вторых, хотелось бы коснуться одной важной темы под названием “эмерджентность”. Одна из фундаментальных проблем человечества в биологии – задача по предсказанию формы белка, исходя из того как он закодирован в ДНК. Дело в том, что геометрия белка, его форма, является основной для его функциональности. Большая часть нашего физического: органы, кровь, клетки - реализована именно геометрией, то есть формой закодированного в наших генах. Проблема в том, что для исследований мы, зачастую, хотим знать форму белка. А просто посмотреть в микроскоп на него нельзя, нужны дорогие способы, рентгеновская кристаллография. Это процедура не на 5 минут, да и на каждую мутацию, каждого белка ее не наделаешься. Хитрая матрица, в которой мы живем (это тоже шутка если что), природа, решает эту задачу за ноль целых….А именно: свернуть белок из условно длинной цепочки за миллисекунды, а мы… ШТОШ...предположим, есть белок из 100 аминокислот, вариантов его формы мы можем предположить что-то около…10^98. Даже если мы перебираем то, какой формы будет белок со скоростью, пусть 10^20 вариантов в секунду (а мы так пока не можем), нам потребуется 10^78 секунд, что намного превышает возраст вселенной. Следовательно перебор не подходит, нужны новые подходы! Хитрые ученые решили: "смоделируем все взаимодействия и обсчитаем форму не перебором, а по законам природы!" В итоге, IBM строит суперкопьютер Blue Gene, Anton и так далее. И….у нас прорыв, возможно криминал! Посчитали-прослезились, методами молекулярной динамики мы можем проводить обсчеты чуть быстрее чем возраст вселенной, однако все равно недостаточно быстро. Так причем тут ChatGPT и трансформеры. Последние наработки в нейросетевых алгоритмах позволили разработать программу Alfafold. Алгоритму показывали известные нам формы белков и перечисляли аминокислотную последовательность из которой состоит белок, и о чудо “КАКИМ-ТО” образом АльфаФолд, насмотревшись как выглядят белки, начала неожиданно предсказывать структуру белков с очень высокой точностью, на измеримом ближе к тому как работает природа, чем к возрасту вселенной. Подводные камни или “Да что мы раньше показать нейросетям ничего не могли что ли??!?!?!?????” Все дело в том, что это требует больших вычислительных ресурсов. Это “А”, а “Б” потребовало от ученых использование моделей под названием трансформеры, архитектура и содержание которых были предложены и протестированы относительно недавно. Что касается вычислительных ресурсов тут тоже не все так просто, возьмем к примеру ChatGPT. Эта модель, которая натренирована на ВСЕВОЗМОЖНЫХ человеческих текстах и содержит в себе сотни миллиардов параметров. Все для того, чтобы точнее предсказывать, что вы хотите прочитать исходя из контекста. Задача состояла в том, чтобы эту модель обучить. Обучение стоило многие десятки миллионов долларов, это долгая и затратная процедура в отношении машинного времени. Зато сама работа, а именно поддержание разговора с вами – не стоит почти ничего, особенно если прикидывать в переводе на одного пользователя. Но интеллект GPT такой один, в некотором роде есть слепок, и он легко тиражируется, дешев в эксплуатации и так далее. Но дальше, два интересных вывода: Во-первых, персонализировать разговор именно с вами – пока несбыточная мечта. Чтобы узнать кто вы такой, нейросеть должна дообучиться, отрефлексировать, если угодно, разговор с вами и сохранить его в памяти. Лично для вас запускать процесс дообучения никто не будет, это будет стоить тех сумасшедших денег о которых я писал выше – конкретно для вас не десятки миллионов конечно, но и не три доллара. Во-вторых, нейросеть нового поколения (большая языковая модель в частности и трансформеры в целом) с ростом числа параметров, приобретает такое свойство как эмерджентность. Это новое свойство системы, которое не было заложено дизайном элементов из нее состоящих. Хорошие примеры это знаменитый закон “перехода количества в качество”, что мы и наблюдаем. То есть мы не до конца понимаем почему они так хорошо работают и умеют выполнять неспецифические или специфические задачи. Как я писал выше, прорыв в решении задачи фолдинга белка толкнет молбиол с новой силой. Так же как и другие прорывы. Хорошо то, что таких искусственных интеллектов пока мало – тренировать их и обучать могут себе позволить только лишь мегакорпорации: Google, OpenAi если мы говорим о мировых, Сбер или Яндекс, если мы говорим об РФ. Основной минус новых моделей эмерджентности, если угодно, в том, что мы не понимаем какие именно свойства они приобретут и в какой момент. Кроме того, мы хоть и называем их искусственными нейросетями, от наших они отличаются значительно. Ведь если заставить вас прочитать все книги…А возможно ли это вообще? А НС упаковали это в маленькую модель трансформер, которую можно развернуть практически на каждом утюге. Повод задуматься о том, что из себя РЕАЛЬНО представляют нейросети нового поколения и какие вызовы, помимо того, что они выкинут нас с работы, еще предстоит разрешить. Скажу лишь что в глобальную войну я не верю, но в том, что привить этику человека нейросети будет сложно – это совершенно точно ☝