2126 подписчиков

Угроза для всего интернета. Секретная нейросеть OpenAI воссоздана двумя недавними студентами

20 сентября 201920 сен 2019

22,8 тыс

1 мин

Два выпускника частного американского университета Брауна смогли воссоздать нейросеть GPT-2 от компании OpenAI, одним из основателей которой был Илон Маск. Полную версию нейросети разработчики не стали выкладывать в открытый доступ, поскольку она была бы слишком хорошим помощником для разного рода интернет-мошенников. Сами же студенты считают, что ничего страшного в такой нейросети нет. Что, конечно же, очень спорно.

OpenAI создала GPT-2 для того, чтобы генерировать связный текст. У этой нейросети рекордное число параметров — 1,5 миллиарда (чем их больше, тем более сложные задачи может решать нейросеть) — при том, что предшественники (например, нейросеть BERT от Google) обходились лишь 100—300 миллионами.

GPT-2 работает на основе технологии машинного обучения без учителя, то есть она сама находила «правильный ответ» в ходе тренировки на большом массиве данных.

Чтобы не повторить предыдущих ошибок, а также исключить из выборки рекламу и спам, разработчики обучали нейросеть не на всех ссылках подряд, а лишь на тех, у которых был хороший рейтинг. В результате, по уверениям создателей, GPT-2 научилась генерировать целые страницы связного текста. Именно поэтому в феврале 2019 года OpenAI отказалась публиковать полную версию кода нейросети, ограничившись ее уменьшенной копией.

Тем не менее два выпускника Брауновского университета, Аарон Гокаслан (Aaron Gokaslan) и Ваня Коэн (Vanya Cohen), решили сделать копию GPT-2 и 22 августа опубликовали результаты своей работы в открытом доступе. По их словам, они потратили при этом всего 50 тысяч долларов — эти деньги ушли главным образом на пользование облачными вычислениями, предоставляемыми компанией Google.

Незадолго до публикации Гокаслана и Коэна, 20 августа, OpenAI заявила, что ей известно как минимум о пяти других научных группах, которые полностью воспроизвели GPT-2. Но ни одна из них не обнародовала свою нейросеть. Компания также констатировала, что обмануть людей сгенерированным текстом такого качества довольно легко, а вычислить, что его писал не человек, очень трудно.