Найти тему

Мы гадамі няправільна выкарыстоўваем нейронавыя сеткі: цяпер мы ведаем, як зрабіць іх у 10 разоў менш

Оглавление
На гэтым тыдні ў Новым Арлеане праходзіць сёмае выданне ICLR (Міжнароднай канферэнцыі па навучанні прадстаўніцтву), адной з найвялікшых сусветных навуковых мерапрыемстваў вакол штучнага інтэлекту. Выдатным аспектам гэтага выдання стала адна з узнагароджаных навуковых прац у ім.

Аўтар Майкл Карбін і Джонатан Фрэнкль, абодва даследчыкі MIT, ствараюць радыкальную адпраўную кропку: увесь гэты час мы выкарыстоўваем нейронныя сеткі значна большыя, чым трэба, у некаторых выпадках у 10 і 100 разоў больш. І гэта прывяло да таго, што іх навучанне было значна даражэйшае, чым неабходна, з пункту гледжання часу і вылічальнай магутнасці.

Карын і Фрэнклі абараняюць тое, што ўнутры кожнай нейроннай сеткі існуе значна меншая падмноства, якое можна навучыць дасягненню тых жа паказчыкаў, што і тыя, якія мы атрымліваем у цэлым.

https://i.pinimg.com/564x/b7/0f/68/b70f68dd144623e42ae7e29c27318203.jpg
https://i.pinimg.com/564x/b7/0f/68/b70f68dd144623e42ae7e29c27318203.jpg

Але як працуе нейронавая сетка?

Нейронныя сеткі звычайна прадстаўлены ў выглядзе складаных слаёў камп'ютэрных вузлоў, злучаных адзін з адным для таго, каб вылічыць шаблоны дадзеных. Пры ініцыялізацыі сеткі гэтыя злучэнні выпадкова прысвойваюцца значэннямі ад 0 да 1, якія прадстаўляюць іх інтэнсіўнасць.

Падчас навучання гэтыя сувязі ўмацоўваюцца або слабеюць, каб адлюстраваць "тое, што было вывучана", і з гэтага моманту яны застаюцца замацаванымі для аналізу новай інфармацыі на аснове назапашанага "веды".

Гэта аперацыя (вельмі спрошчана) нейронных сетак. Цяпер праца гэтых даследчыкаў заснавана на назіранні двух уласцівасцей іх:

1) Калі сетка ініцыялізуецца перад пачаткам навучальнага працэсу, заўсёды ёсць верагоднасць таго, што ўсталяваныя выпадковыя злучэнні ствараюць непадрыхтаваную канфігурацыю. Верагоднасць гэтага адбываецца памяншаецца, чым большая сетка (на колькі яшчэ слаёў і вузлоў). Незразумела, чаму гэта адбываецца, але мы ведаем, што гэта прычына вялікіх памераў нейронных сетак, якія выкарыстоўваліся да гэтага часу.

2) Пасля таго, як навучальны працэс скончаны, звычайна толькі невялікая частка яго сувязяў застаецца трывалай, а астатнія настолькі слабымі, што іх можна будзе выключыць, не ўплываючы на ​​агульную працу сеткі. Апошняе не з'яўляецца адкрыццём Карбіна і Фрэнкля: звычайна, на некаторы час, памяншаецца памер сетак пасля трэніровачнага працэсу, каб скараціць выдаткі і час на іх выкананне.

Але перад трэнінгам ніхто не думаў, што можна паменшыць памер сеткі. Аўтары гэтага даследавання вырашылі паставіць пад сумнеў гэта меркаванне і даведацца, як яны маглі б захаваць карысную падмноства сеткі, не марнуючы рэсурсы на спробы навучання ўсіх іншых слабых частак сеткі. І, вывучаючы адтуль, яны ў канчатковым выніку распрацавалі "дзесятую гіпотэзу латарэі".

Гэта кажа пра тое, што выпадковая ініцыялізацыя злучэнняў нейроннай сеткі падобная на куплю вялікага пакета з дзесятых дзясяткаў латарэі: магчыма, унутры яго дзясяты пераможца (першапачатковая канфігурацыя, якую можна будзе лёгка трэніраваць і дазволіць атрымаць паспяховая мадэль). Але гэта не значыць, што, выкарыстоўваючы вялікія нейронныя сеткі, мы павялічваем іх магутнасць.

Аўтары даследавання сцвярджаюць, што калі нам удасца знайсці гэтую першапачатковую канфігурацыю выйгрышу, мы павінны мець магчымасць паўторна выкарыстоўваць яе зноў і зноў, замест таго, каб "гуляць у латарэю зноў". Такім чынам, Карбіну і Фрэнклу ўдалося скараціць стартавую сетку на 10% і 20%, але яны перакананыя, што лічба можа быць значна вышэйшай.

Джэйсан Ёскінскі, даследчык UI AI і суаўтар працы, якая ўнікае ў падыходы Франкла і Карбіна, сцвярджае, што:
"Калі б даследчыкі змаглі знайсці спосаб" канфігурацыі выйгрышу "з самага пачатку, памер нейронных сетак зменшыўся б у 10, нават 100, і адкрыўся б новы свет патэнцыялу".

Паводле Фрэнкле, не выключана, што ў будучыні ў нас з'явяцца базы дадзеных з адкрытым зыходным кодам, у якіх даследчыкі збіраюць розныя «падрэзаныя» канфігурацыі, якія яны знайшлі, а таксама апісанне таго, што ім карысна.

Гэта паскорыла б і дэмакратызавала даследаванні ў галіне штучнага інтэлекту, зрабіўшы яго даступным незалежным даследчыкам без доступу да вялікіх каманд. І, ускосна, гэта таксама дазволіла б змяніць саму прыроду AI-прыкладанняў, зрабіць іх незалежнымі ад воблака і пераважных вылічэнняў.