Найти в Дзене
Цех

«Курс по машинному обучению я доделывал в хижине на Эльбрусе». Дата-сайентист Анатолий Карпов — о работе в IT

Оглавление

Дата-сай­ен­тист Ана­то­лий Кар­пов окон­чил пси­хо­ло­ги­че­ский фа­куль­тет СПб­ГУ, пре­по­да­вал ста­ти­сти­ку, ра­бо­тал ана­ли­ти­ком во «ВКон­так­те», а сей­час пе­ре­ехал в Моск­ву и за­ни­ма­ет­ся ана­ли­ти­кой в от­де­ле ре­кла­мы Mail.ru. Ана­то­лий — ав­тор несколь­ких по­пу­ляр­ных он­лайн-кур­сов по ма­те­ма­ти­че­ской ста­ти­сти­ке и ана­ли­зу дан­ных. Он рас­ска­зал «Цеху», как при­шел в про­фес­сию, где учил­ся и ка­кие пер­вые шаги се­год­ня сто­ит де­лать на­чи­на­ю­щим дата-сай­ен­ти­стам.

Фото из личного архива
Фото из личного архива

«Еще 20 лет на­зад невоз­мож­но было пред­ста­вить, что че­ло­век мог чему-то на­учить­ся вне уни­вер­си­те­та»

Я учил­ся на фа­куль­те­те пси­хо­ло­гии, и сна­ча­ла ни­что не пред­ве­ща­ло ра­бо­ты в IT-сфе­ре. Впро­чем, пси­хо­ло­гия бы­ва­ет раз­ная: есть на­прав­ле­ния, ко­то­рые ре­ша­ют при­клад­ные за­да­чи, — это пси­хо­ло­ги­че­ское кон­суль­ти­ро­ва­ние, а есть ака­де­ми­че­ская пси­хо­ло­гия, куда вхо­дит ста­ти­сти­ка, ана­лиз дан­ных и про­грам­ми­ро­ва­ние. В про­цес­се обу­че­ния меня все боль­ше ин­те­ре­со­ва­ли имен­но ака­де­ми­че­ские ис­сле­до­ва­ния. У нас на пси­х­фа­ке был слож­ный курс «Ме­то­ды ма­те­ма­ти­че­ской мо­де­ли», ко­то­рый силь­но всех на­пу­гал. Я же во всем разо­брал­ся, на­чал объ­яс­нять ма­те­ри­ал на­шим ре­бя­там и со вре­ме­нем по­нял, что мне это даже нра­вит­ся.

Мой хо­ро­ший друг в то вре­мя от­кры­вал для сту­ден­тов про­грам­му по обу­че­нию био­ин­фор­ма­ти­ке и ис­кал пре­по­да­ва­те­ля по ста­ти­сти­ке. Он мне по­зво­нил и спро­сил: «Толя, ты ста­ти­сти­ку зна­ешь?». Я от­ве­тил, что нет. То­гда он про­дол­жил: «Пе­ре­фор­му­ли­ру­ем во­прос: ты курс по ста­ти­сти­ке смо­жешь про­чи­тать?». Я со­гла­сил­ся, и в ито­ге этот опыт дал мне мно­гое. Са­мый пра­виль­ный спо­соб чему-то на­учить­ся — на­чать учить дру­гих. За­ня­тия в ин­сти­ту­те про­хо­ди­ли раз в неде­лю: пе­ред каж­дым уро­ком я го­то­вил­ся, пол­но­стью раз­би­рал темы, а по­том с непод­дель­ным вос­тор­гом рас­ска­зы­вал ре­бя­там ба­зо­вые вещи про ста­ти­сти­ку и ана­лиз дан­ных.

Спу­стя неко­то­рое вре­мя мне пред­ло­жи­ли прой­ти со­бе­се­до­ва­ние на по­зи­цию ана­ли­ти­ка «ВКон­так­те». Я дол­го не ре­шал­ся: в этой со­ци­аль­ной сети ра­бо­та­ют са­мые хард­кор­ные ре­бя­та, а я за­ни­мал­ся IT по­столь­ку-по­сколь­ку и чув­ство­вал себя са­мо­зван­цем. Со­бе­се­до­ва­ние про­шло до­воль­но ожи­да­е­мо: я хо­ро­шо от­ве­тил на все во­про­сы по ана­ли­зу дан­ных и ста­ти­сти­ке, но пла­вал в про­грам­ми­ро­ва­нии. Тем не ме­нее, ре­бя­та, ко­то­рые со мной раз­го­ва­ри­ва­ли, ре­ши­ли дать мне шанс. По­сле это­го я про­хо­дил еще несколь­ко эта­пов со­бе­се­до­ва­ния, де­лал те­сто­вые за­да­ния, не спал но­ча­ми (боль­ше от пе­ре­жи­ва­ний), но в ито­ге стал ана­ли­ти­ком в ко­ман­де биз­не­са и ре­кла­мы.

Пер­вые несколь­ко ме­ся­цев было очень тя­же­ло. Си­ту­а­ция, ко­гда все во­круг ум­нее тебя, по­лез­на для раз­ви­тия и при­об­ре­те­ния но­вых на­вы­ков, но эмо­ци­о­наль­но это нелег­ко. Моя ко­ман­да все­гда была го­то­ва по­мочь, но ино­гда я чув­ство­вал, что они не по­ни­ма­ли, в чем моя про­бле­ма, для них это были оче­вид­ные вещи. В то вре­мя, в 2017 году, нас было все­го пять че­ло­век, во «ВКон­так­те» ца­ри­ла ат­мо­сфе­ра стар­та­па. Мы все были и ана­ли­ти­ка­ми, и раз­ра­бот­чи­ка­ми — на эн­ту­зи­аз­ме вы­тас­ки­ва­ли та­кие за­да­чи, ко­то­рые ре­ша­ют обыч­но че­ло­век 50. За вре­мя ра­бо­ты в соц­се­ти я по­нял, как устро­е­ны мно­гие про­цес­сы в IT-ко­ман­дах, и в ка­кой-то мо­мент ре­шил боль­ше вре­ме­ни уде­лять сво­им про­ек­там. Недав­но я пе­ре­ехал в Моск­ву и на­чал ра­бо­тать ана­ли­ти­ком в от­де­ле ре­кла­мы Mail.ru.

Офис ВКонтакте в Санкт-Петербурге
Офис ВКонтакте в Санкт-Петербурге

Моя ис­то­рия — хо­ро­ший при­мер еще од­но­го ме­то­да обу­че­ния: сра­зу сфор­му­ли­ро­вать за­да­чу и на­чать дей­ство­вать. На­при­мер, твоя цель — на­учить­ся де­лать что-то в Python. За­прос уже сфор­ми­ро­ван, даль­ше мож­но взять несколь­ко кур­сов, где раз­би­ра­ют эту темы, но не про­хо­дить их пол­но­стью, а по­смот­реть толь­ко то, что тебе ин­те­рес­но и важ­но. Я, на­вер­ное, изу­чил все кур­сы по про­грам­ми­ро­ва­нию на Stepik, Cours­era и EdX, но ни один из них не про­шел до кон­ца.

Я сме­нил про­фес­сию бла­го­да­ря он­лайн-об­ра­зо­ва­нию. Еще 20 лет на­зад невоз­мож­но было пред­ста­вить, что че­ло­век мог чему-то на­учить­ся вне уни­вер­си­те­та. С по­яв­ле­ни­ем круп­ных про­ек­тов в он­лайн-об­ра­зо­ва­нии мож­но стать очень кру­тым спе­ци­а­ли­стом, не имея выс­ше­го. В IT-ин­ду­стрии этим уже ни­ко­го не уди­вишь: на­при­мер, Сева Жид­ков еще не окон­чил шко­лу, а уже воз­глав­лял ко­ман­ду раз­ра­бот­ки «ВКон­так­те».

«Ана­ли­тик — это и про­грам­мист, и мар­ке­то­лог, и немно­го дата-сай­ен­тист»

Тер­мин «ана­ли­тик» сфор­му­ли­ро­ван мак­си­маль­но ши­ро­ко, что от­лич­но ха­рак­те­ри­зу­ет те­ку­щее по­ло­же­ние дел на рын­ке. Са­мый пер­вый пласт за­дач ана­ли­ти­ка — ор­га­ни­за­ция про­цес­са ра­бо­ты с дан­ны­ми в ком­па­нии. Все долж­но ле­жать в од­ном ме­сте, к ко­то­ро­му бу­дет до­ступ у каж­до­го со­труд­ни­ка. Сле­ду­ю­щий пласт — за­да­чи на сты­ке ма­шин­но­го обу­че­ния и ста­ти­сти­ки, что уже ин­те­рес­нее. При­мер из моей ра­бо­ты: во «ВКон­так­те» поль­зо­ва­те­ли мо­гут раз­ме­щать ре­клам­ные объ­яв­ле­ния в лен­те но­во­стей. Ещё до того, как че­ло­век за­пу­стит объ­яв­ле­ние, мы мо­жем пред­ска­зать, на­сколь­ко оно бу­дет успеш­ным. Если на эта­пе со­зда­ния объ­яв­ле­ния мы уже по­ни­ма­ем, что оно не поз­во­лит до­стичь по­став­лен­ных це­лей, мож­но сра­зу под­ска­зать поль­зо­ва­те­лю, как сто­ит улуч­шить на­строй­ки объ­яв­ле­ния и убе­речь его от бес­по­лез­ной тра­ты де­нег. Та­кие пред­ска­за­ния на ос­но­ве име­ю­щих­ся дан­ных тоже мо­гут быть за­да­чей ана­ли­ти­ка.

Он та­к­же дол­жен раз­би­рать­ся в Data Sci­ence. Дата-сай­ен­тист — это тот, кто по­ни­ма­ет, как из дан­ных, ко­то­рые есть у биз­не­са, из­влечь по­лез­ные за­ко­но­мер­но­сти, опи­сать их ма­те­ма­ти­че­ски и ре­шить та­ким об­ра­зом опре­де­лен­ные за­да­чи. Са­мый ба­наль­ный при­мер: если у нас есть он­лайн-ма­га­зин, мож­но сде­лать си­сте­му ум­ной ре­ко­мен­да­ции. То­ва­ры бу­дут пред­ла­гать­ся с уче­том преды­ду­ще­го по­ве­де­ния кли­ен­та. Бо­лее слож­ный при­мер ма­шин­но­го обу­че­ния — на­учить бес­пи­лот­ные ав­то­мо­би­ли ав­то­ма­ти­че­ски рас­по­зна­вать, где на­хо­дит­ся пе­ше­ход, а где дру­гие транс­порт­ные сред­ства. Дата-сай­ен­ти­сты — это, в первую оче­редь, экс­пер­ты в ма­шин­ном обу­че­нии. Они при­ме­ня­ют слож­ные ма­те­ма­ти­че­ские мо­де­ли, ал­го­рит­мы и ней­рон­ные сети, ко­то­рые поз­во­ля­ют про­грам­мам са­мо­сто­я­тель­но обу­чать­ся слож­ным на­вы­кам. На­при­мер, если мы хо­тим на­учить ней­ро­сеть рас­по­зна­вать со­ба­чек и ко­ти­ков на фо­то­гра­фии, нуж­но со­здать слож­ный ма­те­ма­ти­че­ский ал­го­ритм. Мы по­ка­жем ему де­сять ты­сяч фо­то­гра­фий ко­ти­ков и со­ба­чек, пред­ста­вим их в виде неко­е­го на­бо­ра цифр и до­бьем­ся от ал­го­рит­ма, что­бы он сам на­шел от­ли­чия меж­ду жи­вот­ны­ми и на­чал это при­ме­нять.

Каж­дый раз, ко­гда вы раз­бло­ки­ру­е­те те­ле­фон при по­мо­щи Face ID, вы ви­ди­те ре­зуль­тат ма­шин­но­го обу­че­ния. В те­ле­фоне есть хит­рый ал­го­ритм, ко­то­рый на­учи­ли по­ни­мать, что пе­ред ним имен­но лицо вла­дель­ца, а не рас­пе­ча­тан­ная фо­то­гра­фия или дру­гой че­ло­век. Ма­шин­ное обу­че­ние ис­поль­зу­ет­ся и в пер­со­на­ли­за­ции кон­тен­та: лен­ты со­ци­аль­ных се­тей, ре­ко­мен­да­ции се­ри­а­лов на Net­flix, даже внеш­нее оформ­ле­ние сай­та мо­жет от­ли­чать­ся в за­ви­си­мо­сти от пред­по­чте­ний поль­зо­ва­те­ля.

Подробнее о Data Sci­ence и образовательных курсах для аналитиков-новичков в продолжении текста на сайте «Цеха»!

Анастасия Котлякова

«Цех» — медиа о непрерывном образовании взрослых людей. Мы целиком захвачены идеей постоянного развития личности — профессионального, интеллектуального, эмоционального и даже духовного. Мы исследуем, как, чему и где лучше всего учиться и, главное, зачем. Если вам понравился этот материал, подпишитесь, пожалуйста, на нашу почтовую рассылку.