Добавить в корзинуПозвонить
Найти в Дзене
byGalimyanov

Как я писал диплом (ВКР). Часть 0 “Не с начала” — как я связался с российской академией наук и зачем лингвистам нейросети.

Зачем я это пишу? Я считаю, что ваша выпускная работа должна быть интересной и нужной, а не формальной работой для получения диплома. В статьях я постараюсь рассказать о подводных камнях и собственном опыте написания диплома. Диплом я пишу в сотрудничестве с институтом РАН и надеюсь,что мой рассказ поможет вам избежать ошибок при написании выпускной работы и в выборе темы для неё. Глава 1: «Как я очутился, сдуру, где вечный сюр, посередине жизни в сумеречном лесу?» — о том, как я связался с нужным преподавателем При изучении дисциплины «Основы языка Java» преподавателем была предложена альтернативная методика прохождения курса, а именно проектное командное обучение. Суть в том, что вместо сдачи лабораторных работ, мы делаем проект, а в конце семестра защищаем его. Мне тема была предложена довольно сумбурно, дело в том, что в прошлом году студент разбирался с нейронными сетями — математическая модель, а также её программное воплощение, построенная как попытка смодели
Оглавление

Зачем я это пишу? Я считаю, что ваша выпускная работа должна быть интересной и нужной, а не формальной работой для получения диплома. В статьях я постараюсь рассказать о подводных камнях и собственном опыте написания диплома. Диплом я пишу в сотрудничестве с институтом РАН и надеюсь,что мой рассказ поможет вам избежать ошибок при написании выпускной работы и в выборе темы для неё.

Глава 1: «Как я очутился, сдуру, где вечный сюр, посередине жизни в сумеречном лесу?» — о том, как я связался с нужным преподавателем

При изучении дисциплины «Основы языка Java» преподавателем была предложена альтернативная методика прохождения курса, а именно проектное командное обучение. Суть в том, что вместо сдачи лабораторных работ, мы делаем проект, а в конце семестра защищаем его.

Мне тема была предложена довольно сумбурно, дело в том, что в прошлом году студент разбирался с нейронными сетями — математическая модель, а также её программное воплощение, построенная как попытка смоделировать процессы, протекающие в мозге. Сотрудникам кафедры стала интересна эта тематика и они предложили сравнить программные библиотеки для машинного обучения для языков Java и Python. И их сравнение в плане скорости и точности.

Я был ответственный за Python, а мой коллега за Java. Быстро войдя в тему, я понял, что тема бесполезная, а многие ответы уже есть на англоязычных ресурсах. Оставалось только в спокойном темпе предоставлять информацию руководителю, преподнося это как очень хорошо проделанную работу. Вообще она велась, но не по той тематике, по которой нам предстояло представить проект.

Здесь то я и заимел хорошие отношения с преподавателем, который будет посредником между мной и ИПС РАН. И да, я сдал Java, писав всё на Python 😊

Глава 2: «Раньше было как?» — Кто такие ИПС РАН и что они делают в Переславле-Залесском

Институт программных систем имени А. К. Айламазяна РАН — научный институт Российской академии наук, специализирующийся на изучении теоретических и практических проблем информационных систем управления, аппаратного и программного обеспечения вычислительных комплексов, компьютерных сетей и информационных систем, интеллектуальных методов обработки информации, математического моделирования сложных систем.

Создан в апреле 1984 года, первый директор — Альфред Айламазян. Размещён в специально выстроенном для института здании в Ярославской области, г. Перееславль-Залесский. На вопрос «А почему здесь, а не в Москве?» в ответ говорилось что-то на уровне «А вам что плохо от этого будет?». К — конструктив…

Город находится в 140 км. от Москвы. Здесь нет вокзала, а автобус до Сергиева Посада, где есть вокзал, ходит лишь 2 раза в день. Всего сто сорок километров от столицы, а логистика такая, что я быстрее доберусь до Ханты-Мансийска. Основан город в 1152 году князем Юрием Долгоруким в качестве будущей столицы Северо-Восточной Руси. Переславль-Залесский был очень большим городом и по меркам всей Руси. В то время больше него были только Киев и Смоленск, а Москва была меньше по периметру в 3 раза (по площади в 9 раз).

Глава 3: «Типографской краски изначальный стиль не виден» — Проблемы нормализации дат в естественных текстах

Научить компьютер читать сложнее, чем ребёнка
Научить компьютер читать сложнее, чем ребёнка

Одна из составляющих задачи извлечения из текста фактической информации — определение времени, соответствующего событию. Информация, позволяющая локализовать событие на временной оси, передается посредством разнообразных по форме и содержанию текстовых выражений — темпоральных, или временных. Для того чтобы информация из текста была доступна различным аналитическим приложениям, она должна быть нормализована, т.е. приведена к стандартизованному машиночитаемому формату, например, программа не поймёт формат даты “29 день второго месяца зимы”, но справится с “2020–02–29”.

Даты можно разделить на абсолютные (содержащие все необходимые для идентификации календарного интервала значения, например 29.02.2019) и контекстные (непрямая или неполная референция к календарю: сегодня, в позапрошлом году). Практический интерес представляют прежде всего те временные выражения, которые служат для привязки событий к календарю. Поскольку нормализация абсолютной даты представляет собой техническую задачу, то проблемы нормализации затрагиваются обычно в связи с датами. Под нормализацией относительной или неполной даты понимается не столько запись её в требуемом формате, сколько установление её абсолютного значения — идентификация соответствую ей календарной единицы. Это и есть задача, которую в институте предполагают решать при помощи нейронных сетей.

Глава 4: «Мы идём на глубине, путями тёмными» — Поездка и соглашение

Итак, когда с нас стали трясти в ВУЗе наше место практики, я проходил второй этап собеседования в RSC-GROUP на должность front-end разработчика. Собственно ответственному за практику преподавателю я и сказал, что хочу попасть в компанию по работе с интерфейсами для суперкомпьютеров. Мне сказали, что у нас есть преподаватель, который желает заполучить студента, готового работать с суперкомпьютерами.

Через заведующего кафедрой я связался с этим человеком и им оказался мой преподаватель по Java («Всё переплетено, море нитей, но…»). Мне выслали все варианты взаимодействия с РАН и их научные публикации за последний год. Изучив вопрос, я выбрал Исследовательский центр искусственного интеллекта. Речь шла про суперкомпьютеры? Ахаха… На архитектуре Эльбрус — спасибо, я не хочу быть голодным 😊

Пришлось предпринять немало инициативных действий — наматывайте на ус: даже заинтересованные лица не станут вас искать, так что всё только в ваших руках. За мной подтянули ещё двоих, но что-то мне подсказывает, что без меня ничего бы не было из-за неуверенности в наборе кадров для взаимодействия с институтом.

14 января мы поехали из Зеленограда в Переславль на машине (я уже говорил о проблемах логистики?). Через 3 часа нас встретила грустная картина. Особенно на контрасте со Сколково, где я был несколько недель назад.

Выглядит уныло и заброшено.
Выглядит уныло и заброшено.

Здесь я лично познакомился с научными сотрудниками, специализирующимися на анализе естественного языка.

Зачем им это нужно и что в этом полезного? Дело в том, что сотрудники института получают финансирование за счёт грантов. А их выдают только за глобальные работы. Проблема в том, что на фундаментальные вещи в таком случае не хватает времени, а без должного инструментария выполнение работ очень затруднено.

Поэтому они рады предоставить для нас темы и оформить как практикантов в РАН, что позволяет оптимизировать нагрузку. Ты можешь работать, где захочешь и не нужно тратить время на не перспективном предприятии или кафедре. Ещё один плюс — это то, что у тебя уже будет тема для магистерской работы, так как задачи даются масштабируемые, в отличие от обычных в вузе.

Лично у меня тема диплома “Нормализация абсолютных дат в естественных текстах”, а магистерской уже будет для контекстной идентификации календарного интервала. Кстати, вузподдерживает мои начинания и работу с бумагами оформления места практики взяло на себя.

Российский Скайнет…
Российский Скайнет…