3.2. Машинное обучение и наука
Машинное обучение способствует ускорению и высокой точности научных исследований. Самообучающийся алгоритм, как и ученый, обобщает, проверяет, исключает и уточняет гипотезы. Однако человек может выдвинуть и протестировать лишь несколько десятков предположений в течение жизни, а система машинного обучения сделает это за долю секунды. Активное применение машинного обучения в науке приведет к революции — каждый день будут происходить многочисленные открытия. Для развития науки необходимы данные.
Заметки Тихо Браге (датский астроном эпохи Возрождения.) о положении планет и наблюдения Галилео Галилея за маятником и наклонными плоскостями содержали данные, которых оказалось достаточно, чтобы сформулировать законы Ньютона.
Социальные науки требуют больше данных, чем точные. Небольшая выборка будет неточной. Кроме того, социальные явления зависят от множества факторов.
Сегодня благодаря интернету и компьютерным технологиям у нас есть доступ к большим объемам данных.
На Facebook больше миллиарда пользователей разных возрастов, из разных стран и социальных слоев, которые добровольно рассказывают о своей жизни. Коннектономика (область исследований нервной системы человека посредством картографирования и анализа архитектуры нейронных связей.) и МРТ позволили ученым подробно изучать головной мозг и нервную систему. В молекулярной биологии в геометрической прогрессии растут базы данных. Даже такие древние науки, как физика и астрономия, получают новые данные из ускорителей частиц и исследований неба.
Большие данные сами по себе не принесут пользы, если их нельзя превратить в знание. Но в мире слишком мало ученых, чтобы справиться с этой задачей.
Эдвин Хаббл (выдающийся астроном и космолог XX века.) открывал новые галактики, изучая фотографические пластинки, но его достижения не идут ни в какое сравнение с 500 млн небесных тел, о которых мы узнали благодаря проекту Digital Sky Survey. Можно самим сформулировать правила, как отличить галактики от звезд и других предметов, но они не будут точными. Поэтому в проекте SKICAT, занимающемся анализом изображений неба, применяли обучающийся алгоритм. Получив платы с объектами, которые уже отнесены к определенным категориям, он анализировал, что характерно для каждой из них, а затем применял эти данные к неопознанным пластинам. В результате, алгоритм сумел классифицировать слабые объекты, которые человек не смог бы различить.
Благодаря большим данным и машинному обучению можно открыть и понять более сложные феномены. Алгоритмы машинного обучения определяют местонахождение генов в молекуле ДНК и выясняют, как заболевания влияют на гены, поэтому больше не нужно тестировать в лаборатории множество лекарств. Обучающийся алгоритм спрогнозирует их эффективность и выберет для тестирования самые перспективные. Алгоритмы также будут отсеивать лекарства, которые, вероятно, дадут побочные эффекты.
Самое сложное в современной науке — собрать всю информацию в единое целое. Объем знаний увеличивается, и ученые все чаще специализируются на какой то узкой области, потому что данных слишком много. Ученые пытаются следить за другими исследованиями, однако публикаций так много, что они все больше отстают и теряются в информационном потоке. Порой повторить эксперимент проще, чем найти статью, в которой он описан. Машинное обучение помогает просеивать литературу в поисках нужной информации и находить связи как внутри научной области, так и между областями.
В лаборатории Манчестерского института биотехнологий работает робот Адам. Его задача — определить, какие гены кодируют ферменты дрожжей. У Адама есть модель метаболизма дрожжевой клетки и базовые знания о белках и генах. Он выдвигает гипотезы, экспериментирует, анализирует результаты. Сегодня научные выводы Адама проверяют люди, но совсем скоро этим займутся роботы.
ВНИМАНИЕ! ПРОДОЛЖЕНИЕ В СЛЕДУЮЩЕЙ ПУБЛИКАЦИИ. Ну, а я не прощаюсь с Вами. А говорю Вам до скорой встречи на моем блоге. До волнующих моментов Нашей жизни))