Статьи
33 прочтения · 8 месяцев назад
PostgreSQL
PostgreSQL — это мощная и расширяемая система управления реляционными базами данных (СУБД), основанная на объектно-реляционной модели. Она известна своей надежностью, масштабируемостью и возможностью обработки больших объемов данных. Вот несколько ключевых особенностей PostgreSQL: 1. Открытый исходный код: PostgreSQL распространяется под открытой лицензией, что позволяет кому угодно бесплатно использовать, модифицировать и распространять его. 2. Поддержка SQL: PostgreSQL полностью совместим с языком...
42 прочтения · 8 месяцев назад
Линейный график (Line Plot)
Линейный график — визуализация данных, которая отображает зависимость переменной от другой в виде линии. Допустим, у нас есть данные о ежедневной температуре в течение недели. Мы хотим визуализировать эту информацию в виде графика. Вот пример кода на Python: import matplotlib.pyplot as plt # Дни недели days = ['Пн', 'Вт', 'Ср', 'Чт', 'Пт', 'Сб', 'Вс'] # Температуры temperatures = [25, 24, 23, 22, 24, 26, 27] # Создаем Line Plot plt.figure(figsize=(10, 5)) plt.plot(days, temperatures, marker='o', color='b', linestyle='-') # Добавляем заголовок и подписи осей с помощью функций `plt...
59 прочтений · 10 месяцев назад
MLOps
MLOps (Machine Learning Operations) – это практики и инструменты для обеспечения полного жизненного цикла Машинного обучения (ML). Эта концепция возникла как ответ на сложности, связанные с интеграцией ML в процессы разработки программного обеспечения. MLOps стремится обеспечить более гладкое и эффективное взаимодействие между данными, разработчиками и операционной инфраструктурой. В основе концепции лежит идея, что разработка Моделей (Model) машинного обучения – это не только эксперименты с данными...
76 прочтений · 11 месяцев назад
Curve Fitting в Машинном обучении простыми словами
Кривая аппроксимации (Curve Fitting) – это процесс нахождения математической функции (например, синусоиды), которая наилучшим образом описывает набор данных. Она используется для поиска зависимостей между переменными и для прогнозирования значений на основе имеющихся данных. Допустим, у нас есть набор данных – точки на плоскости, и мы хотим найти функцию, которая проходит через эти точки. Рассмотрим следующий пример: Предположим, у нас есть следующие данные (x, y): (x=1, y=3)(x=2, y=5)(x=3, y=7)(x=4,...
113 прочтений · 11 месяцев назад
Grid Search в Машинном обучении простыми словами
Алгоритм поиска по сетке – это метод подбора оптимальных гиперпараметров для Модели (Model) путем перебора всех возможных комбинаций значений Гиперпараметров (Hyperparameter) из заданного набора. Гиперпараметры – это параметры модели, которые не оптимизируются во время процесса обучения, а задаются до его начала. Их оптимальный выбор влияет на качество и обобщающую способность модели. Допустим, мы создали Дерево решений (Decision Tree) для банковского кредитного датасета. С полным кодом модели вы можете ознакомиться в этом ноутбуке...
25 прочтений · 11 месяцев назад
ClickHouse
ClickHouse – это колоночная база данных с открытым исходным кодом, предназначенная для обработки и анализа больших объемов данных с высокой производительностью. Она была создана компанией Яндекс и стала популярным решением для хранения и обработки данных в реальном времени. Колоночная база данных, в отличие от классической строковой, хранит данные в таблицах с огромным количеством столбцов, каждый из которых был бы рядом в строковой БД: ClickHouse специально оптимизирована для работы с запросами за очень короткое время...
37 прочтений · 11 месяцев назад
SQL в Машинном обучении простыми словами
Язык структурированных запросов (англ. SQL – Structured Query Language) – это язык программирования, используемый для работы с базами данных. Он позволяет создавать, изменять и управлять базами данных, а также извлекать информацию из них. Несмотря на солидный возраст языка и множество недостатков, до сих пор является общепринятым стандартом обращения с данными, в том числе и с большими. Для таких хранилищ, как Google BigQuery, Apache Hadoop даже создали диалекты языка SQL. Стоит отличать SQL от MySQL...
57 прочтений · 1 год назад
Нейронная машина Тьюринга простыми словами
Нейронная машина Тьюринга (Neural Turing Machine, NTM) – это комбинация идей из области Нейронных сетей (Neural Network) и машины Тьюринга. NTM представляет собой модель Искусственного интеллекта (AI), которая расширяет возможности классической нейронной сети, добавляя к ней элементы памяти и адресации. Основная идея NTM состоит в том, что она использует внешнюю память, к которой она может обращаться для чтения и записи данных. Эта память управляется нейронной сетью, которая может обучаться и принимать решения на основе полученных данных...
83 прочтения · 1 год назад
Boosting в Машинном обучении простыми словами
Бустинг – это метод Ансамблевого (Ensemble) обучения, при котором несколько слабых моделей объединяются для создания сильной модели. Основная идея – обучать каждую следующую модель на ошибках предыдущих моделей. Один из популярных алгоритмов бустинга - XGBoost. XGBoost: пример Для начала импортируем необходимые библиотеки: Бостонский датасет из напрямую доступных в scikit-learn убрали из соображений конфиденциальности, однако его все же можно подгрузить с cайта Carnegie Mellon Uneversity. Мы сразу...
12 прочтений · 1 год назад
Kafka
Kafka – это распределенная платформа обработки данных с открытым исходным кодом, разработанная Apache Software Foundation. Она предоставляет высокопроизводительный, масштабируемый и устойчивый к сбоям способ передачи данных между различными приложениями или сервисами. Основной компонент Kafka – это "брокеры" (brokers), которые являются серверами, отвечающими за хранение и обработку данных. Брокеры Kafka работают в кластере, где каждый брокер отвечает за хранение и обработку определенной части данных...
82 прочтения · 1 год назад
9 вещей, которые помогли мне стать дата-сайентистом
В этой статье я расскажу о вещах, которые помогли мне получить свою первую работу в Data Science. Нет никакого способа подсластить пилюлю: получить работу в области Науки о данных сложно и это потребует много работы. Эта статья поможет вам стратегически относиться к тому, на что вы тратите свое время и энергию. Делясь своим личным опытом, я хочу помочь вам отфильтровать шум и маркетинговую чепуху, которая окружает индустрию. Поскольку наука о данных – модная отрасль, нам часто пытаются что-то продать...
47 прочтений · 1 год назад
Виды функций активации
Функция активации – это фрагмент программного кода, добавляемый в искусственную Нейронную сеть (Neural Network), чтобы помочь ей изучить сложные закономерности данных. В сравнении с нейронами нашего мозга, функция активации решает, что должно быть запущено в следующий нейрон. Она принимает...