100 подписчиков

Подсчёт сессий пользователей на сайте через SQL

13 мая 202513 мая 2025

4 мин

Частая задача подсчёта количества сессий пользователей сайта. Решаем на SQL, пишем в Jupyter Notebook... import pandas as pd import numpy as np import random import sqlite3 from datetime import datetime, timedelta # Настройки генерации num_users = 10 # Количество уникальных пользователей events_per_user = 20 # Среднее количество событий на пользователя start_date = datetime(2024, 1, 1) end_date = datetime(2024, 12, 31) # Генерация данных data = [] for user_id in range(1, num_users + 1): ···# Случайное количество событий для пользователя (от 10 до 100) ···num_events = random.randint(10, 100) ···# Базовое время первого события пользователя first_event_time = start_date + timedelta( ···days=random.randint(0, (end_date - start_date).days), ···hours=random.randint(0, 23), ···minutes=random.randint(0, 59)) # Генерация сессий current_time = first_event_time for _ in range(num_events): ···# Добавляем событие ···data.append({ ······'user_id': user_id, ······'dt': current_time}) # Следующее с

Оглавление

Импорт библиотек
Генерация данных
Создаем DataFrame

Частая задача подсчёта количества сессий пользователей сайта. Решаем на SQL, пишем в Jupyter Notebook...

Импорт библиотек

import pandas as pd

import numpy as np

import random

import sqlite3

from datetime import datetime, timedelta

Генерация данных

# Настройки генерации

num_users = 10 # Количество уникальных пользователей

events_per_user = 20 # Среднее количество событий на пользователя

start_date = datetime(2024, 1, 1)

end_date = datetime(2024, 12, 31)

# Генерация данных

data = []

for user_id in range(1, num_users + 1):

···# Случайное количество событий для пользователя (от 10 до 100)

···num_events = random.randint(10, 100)

···# Базовое время первого события пользователя

first_event_time = start_date + timedelta(

···days=random.randint(0, (end_date - start_date).days),

···hours=random.randint(0, 23),

···minutes=random.randint(0, 59))

# Генерация сессий

current_time = first_event_time

for _ in range(num_events):

···# Добавляем событие

···data.append({

······'user_id': user_id,

······'dt': current_time})

# Следующее событие - либо в той же сессии, либо новая сессия

if random.random() < 0.8: # 80% вероятность продолжения сессии

···delta = timedelta(seconds=random.randint(1, 300)) # 1-300 секунд между событиями

···else:

······delta = timedelta(hours=random.randint(1, 24)) # Новая сессия через 1-24 часа

current_time += delta

# Не выходим за границы периода

if current_time > end_date:

···break

Создаем DataFrame

df = pd.DataFrame(data)

# Сортируем по времени

df = df.sort_values('dt').reset_index(drop=True)

# Просмотр

df.info()

display(df)

Заливаем данные в БД

# Подключаемся к SQLite (файл создастся автоматически)

conn = sqlite3.connect('my_database.db') # путь к файлу

# Сохраняем DataFrame в таблицу 'data'

df.to_sql('client_log', conn, index=False, if_exists='replace')

# Не забываем закрыть соединение

conn.close()

Запрос в БД. Проверка, что всё нормально

# Подключаемся к базе

conn = sqlite3.connect('my_database.db')

# SQL-запрос:

query = """SELECT * FROM client_log AS t"""

result_df = pd.read_sql(query, conn)

print('Сгенерированный датафрейм')

display(result_df)