Программист в отпуске (постоянно) | Субачев Денис

48 подписчиков

Задача # 13. Разбор задачи по SQL: Поиск пассажиров с полными тёзками

27 апреля 202527 апр 2025

211

2 мин

Вывести имена людей, у которых есть полный тёзка среди пассажиров SQL — это универсальный язык для взаимодействия с базами данных, который должен знать каждый аналитик, разработчик и дата-инженер. На собеседованиях кандидатам часто предлагают решить практические задачи: написать эффективные запросы, оптимизировать их и предложить решение для конкретных бизнес-кейсов. Давай разберём распространённые типы SQL-задач и эффективные подходы к их решению. Предыдущее задание: Требуется вывести имена пассажиров, у которых есть хотя бы один полный тёзка (человек с точно таким же именем) в базе данных. Результирующая таблица должна содержать одно поле: Для решения задачи нам понадобится таблица: SELECT name

FROM Passenger

GROUP BY name

HAVING COUNT(*) >= 2; SELECT DISTINCT p1.name

FROM Passenger p1

WHERE EXISTS (

SELECT 1

FROM Passenger p2

WHERE p1.name = p2.name

AND p1.id != p2.id

); SELECT name, COUNT(*) AS name_count

FROM Passenger

GROUP BY name

HAVING COUNT(*) >= 2

FROM Passenger

GROUP BY name

HAVING COUNT(*) >= 2; SELECT DISTINCT p1.name

FROM Passenger p1

WHERE EXISTS (

SELECT 1

FROM Passenger p2

WHERE p1.name = p2.name

AND p1.id != p2.id

); SELECT name, COUNT(*) AS name_count

FROM Passenger

GROUP BY name

HAVING COUNT(*) >= 2

Оглавление

Постановка задачи
Анализ структуры базы данных
Детальный разбор решения

Вывести имена людей, у которых есть полный тёзка среди пассажиров

SQL — это универсальный язык для взаимодействия с базами данных, который должен знать каждый аналитик, разработчик и дата-инженер. На собеседованиях кандидатам часто предлагают решить практические задачи: написать эффективные запросы, оптимизировать их и предложить решение для конкретных бизнес-кейсов. Давай разберём распространённые типы SQL-задач и эффективные подходы к их решению.

Предыдущее задание:

Задача # 12. Разбор задачи по SQL: Подсчёт пассажиров на рейсах (включая рейсы без пассажиров)

Программист в отпуске (постоянно)27 апреля 2025

Постановка задачи

Требуется вывести имена пассажиров, у которых есть хотя бы один полный тёзка (человек с точно таким же именем) в базе данных. Результирующая таблица должна содержать одно поле:

name — имя пассажира (только для тех, у кого есть тёзки)

Анализ структуры базы данных

Для решения задачи нам понадобится таблица:

Passenger — содержит информацию о пассажирах:
name — полное имя пассажира (единственное поле, нужное для решения)
Другие поля (не требуются для этой задачи)

Детальный разбор решения

Решение для MySQL/PostgreSQL

SELECT name
FROM Passenger
GROUP BY name
HAVING COUNT(*) >= 2;

Пошаговое объяснение:

FROM Passenger — выбираем данные из таблицы пассажиров
GROUP BY name — группируем записи по полному имени
HAVING COUNT(*) >= 2 — фильтруем группы, оставляя только те имена, которые встречаются 2 и более раз
SELECT name — выводим только имена (без количества)

Ключевые аспекты решения

1. Различие между WHERE и HAVING

WHERE фильтрует строки до группировки
HAVING фильтрует результаты после группировки
В данной задаче важно использовать именно HAVING, так как фильтрация выполняется по результату агрегации

2. Использование COUNT(*)

COUNT(*) подсчитывает все строки в группе
Можно использовать COUNT(name) — результат будет одинаковым, так как GROUP BY уже выполнен по name
Условие >= 2 означает "два и более одинаковых имени"

3. Особенности группировки

GROUP BY name объединяет все записи с одинаковыми именами
Для каждого уникального имени создаётся одна группа
В SELECT можно указывать только столбцы из GROUP BY или агрегатные функции

Альтернативные варианты решения

1. С использованием подзапроса

SELECT DISTINCT p1.name
FROM Passenger p1
WHERE EXISTS (
SELECT 1
FROM Passenger p2
WHERE p1.name = p2.name
AND p1.id != p2.id
);

2. С явным выводом количества тёзок

SELECT name, COUNT(*) AS name_count
FROM Passenger
GROUP BY name
HAVING COUNT(*) >= 2
ORDER BY name_count DESC;

3. С использованием оконных функций (PostgreSQL)

SELECT DISTINCT name
FROM (
SELECT name, COUNT(*) OVER (PARTITION BY name) AS name_count
FROM Passenger
) counted
WHERE name_count >= 2;

Оптимизация запроса

Для больших таблиц:

Создать индекс на поле name
Для MySQL использовать FORCE INDEX при необходимости
Для PostgreSQL рассмотреть использование HASH для группировки

Частые ошибки

Использование WHERE вместо HAVING для фильтрации по COUNT
Забыть условие >= 2 (вернёт все имена)
Включение лишних столбцов в SELECT без агрегации
Использование DISTINCT без необходимости (GROUP BY уже устраняет дубликаты)

Дополнительные соображения

В реальной системе могут быть проблемы с однофамильцами (если name содержит ФИО)
Можно учитывать регистр (добавить LOWER(name) при группировке)
Для больших баз данных можно добавить лимит на количество результатов

Заключение

Данная задача демонстрирует:

Правильное использование GROUP BY и HAVING
Особенности работы с агрегатными функциями
Эффективные способы поиска дубликатов в SQL

🔑 Итоговое решение:

SELECT name
FROM Passenger
GROUP BY name
HAVING COUNT(*) >= 2;

Дополнительный вариант с сортировкой:

SELECT name
FROM Passenger
GROUP BY name
HAVING COUNT(*) >= 2
ORDER BY name;

Гаджеты и электроника

5,73 млн интересуются