Постоянно сталкиваюсь с проблемой проверки данных.
Рассматриваю случаи ручной проверки данных, в тех слуаях, когда из уетных систем невозможно выгрузить данные (да, иногда так бывает).
Например, из одной учетной системы перегрузили данные в другую, вроде бы все должно быть хорошо, но не всегда так бывает. Необходимо проверить, а как? Эту проблему решает статистка. Пользуюсь онлайн калькулятором. Ставлю доверительный интервал 95%. Почему 95%? Можно и больше/меньше, но принято брать доверительный интервал 95%. Это максимально возможный результат при минимальных затратах (то есть вероятность ошибиться только 5%)
Для того, чтобы не проверять все данные, необходимо проверить объем данных, которые обеспечат достоверность только 95% данных.
Генеральная совокупность- вообще все данные (строки).
Выборка - данные, которые вы проверили (строки).
Если перезагрузили 1 000 000 строк, то достаточно проверить 384 записи (есть правила проведения выборки, которые стоит учитывать). Технически должна быть возможность проверить все 100%, но у нас по другому и мы не ищим легких путей.