Найти тему
Игорь Тарасов

ЕГРЮЛ, ЕГРИП в виде архивов ФНС, csv, xml, json (API) и анализ данных

Оглавление

API ЕГРЮЛ в XML, JSON, csv бесплатно
API ЕГРЮЛ в XML, JSON, csv бесплатно

Необходимое предисловие в эти чёрные дни

С началом войны РФ с Украиной мои статьи потеряли смысл на фоне этого ада. Продуктивно работать почти невозможно. Кто-то потерял дом, кто-то детей. Миллионы беженцев.

Два из трёх этажей своего дома я отдал под размещение двух семей беженцев с детьми. Если у вас есть возможности, помогайте нуждающимся.

Сейчас много пишут про поддержку бизнеса в РФ. Самая лучшая поддержка бизнесу и народу — вывести войска из Украины. Людей убивать нельзя!

Деньги на ЕГРИП были собраны донатами до войны. С опозданием, но я должен выполнить обещанное.

Доступ к данным ЕГРИП в XML и JSON

Если вы не прочитали статью “ЕГРЮЛ, доходы и расходы, налоги, количество сотрудников в XML и JSON бесплатно”, то начните с неё, там описано как получить данные в XML или JSON по ИНН или ОГРН. Там же есть примеры кода и ссылки на описание форматов данных.

Для индивидуальных предпринимателей точно также данные получаются по ИНН или ОГРНИП.

Все индивидуальные предприниматели, доступны по следующим ссылкам с ИНН физических лиц:

Индивидуальные предприниматели также доступны по ссылкам с ОГРНИП.

Оригинальные архивы ЕГРЮЛ, ЕГРИП

Эти архивы ФНС РФ предоставляет за 300 000р. в год:

Мы написали претензию ФНС с требованием выложить все архивы с 2002 года и получили отписку. Сейчас в данных обстоятельствах нет моральных сил с ними судиться и биться за развитие российской экономики. Пока взяли паузу. Может война закончится, а может экономика. И тогда вопрос отпадёт сам собой.

В папках _FULL все данные на начало года. Далее изменения.

Обработанные данные в форматах csv

Архивы ЕГРЮЛ, ЕГРИП и обновления к ним в формате csv.

  • org: ОГРН, ИНН, max_num;
  • org2: организации;
  • person: физические лица и индивидуальные предприниматели;
  • org_chief: руководители организаций;
  • founder: учредители;
  • mng: управляющие организации;
  • income_outcome: доходы и расходы;
  • taxes: налоги;
  • tax_systems: налоговые системы;
  • ssch: среднесписочная численность;
  • msp: микропредприятия, малые, средние;
  • support: господдержка;
  • okved_ref: оквэд;
  • opf: организационно-правовая форма;
  • org_status_ref: справочник статусов организаций;
  • org_status: статусы организаций;
  • predecessor: предшественники;
  • country: страны.

min_num, max_num, cdate_num, update_at_num — это сокращённая форма даты в виде двухбайтового целого. Дата в номер и обратно преобразуется по следующим правилам:

$d = date(‘Y-m-d’);

$d_num = (intval($d[2] . $d[3])<<9) + (intval($d[5] . $d[6])<<5) + intval($d[8] . $d[9]);

$d2 = '20' . sprintf("%'.02d", $d_num>>9) . '-' . sprintf("%'.02d", ($d_num>>5)&15) . '-' . sprintf("%'.02d", $d_num&31);

Эти поля нужны для реализации Медленно меняющихся измерений (от англ. Slowly Changing Dimensions, SCD) типа 2. min_num или cdate_num хранят дату начала действия этой строки, например, для руководителя — это дата когда человек стал руководителем организации. max_num, updated_at_num — дата последней выписки где данный факт был обнаружен. Если дата org_chief.max_num меньше org.max_num, то org_chief.max_num дата, когда человек пропал из руководителей в ЕГРЮЛ. Реально он мог перестать быть руководителем чуть раньше.

Актуальные данные надо соединять по ogrn и org.max_num. Записи в соединённых таблицах с max_num < org.max_num хранят историю по организации.

org2.crc32 — это уникальный ключ crc32(kpp, short_name, full_name, street, house, corpus, apartment). В org2 хранится история изменения юридического адреса и наименования организации.

По остальным таблицам полагаю должно быть всё понятно из названия полей и документации к данным (см. Приказ ФНС России от 18.01.2021 N ЕД-7-14/17@).

Уставной капитал

Уставной капитал отсутствует в некоторых ООО. Но его можно вычислить по сумме уставных капиталов учредителей.

Отчёты и анализ данных ЕГРЮЛ, ЕГРИП

В отчёте “Организации с оборотом от миллиарда рублей за 2020 год” вы можете видеть, что налогов ряд крупных организации платят около нуля, сотрудников в некоторых тоже крайне мало в пересчёте на приход. Если сравнить с малым бизнесом, где налоговая нагрузка порядка 3-7%, то крупные компании явно недоплачивают и работают там какие-то многорукие и многоголовые, что на одного сотрудника бывает миллиарды прихода.

Невероятное

Леденев Владимир Владимирович руководитель в 2874 организациях с большим отрывом опережает всех остальных. Правда там за ним следуют 8 руководителей в 1000 организаций. Эх, нам бы базу с 2002 года, вот это бы данные были.
Такие люди заслуживают статьи в Википедии.

Присылайте ссылки на ваши проекты

Ссылки на полезные и бесплатные проекты мы опубликуем на нашем сайте.

Если вы сделаете анализ выложенных данных

У нас запланирована следующая статья с рядом очень интересных отчётов. Количество отчётов, которые только можно придумать огромное. Поэтому мы рады будем всем любителям анализировать данные.

Донаты

На следующий год проекту нужно 300 000р на покупку данных у ФНС РФ. Нужен второй сервер. Не помешают деньги на дальнейшее развитие и добавление других данных. Кто-то обещал задонатить после публикации ЕГРИП и архивов. Пожалуйста, закиньте денег сколько можете. Это реально важно.