Найти Π² Π”Π·Π΅Π½Π΅
11,1 тыс подписчиков

πŸ–₯ Feature engineering ΠΈ кластСрный Π°Π½Π°Π»ΠΈΠ· ΠΊΠ»ΠΈΠ΅Π½Ρ‚ΠΎΠ² Π½Π° PySpark.


BigData ΠΏΠ»ΠΎΡ‚Π½ΠΎ Π²Ρ…ΠΎΠ΄ΠΈΡ‚ Π² Π½Π°ΡˆΡƒ Тизнь. ДатасСты растут ΠΈ постоянно ΠΈΠ·ΠΌΠ΅Π½ΡΡŽΡ‚ΡΡ, Ρ‡Ρ‚ΠΎ услоТняСт Π·Π°Π΄Π°Ρ‡Ρƒ кластСризации ΠΊΠ»ΠΈΠ΅Π½Ρ‚ΠΎΠ². ΠžΠ±Ρ‹Ρ‡Π½ΠΎ для Π·Π°Π΄Π°Ρ‡ кластСризации ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠ° Sklearn, Π½ΠΎ с большим ΠΎΠ±ΡŠΡ‘ΠΌΠΎΠΌ Π΄Π°Π½Π½Ρ‹Ρ… Π΅Ρ‘ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ Π½Π΅ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΡ‚ΡŒΡΡ. Spark позволяСт Ρ€Π΅Π°Π»ΠΈΠ·ΠΎΠ²Π°Ρ‚ΡŒ ΠΏΠ°Ρ€Π°Π»Π»Π΅Π»ΡŒΠ½Ρ‹Π΅ вычислСния Π½Π° кластСрах ΠΈ ΠΈΠΌΠ΅Π΅Ρ‚ Π² составС своСго Ρ„Ρ€Π΅ΠΉΠΌΠ²ΠΎΡ€ΠΊΠ° Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΡƒ машинного обучСния MLlib. Π’ случаС Π±ΠΎΠ»ΡŒΡˆΠΈΡ… Π΄Π°Π½Π½Ρ‹Ρ…, ΠΊΠΎΠ³Π΄Π° ΠΏΡ€ΠΈΠ²Ρ‹Ρ‡Π½Ρ‹Π΅ инструмСнты ΠΎΡ‚ΠΊΠ°Π·Ρ‹Π²Π°ΡŽΡ‚ΡΡ Ρ€Π°Π±ΠΎΡ‚Π°Ρ‚ΡŒ с Ρ‚Π°ΠΊΠΈΠΌΠΈ ΠΎΠ±ΡŠΡ‘ΠΌΠ°ΠΌΠΈ, PySpark ΠΏΡ€ΠΈΡ…ΠΎΠ΄ΠΈΡ‚ Π½Π° Π²Ρ‹Ρ€ΡƒΡ‡ΠΊΡƒ.

ΠŸΡ€ΠΈ этом, ΠΏΡ€Π΅ΠΆΠ΄Π΅ Ρ‡Π΅ΠΌ Π·Π°ΠΏΡƒΡΡ‚ΠΈΡ‚ΡŒ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡ‹ машинного обучСния Π½Π° вашСм датасСтС, Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ ΠΏΠΎΠ΄Π³ΠΎΡ‚ΠΎΠ²ΠΈΡ‚ΡŒ Π΄Π°Π½Π½Ρ‹Π΅ ΠΈ провСсти feature engineering, Π° это достаточно трудозатратная Π·Π°Π΄Π°Ρ‡Π°, Π½ΠΎ Π² Ρ‚ΠΎ ΠΆΠ΅ врСмя нСобходимая, Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ ΠΎΡ‚ этого этапа Π²ΠΎ ΠΌΠ½ΠΎΠ³ΠΎΠΌ зависит качСство ΠΊΠΎΠ½Π΅Ρ‡Π½ΠΎΠ³ΠΎ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π°. Π”Π°Π½Π½Ρ‹ΠΉ этап Ρ‚Π°ΠΊΠΆΠ΅ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ Π΄Π΅Π»Π°Ρ‚ΡŒ Π½Π° PySpark, ΠΎΠΏΡΡ‚ΡŒ-Ρ‚Π°ΠΊΠΈ ΠΈΠ·-Π·Π° ΠΎΠ±ΡŠΡ‘ΠΌΠ° Π΄Π°Π½Π½Ρ‹Ρ….

ΠŸΠ΅Ρ€Π΅Π΄ Π½Π°ΠΌΠΈ стояла Π·Π°Π΄Π°Ρ‡Π° Π°Π½Π°Π»ΠΈΠ·Π° массива Π΄Π°Π½Π½Ρ‹Ρ… Π·Π°Ρ‘ΠΌΡ‰ΠΈΠΊΠΎΠ² физичСских Π»ΠΈΡ† – злостных Π½Π΅ΠΏΠ»Π°Ρ‚Π΅Π»ΡŒΡ‰ΠΈΠΊΠΎΠ² ΠΊΡ€Π΅Π΄ΠΈΡ‚ΠΎΠ², Π΄Π΅Π»Π° ΠΏΠΎ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΌ ΡƒΠΆΠ΅ Π½Π°ΠΏΡ€Π°Π²Π»Π΅Π½Ρ‹ Π² суд. Π­Ρ‚ΠΎΡ‚ массив Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ Π±Ρ‹Π»ΠΎ Ρ€Π°Π·Π±ΠΈΡ‚ΡŒ Π½Π° Π±Π»ΠΎΠΊΠΈ (кластСры). ЦСль кластСрного Π°Π½Π°Π»ΠΈΠ·Π° – ΠΏΠΎΠ½ΡΡ‚ΡŒ, ΠΊΠ°ΠΊΠΈΠ΅ Π³Ρ€ΡƒΠΏΠΏΡ‹ ΠΏΠΎ ΠΎΠ±Ρ‰ΠΈΠΌ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠ°ΠΌ ΠΌΠΎΠΆΠ½ΠΎ Π²Ρ‹Π΄Π΅Π»ΠΈΡ‚ΡŒ, ΠΈ Π² дальнСйшСм Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Π°Ρ‚ΡŒ для ΠΊΠ°ΠΆΠ΄ΠΎΠΉ Π³Ρ€ΡƒΠΏΠΏΡ‹ ΠΈΠ½Π΄ΠΈΠ²ΠΈΠ΄ΡƒΠ°Π»ΡŒΠ½ΡƒΡŽ Ρ‚Π°ΠΊΡ‚ΠΈΠΊΡƒ взыскания, ΠΈ, Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎ, Π½Π°ΠΉΡ‚ΠΈ ΠΏΡƒΡ‚ΠΈ ΡƒΠ»ΡƒΡ‡ΡˆΠ΅Π½ΠΈΡ ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ»ΠΎΠ³ΠΈΠΈ скоринга.

1. ΠŸΠΎΠ΄Π³ΠΎΡ‚ΠΎΠ²ΠΊΠ° Π΄Π°Π½Π½Ρ‹Ρ…
1.1. ИдСи
ΠŸΠΎΠ΄Π³ΠΎΡ‚ΠΎΠ²ΠΊΠ° Π΄Π°Π½Π½Ρ‹Ρ… – этап, ΠΏΡ€Π΅Π΄ΡˆΠ΅ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠΉ Π°Π½Π°Π»ΠΈΠ·Ρƒ ΠΈ Ρ‚Ρ€Π΅Π±ΡƒΡŽΡ‰ΠΈΠΉ Ρ…ΠΎΡ€ΠΎΡˆΠ΅Π³ΠΎ понимания ΠΏΡ€Π΅Π΄ΠΌΠ΅Ρ‚Π½ΠΎΠΉ области. ΠŸΡ€Π΅Π΄ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠ° осущСствляСтся Ссли Π½Π΅ Ρ€ΡƒΠΊΠ°ΠΌΠΈ самого экспСрта Π² этой области, Ρ‚ΠΎ Π² ΠΎΡ‡Π΅Π½ΡŒ тСсном с Π½ΠΈΠΌ сотрудничСствС. ΠžΡΡ‚Π°Π½Π°Π²Π»ΠΈΠ²Π°Ρ‚ΡŒΡΡ Π½Π° ΠΏΡ€Π΅Π΄Π²Π°Ρ€ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΉ ΠΏΠΎΠ΄Π³ΠΎΡ‚ΠΎΠ²ΠΊΠ΅ Π΄Π°Π½Π½Ρ‹Ρ… Π΄ΠΎΠ»Π³ΠΎ Π½Π΅ Π±ΡƒΠ΄Π΅ΠΌ, ΠΏΠΎΡΠΊΠΎΠ»ΡŒΠΊΡƒ ΠΎΠ±Ρ‰ΠΈΡ… Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄Π°Ρ†ΠΈΠΉ здСсь Π½Π΅ Π²Ρ‹Ρ€Π°Π±ΠΎΡ‚Π°Ρ‚ΡŒ, Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΊΡ€Π°Ρ‚ΠΊΠΎ ΠΎΡ‚ΠΌΠ΅Ρ‚ΠΈΠΌ основныС ΠΌΠΎΠΌΠ΅Π½Ρ‚Ρ‹, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΌΡ‹ ΠΏΡ€ΠΎΠΈΠ·Π²Π΅Π»ΠΈ с нашим датасСтом ΠΈ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΎΡ‚Π»ΠΈΡ‡Π°ΡŽΡ‚ΡΡ ΠΎΡ‚ классичСской Π±ΠΎΡ€ΡŒΠ±Ρ‹ с ΠΎΡ‚ΡΡƒΡ‚ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠΌΠΈ значСниями.

Π’Ρ‹Π±ΠΈΡ€Π°Π»ΠΈ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅:

β€’ нСпосрСдствСнно Ρ…Π°Ρ€Π°ΠΊΡ‚Π΅Ρ€ΠΈΠ·ΡƒΡŽΡ‚ ΠΈΠΌΠ΅Π½Π½ΠΎ самого Π·Π°Ρ‘ΠΌΡ‰ΠΈΠΊΠ°, Π° Π½Π΅ ΠΊΡ€Π΅Π΄ΠΈΡ‚Π½Ρ‹ΠΉ ΠΏΡ€ΠΎΠ΄ΡƒΠΊΡ‚, Π½Π΅ Π΄ΠΎΠ³ΠΎΠ²ΠΎΡ€ ΠΈ ΠΏΡ€ΠΎΡ‡Π΅Π΅;
β€’ ΠΈΠΌΠ΅ΡŽΡ‚ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ Π΄ΠΎ Π²Ρ‹Ρ…ΠΎΠ΄Π° Π½Π° просрочку (Ρ‚ΠΎ Π΅ΡΡ‚ΡŒ, Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, Π΄Π°Π½Π½Ρ‹Π΅ ΠΏΠΎ ΠΏΡ€ΠΎΡ†Π΅Π΄ΡƒΡ€Π°ΠΌ взыскания Π² Π°Π½Π°Π»ΠΈΠ· Π½Π΅ Π±Π΅Ρ€Ρ‘ΠΌ, Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ Ρ…ΠΎΡ‚ΠΈΠΌ Ρ€Π°Π·ΠΎΠ±Ρ€Π°Ρ‚ΡŒΡΡ Π² ΠΏΡ€ΠΈΡ‡ΠΈΠ½Π°Ρ…, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΊ этому ΠΏΡ€ΠΈΠ²Π΅Π»ΠΈ).

Π£Π±Ρ€Π°Π»ΠΈ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ:

β€’ Π΄ΡƒΠ±Π»ΠΈΡ€ΡƒΡŽΡ‰ΠΈΠ΅ Π΄Ρ€ΡƒΠ³ Π΄Ρ€ΡƒΠ³Π° ΠΏΠΎ сущСству (Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, остаток основного Π΄ΠΎΠ»Π³Π° (ΠžΠ”) Π² Π²Π°Π»ΡŽΡ‚Π΅ ΠΈ остаток ΠžΠ” Π² рублях – достаточно ΠΎΡΡ‚Π°Π²ΠΈΡ‚ΡŒ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΎΠ΄ΠΈΠ½ ΠΏΠΎΠΊΠ°Π·Π°Ρ‚Π΅Π»ΡŒ);
β€’ ΠΏΠΎ ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΌ слишком ΠΌΠ½ΠΎΠ³ΠΎ Π²Π°Ρ€ΠΈΠ°Π½Ρ‚ΠΎΠ² (Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, 100-200 Π·Π½Π°Ρ‡Π΅Π½ΠΈΠΉ для ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠ° Β«Π΄ΠΎΠ»ΠΆΠ½ΠΎΡΡ‚ΡŒ Π½Π° мСстС Ρ€Π°Π±ΠΎΡ‚Ρ‹Β»).
Π’ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π΅ ΠΏΡ€Π΅Π΄ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ датасСта количСство исходных Π΄Π°Π½Π½Ρ‹Ρ… сущСствСнно ΡΠΎΠΊΡ€Π°Ρ‚ΠΈΠ»ΠΎΡΡŒ. Π’ исходном датасСтС количСство ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² достигало 191, послС чистки Π½Π° основС описанных Π²Ρ‹ΡˆΠ΅ ΠΈΠ΄Π΅ΠΉ ΠΈΡ… ΠΎΡΡ‚Π°Π»ΠΎΡΡŒ 43. Π‘Ρ€Π΅Π΄ΠΈ Π½ΠΈΡ…:

β€’ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ, связанныС с ΠΏΠ΅Ρ€Π²Ρ‹ΠΌ ΠΊΡ€Π΅Π΄ΠΈΡ‚Π½Ρ‹ΠΌ Π΄ΠΎΠ³ΠΎΠ²ΠΎΡ€ΠΎΠΌ: Π²ΠΈΠ΄ крСдитования, срок ΠΊΡ€Π΅Π΄ΠΈΡ‚Π°, ΠΏΡ€ΠΈΠ·Π½Π°ΠΊ рСструктуризации, Π΄Π°Ρ‚Π° Π²Ρ‹Π΄Π°Ρ‡ΠΈ ΠΊΡ€Π΅Π΄ΠΈΡ‚Π°, ставка, Π²Π°Π»ΡŽΡ‚Π° ΠΈ Ρ‚.Π΄.;
β€’ числовыС ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ (ΠΈΡ‚ΠΎΠ³ΠΎ ΠΏΠΎ всСм Π΄ΠΎΠ³ΠΎΠ²ΠΎΡ€Π°ΠΌ): сумма обСспСчСния, сумма ΠΎΠ±Ρ‰Π΅ΠΉ задолТСнности Π² рублях, сумма погашСний ΠΏΠΎ основному Π΄ΠΎΠ»Π³Ρƒ;
β€’ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ β€” ΠΈΠ½Π΄ΠΈΠ²ΠΈΠ΄ΡƒΠ°Π»ΡŒΠ½Ρ‹Π΅ характСристики Π·Π°Ρ‘ΠΌΡ‰ΠΈΠΊΠ°: ΠΏΠΎΠ», возраст, рСзидСнтство, ΠΏΡ€ΠΈΠ·Π½Π°ΠΊ vip, Π½Π°Π»ΠΈΡ‡ΠΈΠ΅ Π·Π°Π³Ρ€Π°Π½ΠΈΡ‡Π½ΠΎΠ³ΠΎ паспорта, катСгория надёТности, Π΄Π°Π½Π½Ρ‹Π΅, связанныС с Ρ€Π°Π±ΠΎΡ‡Π΅ΠΉ Π΄Π΅ΡΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ, Π΄Π°Π½Π½Ρ‹Π΅, связанныС с ΡΠΎΠ±ΡΡ‚Π²Π΅Π½Π½ΠΎΡΡ‚ΡŒΡŽ ΠΈ Ρ‚.Π΄.

1.2 РСализация Π½Π° PySpark
ПослС ΠΈΠΌΠΏΠΎΡ€Ρ‚Π° Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΡ‹Ρ… Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠΈ ΠΈ создания сСссии Spark, Π²Ρ…ΠΎΠ΄Π½ΠΎΠΉ Ρ‚ΠΎΡ‡ΠΊΠΈ ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ PySpark прилоТСния, Π·Π°Π³Ρ€ΡƒΠΆΠ°Π΅ΠΌ исходныС Π΄Π°Π½Π½Ρ‹Π΅ ΠΈ ΠΏΠΎΠ΄Π³ΠΎΡ‚ΠΎΠ²Π»Π΅Π½Π½Ρ‹ΠΉ совмСстно с экспСртом список ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² Π² ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Ρ‹ Spark DataFrame. DataFrame – ΠΎΠ΄Π½Π° ΠΈΠ· Π΄Π²ΡƒΡ… абстракций массива Π΄Π°Π½Π½Ρ‹Ρ… Π² Spark (вторая абстракция β€” RDD), которая прСдоставляСт Π±ΠΎΠ»Π΅Π΅ высокоуровнСвоС API (ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ с RDD). ΠœΠ΅Ρ‚ΠΎΠ΄ Π·Π°Π³Ρ€ΡƒΠ·ΠΊΠΈ Π΄Π°Π½Π½Ρ‹Ρ… зависит ΠΎΡ‚ Ρ„ΠΎΡ€ΠΌΠ°Ρ‚Π° Ρ„Π°ΠΉΠ»Π° (Π² рассматриваСмом ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π΅ CSV, Π½ΠΎ ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ JSON, ORC, Parquet ΠΈ Π΄Ρ€.).

Π”Π°Π»Π΅Π΅ Π½Π° основС списка ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΎΠ² ΠΈΠ· исходного датасСта ΠΎΡ‚Π±ΠΈΡ€Π°Π΅ΠΌ Π½ΡƒΠΆΠ½Ρ‹Π΅ ΠΊΠΎΠ»ΠΎΠ½ΠΊΠΈ. Π—Π°Ρ‚Π΅ΠΌ Π³Ρ€ΡƒΠΏΠΏΠΈΡ€ΡƒΠ΅ΠΌ ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½Π½Ρ‹ΠΉ массив Π΄Π°Π½Π½Ρ‹Ρ… ΠΏΠΎ ΠΈΠ΄Π΅Π½Ρ‚ΠΈΡ„ΠΈΠΊΠ°Ρ‚ΠΎΡ€Ρƒ Π·Π°Ρ‘ΠΌΡ‰ΠΈΠΊΠ°, ΠΏΡ€ΠΈ этом для ΠΊΠΎΠ»ΠΎΠ½ΠΎΠΊ с числовыми значСниями Π΄Π°Π½Π½Ρ‹Π΅ суммируСм, Π° для ΠΊΠΎΠ»ΠΎΠ½ΠΎΠΊ с ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠ°Π»ΡŒΠ½Ρ‹ΠΌΠΈ значСниями оставляСм Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΠΏΠ΅Ρ€Π²ΠΎΠ΅ Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅.


3 ΠΌΠΈΠ½ΡƒΡ‚Ρ‹