Menu

Případová studie použití datové analýzy na predikci platební kázně

26. ledna 2015/Jaroslav Vážný

Cílem studie je ohodnocení (rating) nových zákazníků na základě předchozího chování podobných subjektů. K tomuto účelu požijeme korelační analýzu, PCA (Principal Component Analysis) a některé z metod strojového učení. Kliknutím na grafy lze zobrazit kód, který byl použit k jeho vygenerování.

1. Vstupní data

Zdrojová data obsahují informace o fakturách jednotlivých zákazníků. Tato data je třeba agregovat a vytvořit tak statistický profil daného zákazníka, který použijeme při strojovém učení Jednotlivým zákazníkům je pak přiřazeno hodnocení v rozsahu 1 až 5 (1 nejlepší, 5 nejhorší) toto hodnocení se budeme snažit předpovídat pro zákazníky, pro které toto hodnocení neznáme.

Na začátku každé analýzy je vhodné data reprezentovat pomocí deskriptivní statistiky, případně data vizualizovat. Získáme tak představu o typech dat jejich rozsazích.

descriptivni-statistika

2. Korelační analýza

Velmi užitečná je také korelační analýza, která může odhalit jednoduché závislosti mezi daty. Je však stále nutné mít na paměti, že korelace není kauzalita a že vše se týká daného vzorku dat. Zde je například zřejmé, že znalost oblastí nám neposkytne žádné další informace.

korelace

3. Strojové učení a klasifikace nových dat

Na predikci hodnocení zákazníka použijeme metody učení s učitelem (Supervisored Learning Model). Obecné schéma tohoto přístupu je na následujícím obrázku. Ze Zdrojových dat a známých hodnocení (labels) vytvoříme model (predictive model), který následně použijeme pro nové zákazníky, pro které hodnocení neznáme.

ml schema

Pro účely správného hodnocení naše modelu je třeba rozdělit data na minimálně dvě množiny (trénovací a testovací).

4.Vyhodnocení naučeného modelu

Obecně není příliš snadné pochopit jakým způsobem se učící algoritmus při klasifikaci řídí (obzvláště pokud mají vstupní data více dimenzí). Výjímku tvoří algoritmy založené na rozhodovacích stromech. Na následujících obrázku je vizualizace rozhodovacího stromu pro tento konkrétní případ. Na první řádku je podmínka, které je pro rozřazení použita, na druhém pak hodnota použité metriky (zde gini index) a na třetím řádku je počet afektovaných případů, případně konečné rozdělení, pokud jde o konečný list stromu.

strom

Vyhodnocení modelu je netriviální problém. Používané metriky jsou Precision, Recall a takzvané F score. Následující obrázek objasňuje jejich význam. Precission je poměr správně vybraných hodnot a všech hodnot ve vzorku, tedy: kolik z vybraných hodnot je relevantních. Recall je pak poměr správně vybraných vzorků ke všech hodnotám, které měl algoritmus vybrat. Jinými slovy: kolik z relevantních hodnot je vybráno. F score je pak definováno jako kombinace obou těchto metrik: F = precision/(precision + recall).

precision

Následující report ukazuje tyto metriky pro náš případ pro jednotlivé kategorie hodnocení.

 precisionrecallf1-scoresupport
11.001.001.00266
21.001.001.00105
31.001.001.0051
40.981.000.9960
51.000.990.9973
avg / total1.001.001.00555


5. Aplikace naučeného modelu na nového zákazníka

Pro ilustraci aplikace si vytvoříme nového zákazníka, kterého algoritmus v procesu učení neviděl a aplikujeme na něho náš naučený algoritmus.

Hodnocení zákazníka naučeným algoritmem: [1], skutečné hodnocení zákazníka: [1]

Vzhledem k úspěšnosti našeho modelu není překvapivé, že model předpověděl hodnocení správně. Následující obrázek ukazuje zobrazení nového zákazníka do prostoru vstupních dat, redukovaného pomocí PCA do dvou dimenzí.

predikce

Líbí se vám článek? Sdílejte jej.

K tématu by vás mohlo zajímat

Naše umělá inteligence pomáhá firmám včas rozpoznat bezpečnostní rizika
Naše umělá inteligence pomáhá firmám včas rozpoznat bezpečnostní rizika6. března 2018

Společnost SODAT přichází s novinkou pro bezpečnostní monitoring a analýzu. Nová verze SODAT Analytics přináší někol...

Více informací o Naše umělá inteligence pomáhá firmám včas rozpoznat bezpečnostní rizika
Topologická analýza dat jako cesta k přesnějším výsledkům
Topologická analýza dat jako cesta k přesnějším výsledkům11. března 2019

Přečtěte si, jak bychom díky topologické analýze dat mohli dospět k přesnějším výsledkům oproti klasickým metodám da...

Více informací o Topologická analýza dat jako cesta k přesnějším výsledkům
Proč selhávají big data projekty a jak se tomu vyhnout
Proč selhávají big data projekty a jak se tomu vyhnout10. května 2018

Roztříštěnost a špatná kvalita datových zdrojů, nedostatečné znalosti a přehnaná nebo přímo nerealistická očekávání....

Více informací o Proč selhávají big data projekty a jak se tomu vyhnout

Přečtěte si dále

Gauss Algorithmic uspěl ve Švýcarsku, bude analyzovat data pro Credit Suisse

Gauss Algorithmic uspěl ve Švýcarsku, bude analyzovat data pro Credit Suisse

13. 11. 2018Čtěte více o Gauss Algorithmic uspěl ve Švýcarsku, bude analyzovat data pro Credit Suisse

Máte zájem o naše služby?

Kontaktujte nás

Sbíráme anonymní data a měříme, abychom náš web mohli dále vylepšovat. Souhlasíte se sběrem cookies?

AnoNe, více informací