Cílem našeho výzkumu bylo vyhledávání nepravidelností v chování odběratelů elektrické energie za rok a půl dlouhé období. Detekce anomálií patří mezi jeden z nejčastěji prováděných výzkumů v oblasti kybernetické bezpečnosti, kdy lze na základě neobvyklého chování odhalit hrozící nebezpečí.

Úvod

Vyhledávat odchylky od běžné situace lze prakticky v jakýchkoliv datech. Základem správně provedené analýzy je úvodní statistický rozbor mapující rozložení a stav prohledávaných dat. Pro vizuální zhodnocení a zároveň lepší orientaci v datech dobře poslouží rozdělení do shluků na základě pozorované spotřeby elektrické energie. To lze provést pomocí některé z běžně využívaných analýz pro snížení dimenze dat, mezi které patří například PCA nebo t-SNE. Už při rozdělování do shluků mohou být nalezeny anomální hodnoty nezapadající do žádného ze shluků. Pouhé metody pro redukci dimenze však v tomto případě nebyly dostačující.

Graf detekce anomalií
Obrázek č. 1: Chování čtyř anomálních uživatelů. Žlutá ukazuje predikovaný, zelená pak reálný odběr.

Roli hrají i vnější faktory

Spotřeba elektrické energie každého uživatele je do velké míry ovlivňována různými vnějšími faktory, proto bylo součástí výzkumu rovněž obohacení dat o řadu doplňujících informací. Mezi ně patří například data dokládající teplotu v určitý den či počet hodin, kdy svítilo slunce. Stejně tak může být důležité, zda byl daný den pracovním dnem, či nikoli, a řada dalších informací.

Predikce odběru elektřiny

Obohacená data byla využita pro naučení různých testovaných regresorů, na jejichž základě byla provedena predikce odběru elektrické energie pro každého uživatele. Jako nejvhodnější byl vyhodnocen regresor GBRT (Gradient Boosted Regression Trees), který pro predikci využívá rozhodovací stromy. Jedinci s anomálním chováním byli odhaleni jako uživatelé s nejhorším výsledkem predikce. Pro inspiraci, o jaké informace můžete svá data obohatit, doporučujeme stránku Otevřená data, kde najdete velké množství digitalizovaných dat.

Závěr

Při detekci anomálií u spotřeby elektrické energie jsme nejdříve provedli statistickou analýzu, pomocí níž jsme rozdělili data do shluků. Následně jsme vzali v potaz ty vnější faktory, které ovlivňují spotřebu elektřiny, např.: teplotu nebo počet hodin, kdy svítilo slunce. Takto obohacená data jsme použili k naučení regresoru GBRT, který u predikce pracuje s rozhodovacími stromy. Za odběratele s anomálním chováním jsme označili ty s nejhorším výsledkem predikce.

Použité nástroje

  • Jupyter Notebook: Výzkum byl podobně jako většina ostatních proveden pomocí užitečného nástroje Jupyter Notebook. Ten slouží k usnadnění práce a v případě dodržování definovaných zásad i pro tvorbu přehledného kódu.
  • Pandas: Knihovna Pandas byla využita pro základní statistiku a analýzu, která byla základem celého výzkumu.
  • Matplotlib a Plotly: Vizualizace dílčích kroků a průběžných výsledků byla zprostředkována za pomoci knihoven Matplotlib a Plotly.
  • Scikit-learn: Knihovna scikit-learn byla v provedeném výzkumu jednou z nejzásadnějších. Díky ní byly implementovány metody pro nalezení shluků podobných uživatelů i regresory, které měly na starosti predikovat budoucí spotřebu elektrické energie.
  • Holidays: Jedna z knihoven nápomocná při obohacování dat o informaci, zda se jedná o pracovní či jiný den.
  • Astral: Další knihovna nutná pro obohacení dat byla použita pro zjištění časů, kdy se Slunce a Měsíc nachází v různých pozicích, informací o délce dne, délce noci a dalších relevantních dat pro analýzu spotřeby energie.
  • Grafana: Pro vizualizaci výsledné predikce a detekovaných anomálních odběratelů byla využita open source platforma pro analýzu časových řad s názvem Grafana.

Související produkty a služby

Čištění dat
Čištění dat

Skvělé analytické výsledky staví na čistých datech. Nabízíme vlastní řešení a nástroje, které proces čištění dat zásadně urychlí. Zpracovali jsme ...

Více informací o Čištění dat
Ochrana dat a informační bezpečnost
Ochrana dat a informační bezpečnost

Kvůli neustále se měnícím předpisům, regulacím i zvýšenému riziku kybernetických hrozeb je nezbytné mít řešení, které striktně splňuje potřebná be...

Více informací o Ochrana dat a informační bezpečnost

Poradíme vám

Sjednejte si schůzku s odborníkem na detekci anomálií.

Jaroslav Vážný
Jaroslav Vážný Big data expert

Sledujte náš blog

Topologická analýza dat jako cesta k přesnějším výsledkům

Topologická analýza dat jako cesta k přesnějším výsledkům

11. 3. 2019Čtěte více o Topologická analýza dat jako cesta k přesnějším výsledkům

We must know, we will know

Tým odborníků na big data

Objevování nových cest je alfou a omegou naší práce. Používáme nástroje a metody vytvořené pro vědecké týmy speciálně k výzkumným účelům.

Řešení na míru

Při návrhu řešení zohledňujeme schopnost firmy jej nasadit, firemní prostředí i dovednosti zaměstnanců. Díky tomu dokážeme minimalizovat riziko a přinášet úspěch.

Spolupráce se silnými značkami

Cloudera, Microsoft, Clever Analytics, Apache Kafka, Apache Spark, Power BI, Tableau, Jupyter Notebooks