Menu

Detekce anomálií pomocí časových řad

14. května 2019/Ondrej Kurak

Detekce anomálií je jedna z oblastí, které se v Gauss Algorithmic věnuju. Se zvědavostí jsem proto na Machine Learning Prague 2019 očekával přednášku Data-driven System health determination in Monitoring Softwares for Operational Intelligence od Vítězslava Vlčka, který prezentoval jím používané metody detekce anomálií.

Hlavní problémy u detekce anomálií

Na rozdíl od jiných problémů, které se běžně řeší u strojového učení, je v tomto případě nejproblematičtější určit „míru anomality“ jednotlivých případů a malé množství označených dat. Tohle společně s velkým nepoměrem anomálních a normálních příkladů téměř znemožňuje používat běžné techniky.

Anomálie časových řad

Hlavní tématem přednášky byla problematiku detekce anomálie v časových řadách, konkrétně v několika na sobě závislých řadách. Jako příklad byla uvedena detekce anomálie při využití procesoru, paměti RAM a disku. Při spojení těchto tří úzce provázaných časových řad je podle uvedených informací náročné připravit model predikce všech tří veličin. A pokud se to podaří model vytvořit, je extrémně složitý a těžce interpretovatelný.

Vítězslav Vlček nám proto představil jeho metodu řešení tohoto problému, ta je inspirovaná algoritmem wave function collapse. Za anomální v tomto případě považuje chování, které se v minulosti u těchto metrik nevyskytovalo. Pro lepší představu jsem všechny tři signály CPU, RAM a disk vykreslil do grafu.

Obrázek č. 1: Využití procesoru, paměti RAM a disku
Obrázek č. 1: Využití procesoru, paměti RAM a disku

Následně si tyto tři signály všechny dohromady rozpadneme dle zvoleného časového intervalu na dlaždice, čímž dokážeme modelovat jejich společnou závislost. Jejich další společný postup predikujeme pomocí „přikládání“ dlaždic tak, aby korespondovaly co nejlépe s napojením na všechny tři signály. Následně se anomálnost definuje na základě rozdílu mezi reálným vývojem průběhu a signály předem odhadnutými podle dlaždic.

Obrázek č. 2: Rozpadnutí časového intervalu na dlaždice
Obrázek č. 2: Rozpadnutí časového intervalu na dlaždice

Výhoda metody spočívá v tom, že se anomálie neopakují – pokud se anomálie vyskytla v minulosti, existuje dlaždice, s kterou ji můžeme srovnat. V případě, že bychom nedospěli k požadovanému efektu, pořád máme možnost implementovat systém zapomínání starých dlaždic, respektive používání výhradně jen dlaždic, které se v minulosti zobrazily aspoň jednou. Metoda by měla vyžadovat nízkou paměťovou náročnost, protože není nutné ukládat na dlaždici celý průběh, ale pro každý signál jen souřadnice začátku a konce.

Zhodnocení

Podle mého názoru je myšlenka této metody na detekci anomálií zajímavá. Samotný algoritmus je jednoduchý a výpočetně nenáročný. Avšak samotné užití je podle mě trošku problematické kvůli omezení na velice specifický druh problémů. Nicméně budu sledovat její další vývoj a aplikace, na které ji budou používat.

Líbí se vám článek? Sdílejte jej.

K tématu by vás mohlo zajímat

Startuje druhé kolo Elevator Lab, to první vyhrál Gauss Algorithmic
Startuje druhé kolo Elevator Lab, to první vyhrál Gauss Algorithmic30. dubna 2018

V květnu odstartuje druhé kolo největšího fintech akceleračního programu ve střední a východní Evropě pod názvem Ele...

Více informací o Startuje druhé kolo Elevator Lab, to první vyhrál Gauss Algorithmic
Vyšel Apache Hadoop 3
Vyšel Apache Hadoop 322. ledna 2018

Koncem roku 2017 vyšla dlouho očekávaná nová verze Apache Hadoop 3.0.0, frameworku pro zpracování velkého množství s...

Více informací o Vyšel Apache Hadoop 3

Máte zájem o naše služby?

Kontaktujte nás

Sbíráme anonymní data a měříme, abychom náš web mohli dále vylepšovat. Souhlasíte se sběrem cookies?

AnoNe, více informací