Hlavní problémy u detekce anomálií
Na rozdíl od jiných problémů, které se běžně řeší u strojového učení, je v tomto případě nejproblematičtější určit „míru anomality“ jednotlivých případů a malé množství označených dat. Tohle společně s velkým nepoměrem anomálních a normálních příkladů téměř znemožňuje používat běžné techniky.
Anomálie časových řad
Hlavní tématem přednášky byla problematiku detekce anomálie v časových řadách, konkrétně v několika na sobě závislých řadách. Jako příklad byla uvedena detekce anomálie při využití procesoru, paměti RAM a disku. Při spojení těchto tří úzce provázaných časových řad je podle uvedených informací náročné připravit model predikce všech tří veličin. A pokud se to podaří model vytvořit, je extrémně složitý a těžce interpretovatelný.
Vítězslav Vlček nám proto představil jeho metodu řešení tohoto problému, ta je inspirovaná algoritmem wave function collapse. Za anomální v tomto případě považuje chování, které se v minulosti u těchto metrik nevyskytovalo. Pro lepší představu jsem všechny tři signály CPU, RAM a disk vykreslil do grafu.
Obrázek č. 1: Využití procesoru, paměti RAM a disku
Následně si tyto tři signály všechny dohromady rozpadneme dle zvoleného časového intervalu na dlaždice, čímž dokážeme modelovat jejich společnou závislost. Jejich další společný postup predikujeme pomocí „přikládání“ dlaždic tak, aby korespondovaly co nejlépe s napojením na všechny tři signály. Následně se anomálnost definuje na základě rozdílu mezi reálným vývojem průběhu a signály předem odhadnutými podle dlaždic.
Obrázek č. 2: Rozpadnutí časového intervalu na dlaždice
Výhoda metody spočívá v tom, že se anomálie neopakují – pokud se anomálie vyskytla v minulosti, existuje dlaždice, s kterou ji můžeme srovnat. V případě, že bychom nedospěli k požadovanému efektu, pořád máme možnost implementovat systém zapomínání starých dlaždic, respektive používání výhradně jen dlaždic, které se v minulosti zobrazily aspoň jednou. Metoda by měla vyžadovat nízkou paměťovou náročnost, protože není nutné ukládat na dlaždici celý průběh, ale pro každý signál jen souřadnice začátku a konce.
Zhodnocení
Podle mého názoru je myšlenka této metody na detekci anomálií zajímavá. Samotný algoritmus je jednoduchý a výpočetně nenáročný. Avšak samotné užití je podle mě trošku problematické kvůli omezení na velice specifický druh problémů. Nicméně budu sledovat její další vývoj a aplikace, na které ji budou používat.