În analiza datelor, detectarea anomaliilor (denumită și detectare anormalităților și, uneori, detectare a noutăților) este în general înțeleasă ca fiind identificarea elementelor, evenimentelor sau observațiilor rare care se abat semnificativ de la majoritatea datelor și nu se conformează unui criteriu bine definit de noțiune de comportament normal. Astfel de exemple pot trezi suspiciuni că sunt generate de un mecanism diferit, sau pot apărea ca neconforme cu restul acelui set de date.
Detectarea anomaliilor se aplică în multe domenii, inclusiv securitate cibernetică, medicină, viziune artificială, statistică, neuroștiință, aplicarea legii și fraudă financiară, pentru a numi doar câteva. Anomaliile au fost căutate inițial pentru respingerea sau omisiunea clară a datelor pentru a ajuta analiza statistică, de exemplu pentru a calcula media sau abaterea standard. De asemenea, au fost eliminate pentru predicții mai bune din modele, cum ar fi regresia liniară, iar mai recent eliminarea lor ajută la performanța algoritmilor de învățare automată. Cu toate acestea, în multe aplicații, anomaliile în sine prezintă interes și sunt cele mai dorite observații din întregul set de date, care trebuie identificate și separate de zgomot sau valori aberante irelevante.
Există trei categorii largi de tehnici de detectare a anomaliilor. Tehnicile de detectare a anomaliilor supravegheate necesită un set de date care a fost etichetat drept „normal” și „anormal” și implică antrenarea unui clasificator. Cu toate acestea, această abordare este rar utilizată în detectarea anomaliilor din cauza indisponibilității generale a datelor etichetate și a naturii inerente dezechilibrate a claselor. Tehnicile de detectare a anomaliilor semi-supravegheate presupun că o parte din date este etichetată. Aceasta poate fi orice combinație de date normale sau anormale, dar, de cele mai multe ori, tehnicile construiesc un model reprezentând comportamentul normal dintr-un set de date de antrenament normal dat și apoi testează probabilitatea ca o instanță de testare să fie generată de model. Tehnicile de detectare a anomaliilor nesupravegheate presupun că datele nu sunt etichetate și sunt de departe cele mai frecvent utilizate datorită aplicării lor mai extinse și relevante.
Definiţie
Au fost făcute multe încercări în comunitățile statistice și informatice de a defini o anomalie. Cele mai răspândite includ următoarele și pot fi clasificate în trei grupe: cele care sunt ambigue, cele care sunt specifice unei metode cu praguri predefinite alese de obicei empiric, și cele care sunt definite formal:
Prost definite
- O anomalie este o observație care se abate atât de mult de la celelalte observații, încât trezește suspiciuni că a fost generată de un mecanism diferit.
- Anomaliile sunt cazuri sau culegeri de date care apar foarte rar în setul de date și ale căror caracteristici diferă semnificativ de majoritatea datelor.
- O anomalie este o observație (sau un subset de observații) care pare a fi incompatibilă cu restul acelui set de date.
- O anomalie este un punct sau o colecție de puncte care este relativ îndepărtată de alte puncte din spațiul multidimensional al caracteristicilor.
- Anomaliile sunt tipare în date care nu se conformează unei noțiuni bine definite de comportament normal.
Specifice
Fie T observații dintr-o distribuție Gaussiană univariată și O un punct din T. Atunci scorul z pentru O este mai mare decât un prag preselectat dacă și numai dacă O este o valoare aberantă.
(Include texte traduse și adaptate din Wikipedia de Nicolae Sfetcu)
Lasă un răspuns