Home » Articole » Articole » Știință » Matematica » Statistica » Detectarea anomaliilor

Detectarea anomaliilor

În analiza datelor, detectarea anomaliilor (denumită și detectare anormalităților și, uneori, detectare a noutăților) este în general înțeleasă ca fiind identificarea elementelor, evenimentelor sau observațiilor rare care se abat semnificativ de la majoritatea datelor și nu se conformează unui criteriu bine definit de noțiune de comportament normal. Astfel de exemple pot trezi suspiciuni că sunt generate de un mecanism diferit, sau pot apărea ca neconforme cu restul acelui set de date.

Detectarea anomaliilor se aplică în multe domenii, inclusiv securitate cibernetică, medicină, viziune artificială, statistică, neuroștiință, aplicarea legii și fraudă financiară, pentru a numi doar câteva. Anomaliile au fost căutate inițial pentru respingerea sau omisiunea clară a datelor pentru a ajuta analiza statistică, de exemplu pentru a calcula media sau abaterea standard. De asemenea, au fost eliminate pentru predicții mai bune din modele, cum ar fi regresia liniară, iar mai recent eliminarea lor ajută la performanța algoritmilor de învățare automată. Cu toate acestea, în multe aplicații, anomaliile în sine prezintă interes și sunt cele mai dorite observații din întregul set de date, care trebuie identificate și separate de zgomot sau valori aberante irelevante.

Există trei categorii largi de tehnici de detectare a anomaliilor. Tehnicile de detectare a anomaliilor supravegheate necesită un set de date care a fost etichetat drept „normal” și „anormal” și implică antrenarea unui clasificator. Cu toate acestea, această abordare este rar utilizată în detectarea anomaliilor din cauza indisponibilității generale a datelor etichetate și a naturii inerente dezechilibrate a claselor. Tehnicile de detectare a anomaliilor semi-supravegheate presupun că o parte din date este etichetată. Aceasta poate fi orice combinație de date normale sau anormale, dar, de cele mai multe ori, tehnicile construiesc un model reprezentând comportamentul normal dintr-un set de date de antrenament normal dat și apoi testează probabilitatea ca o instanță de testare să fie generată de model. Tehnicile de detectare a anomaliilor nesupravegheate presupun că datele nu sunt etichetate și sunt de departe cele mai frecvent utilizate datorită aplicării lor mai extinse și relevante.

Definiţie

Au fost făcute multe încercări în comunitățile statistice și informatice de a defini o anomalie. Cele mai răspândite includ următoarele și pot fi clasificate în trei grupe: cele care sunt ambigue, cele care sunt specifice unei metode cu praguri predefinite alese de obicei empiric, și cele care sunt definite formal:

Prost definite

  • O anomalie este o observație care se abate atât de mult de la celelalte observații, încât trezește suspiciuni că a fost generată de un mecanism diferit.
  • Anomaliile sunt cazuri sau culegeri de date care apar foarte rar în setul de date și ale căror caracteristici diferă semnificativ de majoritatea datelor.
  • O anomalie este o observație (sau un subset de observații) care pare a fi incompatibilă cu restul acelui set de date.
  • O anomalie este un punct sau o colecție de puncte care este relativ îndepărtată de alte puncte din spațiul multidimensional al caracteristicilor.
  • Anomaliile sunt tipare în date care nu se conformează unei noțiuni bine definite de comportament normal.

Specifice

Fie T observații dintr-o distribuție Gaussiană univariată și O un punct din T. Atunci scorul z pentru O este mai mare decât un prag preselectat dacă și numai dacă O este o valoare aberantă.

(Include texte traduse și adaptate din Wikipedia de Nicolae Sfetcu)

Rețele de comunicații 5G
Rețele de comunicații 5G

Datorită impactului său așteptat în economie și societate, a cincea generație de telecomunicații mobile (5G) este una dintre cele mai importante inovații ale timpului nostru. Așteptările cresc cu capacitățile de bandă largă ale 5G, accesibile tuturor și peste tot, la … Citeşte mai mult

Nu a fost votat $2.99$6.88 Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Inteligența competitivă - Concept - Studii
Inteligența competitivă – Concept – Studii

Trăim într-o lume condusă de hiper-concurență, în care oferta de afaceri depășește cererea. Pentru ca o organizație să supraviețuiască într-un mediu atât de agresiv competitiv, este necesară o mai bună înțelegere a concurenței și a forțelor concurente care îi afectează … Citeşte mai mult

Nu a fost votat $1.99$3.15 Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Etica Big Data în cercetare
Etica Big Data în cercetare

Principalele probleme cu care se confruntă oamenii de știință în lucrul cu seturile mari de date (Big Data), evidențiind principale aspecte etice, luând în considerare inclusiv legislația din Uniunea Europeană. După o scurtă Introducere despre Big Data, secțiunea Tehnologia prezintă … Citeşte mai mult

Nu a fost votat $0.00$2.35 Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *