Home » Articole » RO » Afaceri » Știința datelor (Data Science) » Data mining » Detectarea anomaliilor în mineritul datelor (Data Mining)

Detectarea anomaliilor în mineritul datelor (Data Mining)

postat în: Data mining 0

În data mining, detectarea anomaliilor (de asemenea, detectarea valorilor aberante) este identificarea elementelor, evenimentelor sau observațiilor care nu sunt conforme cu un model așteptat sau cu alte elemente dintr-un set de date. De obicei, elementele anormale se vor traduce într-un fel de problemă, cum ar fi frauda bancară, un defect structural, probleme medicale sau erori într-un text. Anomaliile mai sunt denumite valori aberante, noutăți, zgomot, abateri și excepții.

În special, în contextul detectării abuzului și a intruziunilor în rețea, obiectele interesante nu sunt adesea obiecte rare, ci explozii neașteptate de activitate. Acest model nu aderă la definiția statistică comună a valorii aberante ca obiect rar și multe metode de detectare a valorii aberante (în special metodele nesupravegheate) vor eșua cu astfel de date, cu excepția cazului în care au fost agregate în mod corespunzător. În schimb, un algoritm de analiză a clusterului poate fi capabil să detecteze micro clusterele formate de aceste modele.

Există trei categorii largi de tehnici de detectare a anomaliilor. Tehnicile de detectare a anomaliilor nesupravegheate detectează anomalii într-un set de date de testare neetichetat, presupunând că majoritatea cazurilor din setul de date sunt normale, căutând instanțe care par să se potrivească cel mai puțin cu restul setului de date. Tehnicile de detectare a anomaliilor supravegheate necesită un set de date care a fost etichetat ca „normal” și „anormal” și implică antrenarea unui clasificator (diferența cheie față de multe alte probleme de clasificare statistică este natura dezechilibrată inerentă a detectării valorii anormale).

Tehnicile de detectare a anomaliilor semi-supravegheate construiesc un model reprezentând comportamentul normal dintr-un set de date de antrenament normal dat și apoi testează probabilitatea ca o instanță de testare să fie generată de modelul învățat.

Aplicații

Detectarea anomaliilor este aplicabilă într-o varietate de domenii, cum ar fi detectarea intruziunilor, detectarea fraudei, detectarea defecțiunilor, monitorizarea sănătății sistemului, detectarea evenimentelor în rețelele de senzori și detectarea perturbărilor ecosistemului. Este adesea folosit în preprocesare pentru a elimina datele anormale din setul de date. În învățarea supravegheată, eliminarea datelor anormale din setul de date duce adesea la o creștere semnificativă statistic a preciziei.

Tehnici populare

În literatură au fost propuse mai multe tehnici de detectare a anomaliilor. Unele dintre tehnicile populare sunt:

  • Tehnici bazate pe densitate (k-cel mai apropiat vecin, factor local anormal și multe alte variante ale acestui concept).
  • Detectarea valorii aberante bazată pe subspațiu și corelație pentru date cu dimensiuni mari.
  • Mașini vectoriale de suport cu o singură clasă.
  • Rețele neuronale replicatoare.
  • Detectarea valorii aberante pe baza analizei clusterelor.
  • Abateri de la regulile de asociere și seturi frecvente de articole.
  • Detectarea valorii anormale bazată pe logica fuzzy.
  • Tehnici de ansamblu, folosind caracteristici de bagging, normalizarea scorului și diferite surse de diversitate.

Performanța diferitelor metode depinde foarte mult de setul de date și de parametrii, iar metodele au avantaje sistematice mici față de altele în comparație cu multe seturi de date și parametri.

Aplicație pentru securitatea datelor

Detectarea anomaliilor a fost propusă pentru sistemele de detectare a intruziunilor (IDS) de Dorothy Denning în 1986. Detectarea anomaliilor pentru IDS se realizează în mod normal cu praguri și statistici, dar se poate face și cu soft computing și învățarea inductivă. Tipurile de statistici propuse până în 1999 au inclus profiluri de utilizatori, stații de lucru, rețele, gazde la distanță, grupuri de utilizatori și programe bazate pe frecvențe, medii, varianțe, covarianțe și abateri standard. Omologul detectării anomaliilor în detectarea intruziunilor este detectarea utilizării greșite.

Software

ELKI este un set de instrumente de minerit a datelor Java open-source care conține mai mulți algoritmi de detectare a anomaliilor, precum și accelerarea indexului pentru aceștia.

Sursa: Drew Bentley, Business Intelligence and Analytics. © 2017 Library Press, Licență CC BY-SA 4.0. Traducere și adaptare: Nicolae Sfetcu

© 2022 MultiMedia Publishing, Business intelligence și analitica în afaceri, Colecția Știința Informației

Analitica rețelelor sociale
Analitica rețelelor sociale

Analitica rețelelor sociale este un domeniu nou și emergent, pregătit pentru a permite companiilor să își îmbunătățească inițiativele de gestionare a performanței în diferite funcții de afaceri. Indiferent dacă este vorba de măsurarea eficienței campaniilor promoționale, colectarea de informații despre … Citeşte mai mult

Nu a fost votat $3,99$9,61 Selectează opțiunile
Big Data: Modele de afaceri - Securitatea megadatelor
Big Data: Modele de afaceri – Securitatea megadatelor

Termenul megadate (Big Data, date masive) este adesea folosit în mod vag pentru a desemna paleta de algoritmi, tehnologii și sisteme utilizate pentru colectarea datelor de volum și varietate fără precedent și extragerea de valoare din acestea prin calculul masiv … Citeşte mai mult

Nu a fost votat $3,99$5,99 Selectează opțiunile
Căutarea, extragerea, organizarea și evaluarea informațiilor
Căutarea, extragerea, organizarea și evaluarea informațiilor

Informația, ca și concept, include o mare diversitate de sensuri în contexte diferite, de la cele zilnice până la cele tehnice. Conceptul de informație este strâns legat de noțiunile de restricție, comunicare, control, date, forme, educație, cunoaștere, înțelegere, stimul mental, … Citeşte mai mult

Nu a fost votat $3,99$9,61 Selectează opțiunile

Lasă un răspuns

Adresa ta de email nu va fi publicată.