Home » Articole » Articole » Afaceri » Știința datelor (Data Science) » Data mining » Analiza clusterelor în mineritul datelor

Analiza clusterelor în mineritul datelor

postat în: Data mining 0

Cluster
(Rezultatul unei analize de cluster, prezentat ca o colorare a pătratelor în trei grupuri.)

Analiza clusterelor sau clustering (grupare) este sarcina de a grupa un set de obiecte în așa fel încât obiectele din același grup (numit cluster) să fie mai asemănătoare (într-un fel sau altul) între ele decât cu cele din alte grupuri (clustere). Este o sarcină principală a mineritului de date exploratorii și o tehnică obișnuită pentru analiza datelor statistice, utilizată în multe domenii, inclusiv învățarea automată, recunoașterea modelelor, analiza imaginilor, regăsirea informațiilor, bioinformatica, compresia datelor și grafica pe computer.

Analiza clusterelor în sine nu este un algoritm specific, ci sarcina generală care trebuie rezolvată. Poate fi realizată prin diverși algoritmi care diferă semnificativ în ceea ce privește noțiunea despre ceea ce constituie un cluster și cum să le găsească eficient. Noțiunile populare de clustere includ grupuri cu distanțe mici între membrii clusterului, zone dense ale spațiului de date, intervale sau anumite distribuții statistice. Prin urmare, clustering poate fi formulat ca o problemă de optimizare multi-obiectivă. Algoritmul de clustering adecvat și setările parametrilor (inclusiv valori precum funcția de distanță de utilizat, un prag de densitate sau numărul de clustere așteptate) depind de setul de date individual și de utilizarea intenționată a rezultatelor. Analiza clusterelor ca atare nu este o sarcină automată, ci un proces iterativ de descoperire a cunoștințelor sau de optimizare interactivă cu mai multe obiective care implică încercare și eșec. Este adesea necesar să se modifice preprocesarea datelor și parametrii modelului până când rezultul atinge proprietățile dorite.

Pe lângă termenul de clustering, există o serie de termeni cu semnificații similare, inclusiv clasificarea automată, taxonomia numerică, botriologia și analiza tipologică. Diferențele subtile sunt adesea în utilizarea rezultatelor: în timp ce în mineritul de date grupurile rezultate sunt subiectul de interes, în clasificarea automată puterea discriminatorie rezultată este de interes.

Analiza clusterelor a fost creată în antropologie de Driver și Kroeber în 1932 și introdusă în psihologie de Zubin în 1938 și Robert Tryon în 1939 și folosită de Cattell începând cu 1943 pentru clasificarea teoriei trăsăturilor în psihologia personalității.

Definiție

Noțiunea de „cluster” nu poate fi definită cu precizie, ceea ce este unul dintre motivele pentru care există atât de mulți algoritmi de clustering. Există un numitor comun: un grup de obiecte de date. Cu toate acestea, diferiți cercetători folosesc modele de cluster diferite și pentru fiecare dintre aceste modele de cluster pot fi dați din nou algoritmi diferiți. Noțiunea de cluster, găsită de diferiți algoritmi, variază semnificativ în ceea ce privește proprietățile sale. Înțelegerea acestor „modele de cluster” este cheia pentru înțelegerea diferențelor dintre diferiții algoritmi. Modelele tipice de cluster includ:

  • Modele de conectivitate: de exemplu, gruparea ierarhică creează modele bazate pe conectivitate la distanță.
  • Modele centroide: de exemplu, algoritmul mediilor k reprezintă fiecare grup printr-un singur vector mediu.
  • Modele de distribuție: clusterele sunt modelate folosind distribuții statistice, cum ar fi distribuțiile normale multivariate utilizate de algoritmul de maximizare a așteptărilor.
  • Modele de densitate: de exemplu, DBSCAN și OPTICS definesc clusterele ca regiuni dense conectate în spațiul de date.
  • Modele subspațiale: în biclustering (cunoscut și drept co-clustering sau clustering în două moduri), clusterele sunt modelate atât cu membrii clusterului, cât și cu atribute relevante.
  • Modele de grup: unii algoritmi nu oferă un model rafinat pentru rezultatele lor și doar furnizează informațiile de grupare.
  • Modele bazate pe grafice: o clică, adică un subset de noduri dintr-un grafic, astfel încât fiecare două noduri din subset sunt conectate printr-o muchie, poate fi considerată ca o formă prototipică de cluster. Relaxările cerinței complete de conectivitate (o parte din margini poate lipsi) sunt cunoscute sub denumirea de cvasi-clici, ca în algoritmul de grupare HCS.

Un „clustering” este în esență un set de astfel de clustere, care de obicei conțin toate obiectele din setul de date. În plus, poate specifica relația clusterelor între ele, de exemplu o ierarhie de clustere încorporate unul în celălalt. Clustering-urile pot fi distinse aproximativ ca:

  • clustering greu: fiecare obiect aparține unui cluster sau nu
  • clustering ușor (de asemenea: clustering fuzzy): fiecare obiect aparține fiecărui grup într-o anumită măsură (de exemplu, o probabilitate de a aparține grupului)

Există, de asemenea, distincții mai fine posibile, de exemplu:

  • clustering de partiționare strictă: aici fiecare obiect aparține exact unui cluster
  • clustering de partiționare strictă cu valori aberante: de asemenea, obiectele nu pot aparține niciunui cluster și sunt considerate valori aberante.
  • clustering suprapus (de asemenea: clustering alternativ, clustering cu mai multe vizualizări): deși de obicei este un clustering greu, obiectele pot aparține mai multor grupuri.
  • clustering ierarhic: obiectele care aparțin unui cluster copil aparțin și clusterului părinte
  • clustering subspațial: în timp ce este un clustering suprapus, într-un subspațiu definit în mod unic, nu se așteaptă ca clusterele să se suprapună.

Algoritmi

Algoritmii de clustering pot fi clasificați pe baza modelului lor de cluster, așa cum este enumerat mai sus. Următoarea prezentare generală va enumera doar cele mai proeminente exemple de algoritmi de clustering, deoarece sunt posibili peste 100 de algoritmi de clustering publicați. Nu toate oferă modele pentru clusterele lor și, prin urmare, nu pot fi clasificate cu ușurință.

Nu există un algoritm de clustering „corect” în mod obiectiv, dar, așa cum s-a menționat, „clusteringul este în ochiul privitorului”. Cel mai potrivit algoritm de clustering pentru o anumită problemă trebuie adesea ales experimental, cu excepția cazului în care există un motiv matematic pentru a prefera un model de cluster în detrimentul altuia. Trebuie remarcat faptul că un algoritm care este conceput pentru un tip de model nu are nicio șansă pentru un set de date care conține un tip radical diferit de model. De exemplu, mediile k nu pot găsi clustere neconvexe.

Sursa: Drew Bentley, Business Intelligence and Analytics. © 2017 Library Press, Licență CC BY-SA 4.0. Traducere și adaptare: Nicolae Sfetcu

Introducere în inteligența artificială
Introducere în inteligența artificială

Inteligența artificială s-a dezvoltat exploziv în ultimii ani, facilitând luarea deciziilor inteligente și automate în cadrul scenariilor de implementare. Inteligența artificială se referă la un ecosistem de modele și tehnologii pentru percepție, raționament, interacțiune și învățare.  Asistăm la o convergență … Citeşte mai mult

Nu a fost votat 13.47 lei22.85 lei Selectează opțiunile
Lucrul cu baze de date
Lucrul cu baze de date

Colecția ȘTIINȚA INFORMAȚIEI Lucrul cu bazele de date este astăzi printre cele mai căutate abilități IT. Acum puteți obține o bază de plecare în proiectarea și implementarea bazelor de date cu o abordare practică, ușor de înțeles. ”Lucrul cu baze … Citeşte mai mult

Nu a fost votat 17.98 lei36.01 lei Selectează opțiunile
Introducere în Business Intelligence
Introducere în Business Intelligence

Colecția ȘTIINȚA INFORMAȚIEI ”Introducere în Business Intelligence” oferă cititorilor informații cuprinzătoare despre business intelligence, explorând toate aspectele importante ale inteligenței de afaceri în scenariul actual. Subiectele tratate se referă la abordările de bază ale business intelligence. Cartea își propune să … Citeşte mai mult

Nu a fost votat 13.47 lei21.63 lei Selectează opțiunile

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *