Home » Articole » Articole » Afaceri » Știința datelor (Data Science) » Data mining » Analiza clusterelor în mineritul datelor: Clustering bazat pe conectivitate (Clustering ierarhic)

Analiza clusterelor în mineritul datelor: Clustering bazat pe conectivitate (Clustering ierarhic)

postat în: Data mining 0

Clusteringul bazată pe conectivitate, cunoscut și sub denumirea de clustering ierarhic, se bazează pe ideea de bază că obiectele sunt mai mult legate de obiectele din apropiere decât de obiectele aflate la distanță. Acești algoritmi conectează „obiecte” pentru a forma „clustere” pe baza distanței lor. Un cluster poate fi descris în mare măsură prin distanța maximă necesară pentru a conecta părți ale clusterului. La diferite distanțe, se vor forma clustere diferite, care pot fi reprezentate folosind o dendrogramă, care explică de unde provine denumirea comună „clustering ierarhic”: acești algoritmi nu oferă o singură partiționare a setului de date, ci oferă o ierarhie extinsă de clustere care se contopesc între ele la anumite distanțe. Într-o dendrogramă, axa y marchează distanța la care clusterele se îmbină, în timp ce obiectele sunt plasate de-a lungul axei x, astfel încât clusterele să nu se amestece.

Clusteringul bazat pe conectivitate este o întreagă familie de metode care diferă prin modul în care sunt calculate distanțele. În afară de alegerea obișnuită a funcțiilor de distanță, utilizatorul trebuie să decidă și criteriul de conectare (deoarece un cluster este format din mai multe obiecte, există mai mulți candidați pentru a calcula distanța până la) de utilizat. Opțiunile populare sunt cunoscute sub denumirea de clustering cu o singură legătură (minimum de distanțe ale obiectelor), clustering cu legături complete (maximum de distanțe ale obiectelor) sau UPGMA („Unweighted Pair Group Method with Arithmetic Mean”, cunoscut și sub denumirea de clustering cu legături medii). În plus, gruparea ierarhică poate fi aglomerativă (începând cu elemente individuale și agregându-le în clustere) sau divizivă (începând cu setul complet de date și împărțindu-l în partiții).

Aceste metode nu vor produce o partiționare unică a setului de date, ci o ierarhie din care utilizatorul trebuie să aleagă clustere adecvate. Ele nu sunt foarte robuste față de valorile aberante, care fie vor apărea drept clustere suplimentare, fie chiar vor provoca fuziunea altor clustere (cunoscut sub numele de „fenomen de înlănțuire”, în special cu gruparea cu o singură legătură). În cazul general, complexitatea este O(n3) pentru clustering aglomerativ și O(2n-1) pentru clustering divizibil, ceea ce le face prea lente pentru seturi de date mari. Pentru unele cazuri speciale, sunt cunoscute metode eficiente optime (de complexitate O(n2)): SLINK pentru o singură legătură și CLINK pentru gruparea cu conexiuni complete. În comunitatea de minerit a datelor, aceste metode sunt recunoscute ca o bază teoretică a analizei cluster, dar adesea considerate învechite. Cu toate acestea, au fost o inspirație pentru multe metode ulterioare, cum ar fi clusteringul bazată pe densitate.

Exemple de grupări de legături

Clustering bazat pe conectivitate (Clustering ierarhic)Legătura unică pe datele gaussiene. La 35 de clustere, cel mai mare cluster începe să se fragmenteze în părți mai mici, în timp ce înainte era încă conectat la al doilea ca mărime datorită efectului de legătură unică.

Clustering bazat pe conectivitate (Clustering ierarhic) Legătura unică pe clustere bazate pe densitate. S-au extras 20 de clustere, dintre care majoritatea conțin elemente unice, deoarece gruparea de legături nu are o noțiune de „zgomot”.

Sursa: Drew Bentley, Business Intelligence and Analytics. © 2017 Library Press, Licență CC BY-SA 4.0. Traducere și adaptare: Nicolae Sfetcu

Rețele de comunicații 5G
Rețele de comunicații 5G

Descoperă cum 5G transformă lumea și pregătește-te să fii parte din viitor.

Nu a fost votat $2.99$6.88 Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Introducere în inteligența artificială
Introducere în inteligența artificială

Pășește în era digitală pregătit să înțelegi și să aplici conceptele care schimbă lumea!

Nu a fost votat $2.99 Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Big Data: Modele de afaceri - Securitatea megadatelor
Big Data: Modele de afaceri – Securitatea megadatelor

Nu rata oportunitatea de a rămâne competitiv într-o lume bazată pe date!

Nu a fost votat $3.99$5.99 Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *