Home » Articole » Articole » Afaceri » Știința datelor (Data Science) » Data mining » Analiza datelor prin clustering pe bază de densitate în mineritul datelor

Analiza datelor prin clustering pe bază de densitate în mineritul datelor

postat în: Data mining 0

În clusteringul bazată pe densitate, clusterele sunt definite ca zone cu o densitate mai mare decât restul setului de date. Obiectele din aceste zone împrăștiate – care sunt necesare pentru a separa clusterele – sunt de obicei considerate a fi puncte de zgomot și de frontieră.

Cea mai populară metodă de clustering bazat pe densitate este DBSCAN. Spre deosebire de multe metode mai noi, prezintă un model de cluster bine definit numit „densitate-accesibilitate”. Similar clusteringului bazat pe conexiuni, se bazează pe puncte de conectare în anumite praguri de distanță. Cu toate acestea, conectează numai puncte care îndeplinesc un criteriu de densitate, în varianta originală definită ca un număr minim de alte obiecte în această rază. Un cluster este format din toate obiectele conectate prin densitate (care pot forma un cluster de formă arbitrară, spre deosebire de multe alte metode) plus toate obiectele care se află în raza acestor obiecte. O altă proprietate interesantă a DBSCAN este că complexitatea sa este destul de scăzută – necesită un număr liniar de interogări de interval în baza de date – și că va descoperi în esență aceleași rezultate (este determinist pentru punctele de bază și de zgomot, dar nu pentru punctele de graniță) în fiecare rulare, prin urmare nu este nevoie să o rulați de mai multe ori. OPTICS este o generalizare a DB-SCAN care înlătură necesitatea de a alege o valoare adecvată pentru parametrii de interval s și produce un rezultat ierarhic legat de cel al clusteringului de legături. DeLi-Clu, Density-Link-Clustering, combină ideile din clustering cu o singură legătură și OPTICS, eliminând complet parametrul s și oferind îmbunătățiri ale performanței față de OPTICS prin utilizarea unui index de arbore R.

Dezavantajul cheie al DBSCAN și OPTICS este că se așteaptă la un fel de scădere a densității pentru a detecta granițele clusterului. Mai mult, nu pot detecta structurile intrinseci ale clusterelor care sunt predominante în majoritatea datelor din viața reală. O variantă a DBSCAN, EnDBSCAN, detectează eficient astfel de structuri. Pe seturile de date cu, de exemplu, distribuții gaussiene suprapuse – un caz de utilizare obișnuit în datele artificiale – granițele clusterului produse de acești algoritmi vor părea adesea arbitrare, pentru că densitatea clusterului scade continuu. Pe un set de date format din amestecuri de gaussieni, acești algoritmi sunt aproape întotdeauna depășiți de metode precum gruparea EM, care sunt capabile să modeleze cu precizie acest tip de date.

Mean-shift este o abordare de clustering în care fiecare obiect este mutat în zona cea mai densă din vecinătatea sa, pe baza estimării densității nucleului. În cele din urmă, obiectele converg către maximele locale de densitate. Similar cu clusteringul k-means, acești „atractori de densitate” pot servi ca reprezentanți pentru setul de date, dar deplasarea medie poate detecta clustere de formă arbitrară similare cu DBSCAN. Datorită procedurii iterative costisitoare și estimării densității, deplasarea medie este de obicei mai lentă decât DBSCAN sau k-Means.

Exemple de grupare bazate pe densitate:

Clustering bazat pe densitate cu DBSCAN(Clustering bazat pe densitate cu DBSCAN.)

DBSCAN presupune clustere de densitate similară(DBSCAN presupune clustere de densitate similară și poate avea probleme la separarea clusterelor din apropiere)

OPTICS este o variantă DBSCAN(OPTICS este o variantă DBSCAN care gestionează mult mai bine diferite densități)

Sursa: Drew Bentley, Business Intelligence and Analytics. © 2017 Library Press, Licență CC BY-SA 4.0. Traducere și adaptare: Nicolae Sfetcu

Lucrul cu baze de date
Lucrul cu baze de date

Colecția ȘTIINȚA INFORMAȚIEI Lucrul cu bazele de date este astăzi printre cele mai căutate abilități IT. Acum puteți obține o bază de plecare în proiectarea și implementarea bazelor de date cu o abordare practică, ușor de înțeles. ”Lucrul cu baze … Citeşte mai mult

Nu a fost votat 18.80 lei37.65 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Analitica rețelelor sociale
Analitica rețelelor sociale

Analitica rețelelor sociale este un domeniu nou și emergent, pregătit pentru a permite companiilor să își îmbunătățească inițiativele de gestionare a performanței în diferite funcții de afaceri. Indiferent dacă este vorba de măsurarea eficienței campaniilor promoționale, colectarea de informații despre … Citeşte mai mult

Nu a fost votat 18.80 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Big Data: Modele de afaceri - Securitatea megadatelor
Big Data: Modele de afaceri – Securitatea megadatelor

Termenul megadate (Big Data, date masive) este adesea folosit în mod vag pentru a desemna paleta de algoritmi, tehnologii și sisteme utilizate pentru colectarea datelor de volum și varietate fără precedent și extragerea de valoare din acestea prin calculul masiv … Citeşte mai mult

Nu a fost votat 18.80 lei28.23 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *