Home » Articole » Articole » Afaceri » Știința datelor (Data Science) » Data mining » Analiza clusterelor în mineritul datelor: Clustering bazat pe distribuție

Analiza clusterelor în mineritul datelor: Clustering bazat pe distribuție

postat în: Data mining 0

Modelul de clustering cel mai strâns legat de statistică se bazează pe modele de distribuție. Clusterele bazate pe distribuție pot fi apoi definite cu ușurință ca obiecte aparținând cel mai probabil aceleiași distribuții. O proprietate convenabilă a acestei abordări este că aceasta seamănă foarte mult cu modul în care sunt generate seturile de date artificiale: prin eșantionarea obiectelor aleatorii dintr-o distribuție.

Deși fundamentul teoretic al acestor metode este excelent, ele suferă de o problemă cheie cunoscută sub denumirea de supraadaptare, cu excepția cazului în care sunt impuse constrângeri asupra complexității modelului. Un model mai complex va putea, de obicei, să explice mai bine datele, ceea ce face ca alegerea complexității modelului potrivit să fie dificilă în mod inerent.

O metodă proeminentă este cunoscută sub denumirea de modele de amestec gaussiene (folosind algoritmul de așteptare-maximizare). Aici, setul de date este de obicei modelat cu un număr fix (pentru a evita supraadaptarea) de distribuții gaussiene care sunt inițializate aleatoriu și ai căror parametri sunt optimizați iterativ pentru a se potrivi mai bine cu setul de date. Acest lucru va converge către un optim local, astfel încât mai multe rulări pot produce rezultate diferite. Pentru a obține un clustering hard, obiectele sunt adesea atribuite distribuției gaussiene căreia îi aparțin cel mai probabil; pentru clustering soft, acest lucru nu este necesar.

Gruparea bazată pe distribuție produce modele complexe pentru clustere care pot captura corelația și dependența dintre atribute. Cu toate acestea, acești algoritmi pun o povară suplimentară pentru utilizator: pentru multe seturi de date reale, este posibil să nu existe un model matematic definit concis (de exemplu, presupunerea distribuțiilor gaussiene este o presupunere destul de puternică asupra datelor).

Exemple de clustering așteptare-maximizare:

Clustere pe datele distribuite gaussian(Pe datele distribuite gaussian, clusteringul așteptare-maximizare funcționează bine, deoarece folosește gaussieni pentru modelarea clusterelor)

Clustere bazate pe densitate(Clusterele bazate pe densitate nu pot fi modelate folosind distribuții gaussiene)

Sursa: Drew Bentley, Business Intelligence and Analytics. © 2017 Library Press, Licență CC BY-SA 4.0. Traducere și adaptare: Nicolae Sfetcu

Rețele de comunicații 5G
Rețele de comunicații 5G

Descoperă cum 5G transformă lumea și pregătește-te să fii parte din viitor.

Nu a fost votat 14.43 lei33.21 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Căutarea, extragerea, organizarea și evaluarea informațiilor
Căutarea, extragerea, organizarea și evaluarea informațiilor

Transformă informația în putere cu ajutorul acestei cărți indispensabile!

Nu a fost votat 19.26 lei46.39 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Etica Big Data în cercetare
Etica Big Data în cercetare

Principalele probleme cu care se confruntă oamenii de știință în lucrul cu seturile mari de date (Big Data), evidențiind principale aspecte etice, luând în considerare inclusiv legislația din Uniunea Europeană. După o scurtă Introducere despre Big Data, secțiunea Tehnologia prezintă … Citeşte mai mult

Nu a fost votat 0.00 lei11.34 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *