Mineritul datelor spațiale
Mineritul datelor spațiale este aplicarea metodelor de minerit a datelor la datele spațiale. Obiectivul final al mineritului datelor spațiale este de a găsi modele în date cu privire la geografie. Până acum, mineritul de date și sistemele de informații geografice (GIS) au existat ca două tehnologii separate, fiecare cu propriile metode, tradiții și abordări ale vizualizării și analizei datelor. În special, majoritatea GIS-urilor contemporane au doar funcționalități de analiză spațială de bază. Explozia imensă a datelor cu referință geografică, cauzată de evoluțiile în IT, cartografierea digitală, teledetecția și difuzarea globală a GIS subliniază importanța dezvoltării abordărilor inductive bazate pe date pentru analiza și modelarea geografică.
Mineritul datelor oferă beneficii potențiale mari pentru luarea deciziilor aplicate bazate pe GIS. Recent, sarcina de a integra aceste două tehnologii a devenit de o importanță critică, mai ales că diverse organizații din sectorul public și privat care dețin baze de date uriașe cu date tematice și referite geografic încep să realizeze potențialul uriaș al informațiilor conținute în acestea. Printre aceste organizații se numără:
- birouri care necesită analiză sau diseminare de date statistice georeferențiate
- servicii de sănătate publică, care caută explicații pentru gruparea bolilor
- agenții de mediu care evaluează impactul schimbării modelelor de utilizare a terenurilor asupra schimbărilor climatice
- companii de geomarketing care fac segmentarea clienților pe baza locației spațiale.
Provocări în minerit spațial: depozitele de date geospațiale tind să fie foarte mari. Mai mult, seturile de date GIS existente sunt adesea împărțite în componente de caracteristici și atribute care sunt arhivate în mod convențional în sistemele hibride de gestionare a datelor. Cerințele algoritmice diferă substanțial pentru gestionarea datelor relaționale (atribute) și pentru gestionarea datelor topologice (funcție). Legat de aceasta este gama și diversitatea formatelor de date geografice, care prezintă provocări unice. Revoluția datelor geografice digitale creează noi tipuri de formate de date dincolo de formatele tradiționale „vectoriale” și „raster”. Arhivele de date geografice includ din ce în ce mai mult date prost structurate, cum ar fi imagini și geo-referințe multimedia.
Există mai multe provocări critice de cercetare în descoperirea cunoștințelor geografice și mineritul datelor. Miller și Han oferă următoarea listă de subiecte de cercetare emergente în domeniu:
- Dezvoltarea și sprijinirea depozitelor de date geografice (GDW): proprietățile spațiale sunt deseori reduse la atribute aspațiale simple în depozitele de date principale. Crearea unui GDW integrat necesită rezolvarea problemelor de interoperabilitate a datelor spațiale și temporale – inclusiv diferențele de semantică, sisteme de referință, geometrie, precizie și poziție.
- Reprezentări spațio-temporale mai bune în descoperirea cunoștințelor geografice: metodele actuale de descoperire a cunoștințelor geografice (GKD) folosesc în general reprezentări foarte simple ale obiectelor geografice și ale relațiilor spațiale. Metodele de minerit a datelor geografice ar trebui să recunoască obiecte geografice mai complexe (adică, linii și poligoane) și relații (adică, distanțe non-euclidiene, direcție, conectivitate și interacțiune prin spațiul geografic atribuit, cum ar fi terenul). În plus, dimensiunea timp trebuie să fie mai pe deplin integrată în aceste reprezentări și relații geografice.
- Descoperirea cunoștințelor geografice folosind diverse tipuri de date: ar trebui dezvoltate metode GKD care să poată gestiona diverse tipuri de date, dincolo de modelele raster și vectoriale tradiționale, inclusiv imagini și geo-referințe multimedia, precum și tipuri de date dinamice (fluxuri video, animație).
Mineritul datelor temporale
Datele pot conține atribute generate și înregistrate la momente diferite. În acest caz, găsirea unor relații semnificative în date poate necesita luarea în considerare a ordinii temporale a atributelor. O relație temporală poate indica o relație cauzală sau pur și simplu o asociere.
Mineritul datelor senzorilor
Rețelele de senzori fără fir pot fi utilizate pentru a facilita colectarea de date pentru mineritul datelor spațiale pentru o varietate de aplicații, cum ar fi monitorizarea poluării aerului. O caracteristică a unor astfel de rețele este că nodurile senzoriale din apropiere care monitorizează o caracteristică de mediu înregistrează de obicei valori similare. Acest tip de redundanță a datelor datorită corelației spațiale dintre observațiile senzorilor inspiră tehnicile de agregare și extragere a datelor în rețea. Măsurând corelația spațială dintre datele eșantionate de diferiți senzori, poate fi dezvoltată o clasă largă de algoritmi specializați pentru a dezvolta algoritmi mai eficienți de minerit a datelor spațiale.
Mineritul datelor vizuale
În procesul de trecere de la analog la digital, seturi mari de date au fost generate, colectate și stocate, descoperind modele statistice, tendințe și informații care sunt ascunse în date, pentru a construi modele predictive. Studiile sugerează că mineritul datelor vizuale este mai rapidă și mult mai intuitivă decât mineritul datelor tradiționale.
Mineritul datelor muzicale
Tehnicile de minerit a datelor, și în special analiza co-ocurențelor, au fost folosite pentru a descoperi asemănări relevante între corpurile muzicale (liste radio, baze de date CD) în scopuri inclusiv de clasificare a muzicii în genuri într-un mod mai obiectiv.
Supraveghere
Mineritul datelor a fost folosită de guvernul SUA. Aplicațiile includ programul Total Information Awareness (TIA), Secure Flight (cunoscut anterior sub numele de Computer-Assisted Passenger Prescreening System (CAPPS II)), Analysis, Dissemination, Visualization, Insight, Semantic Enhancement (ADVISE) și Multi-state Anti-Terrorism Information Exchange (MATRIX). Aceste programe au fost întrerupte din cauza controverselor privind încălcarea celui de-al 4-lea amendament la Constituția Statelor Unite, deși multe programe care au fost formate în temeiul acestora continuă să fie finanțate de organizații diferite sau sub nume diferite.
În contextul combaterii terorismului, două metode deosebit de plauzibile de minerit a datelor sunt „mineritul modelelor” și „mineritul datelor bazate pe subiecte”.
Mineritul modelelor
„Mineritul de modele” este o metodă de minerit a datelor care implică găsirea modelelor existente în date. În acest context, prin modele se înțelege adesea reguli de asociere. Motivația inițială pentru căutarea regulilor de asociere a venit din dorința de a analiza datele tranzacțiilor din supermarket, adică de a examina comportamentul clienților în ceea ce privește produsele achiziționate. De exemplu, o regulă de asociere „bere → chipsuri de cartofi (80%)” prevede că patru din cinci clienți care au cumpărat bere au cumpărat și chipsuri de cartofi.
În contextul mineritului de modele ca instrument de identificare a activității teroriste, Consiliul Național de Cercetare oferă următoarea definiție: „Mineritul datelor bazat pe modele caută modele (inclusiv modele de date anormale) care ar putea fi asociate cu activitatea teroristă — aceste modele ar putea fi considerate ca semnale mici într-un mare ocean de zgomot.” Mineritul modelelor include noi domenii, cum ar fi Recuperarea informațiilor muzicale (MIR) în care modelele văzute atât în domeniul temporal, cât și în cel non-temporal sunt importate în metodele clasice de căutare pentru descoperirea cunoștințelor.
Mineritul de date bazat pe subiect
„Mineritul de date bazat pe subiect” este o metodă de minerit a datelor care implică anumite căutari a asocierilor între indivizi în date. În contextul luptei împotriva terorismului, Consiliul Național de Cercetare oferă următoarea definiție: „Mineritul de date bazat pe subiecte utilizează un individ inițiator sau alte date care sunt considerate, pe baza altor informații, a fi de mare interes, iar scopul este de a determina ce alte persoane sau tranzacții financiare sau mișcări etc. sunt legate de acea dată de inițiere.”
Grila de cunoștințe
Descoperirea cunoștințelor „pe grilă” se referă, în general, la desfășurarea descoperirii cunoștințelor într-un mediu deschis, folosind concepte de calcul de grilă, permițând utilizatorilor să integreze date din diverse surse de date online, precum și să utilizeze resurse de la distanță pentru a-și executa sarcinile de minerit a datelor. Cel mai vechi exemplu a fost Discovery Net, dezvoltat la Imperial College London, care a câștigat „Premiul pentru cele mai inovatoare aplicații intensive în date” la conferința și expoziția ACM SC02 (Supercomputing 2002), bazată pe o demonstrație a unei aplicații de descoperire a cunoștințelor distribuite complet interactive. pentru o aplicație bioinformatică. Alte exemple includ lucrările efectuate de cercetători de la Universitatea din Calabria, care au dezvoltat o arhitectură Grila de cunoștințe (Knowledge Grid) pentru descoperirea de cunoștințe distribuite, bazată pe clacul de grilă.
Sursa: Drew Bentley, Business Intelligence and Analytics. © 2017 Library Press, Licență CC BY-SA 4.0. Traducere și adaptare: Nicolae Sfetcu
Lasă un răspuns