Home » Articole » RO » Afaceri » Știința datelor (Data Science) » Data mining » Tipuri de date folosite în mineritul datelor (Data Mining)

Tipuri de date folosite în mineritul datelor (Data Mining)

În esență, există două tipuri de date care pot fi extrase: operaționale și organizaționale.

Cel mai elementar tip de date, datele operaționale, provin din sisteme tranzacționale care înregistrează activitățile de zi cu zi. Întâlnirile simple, cum ar fi cumpărarea de benzină, efectuarea unei achiziții online sau înregistrarea pentru un zbor la aeroport au ca rezultat crearea de date operaționale. Orele, prețurile și descrierile bunurilor sau serviciilor pe care le-am achiziționat sunt toate înregistrate. Aceste informații pot fi combinate într-un depozit de date sau pot fi extrase direct într-un set de date din sistemul OLTP.

De multe ori, datele tranzacționale sunt prea detaliate pentru a fi de mare folos, sau detaliile pot compromite confidențialitatea persoanelor. În multe cazuri, organizațiile guvernamentale, academice sau non-profit pot crea seturi de date și apoi le pun la dispoziție publicului. De exemplu, dacă am dori să identificăm regiuni ale Statelor Unite ale Americii care din punct de vedere istoric sunt expuse unui risc ridicat de gripă, ar fi dificil să obținem permisiunea și să colectăm înregistrări ale vizitelor la medic la nivel național și să compilăm aceste informații într-un set de date semnificativ. Cu toate acestea, Centrele pentru Controlul și Prevenirea Bolilor din SUA (CDCP), fac exact acest lucru în fiecare an. Agențiile guvernamentale nu pun întotdeauna aceste informații la dispoziția publicului larg imediat, dar pot fi solicitate adesea. Alte organizații creează și astfel de date rezumative. Magazinul alimentar menționat la începutul acestui capitol nu ar dori în mod în mod necesar să analizeze înregistrările individuale ale conservelor de fasole verde vândute, dar ar putea dori să urmărească tendințele pentru totalurile zilnice, săptămânale sau poate lunare. Seturile de date organizaționale pot ajuta la protejarea confidențialității oamenilor, în timp ce se dovedesc totuși utile pentru minerii de date care urmăresc tendințele într-o anumită populație.

Un alt tip de date adesea trecute cu vederea în cadrul organizațiilor este ceva numit magazin de date. Un magazin de date este un depozit de date organizaționale, similar cu un depozit de date, dar adesea creat împreună cu nevoile unităților de afaceri, cum ar fi marketing sau serviciul clienți, în scopuri de raportare și management. De obicei, magazinele de date sunt create în mod intenționat de o organizație pentru a fi un tip de ghișeu unic pentru angajații din întreaga organizație pentru a găsi datele pe care le-ar putea căuta. Magazinele de date pot conține date minunate, importante pentru activitățile de minerit de date, dar trebuie să fie cunoscute, actuale și exacte pentru a fi utile. De asemenea, ar trebui să fie bine gestionate în ceea ce privește confidențialitatea și securitatea.

Toate aceste tipuri de date organizaționale poartă cu ele unele îngrijorări. Deoarece sunt secundare, adică au fost derivate din alte surse de date primare mai detaliate, este posibil să lipsească documentația adecvată, iar rigoarea cu care au fost create poate fi foarte variabilă. Este posibil ca astfel de surse de date să nu fie destinate distribuției generale și este întotdeauna înțelept să vă asigurați că se obține permisiunea corespunzătoare înainte de a vă implica în activități de minerit a datelor pentru orice set de date. Rețineți că simplul fapt că un set de date poate fi achiziționat de pe Internet nu înseamnă că este în domeniul public; și simplul fapt că un set de date poate exista în cadrul organizației dvs. nu înseamnă că poate fi extras liber. Verificarea cu managerii, autorii și părțile interesate relevante este esențială înainte de a începe activitățile de minerit a datelor.

Despre confidențialitate și securitate

În 2003, JetBlue Airlines a furnizat peste un milion de înregistrări de pasageri unui contractant guvernamental american, Torch Concepts. Ulterior, Torch a mărit datele despre pasageri cu informații suplimentare, cum ar fi mărimea familiei și numerele de securitate socială – informații achiziționate de la un broker de date numit Acxiom. Datele au fost destinate unui proiect de minerit a datelor pentru a dezvolta profiluri potențiale teroriste. Toate acestea s-au făcut fără notificarea sau acordul pasagerilor. Când au apărut vești despre activități, totuși, zeci de procese privind confidențialitatea au fost intentate împotriva lui JetBlue, Torch și Acxiom, iar mai mulți senatori americani au cerut o anchetă asupra incidentului.

Acest incident servește mai multor scopuri valoroase pentru această carte. În primul rând, ar trebui să fim conștienți de faptul că, pe măsură ce adunăm, organizăm și analizăm datele, în spatele cifrelor se află oameni reali. Aceste persoane au anumite drepturi la confidențialitate și protecție împotriva infracțiunilor, cum ar fi furtul de identitate. Noi, ca mineri de date avem obligația etică de a proteja drepturile acestor persoane. Acest lucru necesită cea mai mare atenție în ceea ce privește securitatea informațiilor. Pur și simplu pentru că un reprezentant guvernamental sau un contractant solicită date, nu înseamnă că acestea ar trebui furnizate.

Totuși, dincolo de securitatea tehnologică, trebuie să luăm în considerare și obligația noastră morală față de acei indivizi din spatele numerelor. Pentru a încuraja utilizarea cardurilor pentru cumpărători frecventi, magazinele alimentare afișează frecvent două prețuri pentru articole, unul cu utilizarea cardului și unul fără. Pentru fiecare individ, răspunsul la această întrebare poate varia, totuși, răspundeți-i singur: la ce preț a depășit magazinul alimentar o linie etică între încurajarea consumatorilor să participe la programe de cumpărături frecvente și forțarea acestora să participe pentru a permite să se cumpere alimente? Din nou, răspunsul dvs. va fi unic față de cel al altora, totuși este important să aveți în vedere aceste obligații morale atunci când colectați, stocați și extrageți date.

Obiectivele sperate prin activitățile de mineritul datelor nu ar trebui niciodată să justifice mijloace neetice de realizare. Exploatarea datelor poate fi un instrument puternic pentru gestionarea relațiilor cu clienții, marketing, managementul operațiunilor și producție; cu toate acestea, în toate cazurile, elementul uman trebuie să fie menținut în atenție. Când lucrați ore îndelungate la o sarcină de minerit a datelor, interacționând în principal cu hardware, software și numere, poate fi ușor să uitați de oameni și, prin urmare, este important de subliniat aici.

Concluzie

Mineritul datelor vine cu metode statistice și logice de analiză la seturi mari de date în scopul de a le descrie și de a le folosi pentru a crea modele predictive. Bazele de date, depozitele de date și seturile de date sunt toate tipuri unice de sisteme de păstrare a înregistrărilor digitale, cu toate acestea, au multe asemănări. Mineritul datelor este, în general, cel mai eficient executată pe seturi de date, extrase din OLAP, mai degrabă decât pe sistemele OLTP. Atât datele operaționale, cât și cele organizaționale oferă puncte de plecare bune pentru activitățile de minerit a datelor, cu toate acestea, ambele au propriile probleme care pot inhiba activitățile de minerit a datelor de calitate. Acestea ar trebui atenuate înainte de a începe mineritul datelor. În cele din urmă, atunci când extrageți date, este important să ne amintim factorul uman din spatele manipulării numerelor și cifrelor. Minerii de date au o responsabilitate etică față de persoanele ale căror vieți pot fi afectate de deciziile luate ca urmare a activităților de minerit a datelor.

Sursa: Dr. Matthew North, Data Mining for the Masses, licența CC BY 3.0. Traducere și adaptare de Nicolae Sfetcu

© 2022 MultiMedia Publishing, Mineritul de date

Statistica pentru afaceri
Statistica pentru afaceri

Statistica pentru afaceri este un ghid practic elementar de statistică, cu eșantioanele de date și exemplele orientate spre afaceri. Statistica face posibilă analiza problemelor de afaceri din lumea reală cu date reale, astfel încât să puteți determina dacă o strategie … Citeşte mai mult

Nu a fost votat $3,99$8,55 Selectează opțiunile
Big Data: Modele de afaceri - Securitatea megadatelor
Big Data: Modele de afaceri – Securitatea megadatelor

Termenul megadate (Big Data, date masive) este adesea folosit în mod vag pentru a desemna paleta de algoritmi, tehnologii și sisteme utilizate pentru colectarea datelor de volum și varietate fără precedent și extragerea de valoare din acestea prin calculul masiv … Citeşte mai mult

Nu a fost votat $3,99$5,99 Selectează opțiunile
Etica Big Data în cercetare
Etica Big Data în cercetare

Principalele probleme cu care se confruntă oamenii de știință în lucrul cu seturile mari de date (Big Data), evidențiind principale aspecte etice, luând în considerare inclusiv legislația din Uniunea Europeană. După o scurtă Introducere despre Big Data, secțiunea Tehnologia prezintă … Citeşte mai mult

Nu a fost votat $0,00$2,35 Selectează opțiunile

Lasă un răspuns

Adresa ta de email nu va fi publicată.