Analiza datelor

Analiza datelor este un proces de inspecție, curățare, transformare și modelare a datelor cu scopul de a descoperi informații utile, de a informa concluziile și de a sprijini luarea deciziilor. Analiza datelor are multiple fațete și abordări, cuprinzând diverse tehnici sub o varietate de nume și este utilizată în diferite domenii de afaceri, științe și științe sociale. În lumea afacerilor de astăzi, analiza datelor joacă un rol în luarea deciziilor mai științific și în ajutarea companiilor să funcționeze mai eficient.

Mineritul datelor este o tehnică specială de analiză a datelor care se concentrează pe modelarea statistică și descoperirea cunoștințelor în scopuri predictive mai degrabă decât pur descriptive, în timp ce business intelligence acoperă analiza datelor care se bazează în mare măsură pe agregare, concentrându-se în principal pe informațiile de afaceri. În aplicațiile statistice, analiza datelor poate fi împărțită în statistici descriptive, analiza datelor exploratorii (EDA) și analiza confirmativă a datelor (CDA). EDA se concentrează pe descoperirea de noi caracteristici în date, în timp ce CDA se concentrează pe confirmarea sau falsificarea ipotezelor existente. Analiza predictivă se concentrează pe aplicarea modelelor statistice pentru prognoză sau clasificare predictivă, în timp ce analiza textului aplică tehnici statistice, lingvistice și structurale pentru a extrage și clasifica informații din surse textuale, o specie de date nestructurate. Toate cele de mai sus sunt varietăți de analiză a datelor.

Integrarea datelor este un precursor al analizei datelor, iar analiza datelor este strâns legată de vizualizarea și diseminarea datelor

Procesul de analiză a datelor

Organigrama procesului de științ datelor din Doing Data Science, de Schutt & O'Neil (2013).
Organigrama procesului de științ datelor din Doing Data Science, de Schutt & O’Neil (2013). Sursa:  Farcaster, https://en.wikipedia.org/wiki/File:Data_visualization_process_v1.png, CC Attribution-Share Alike 3.0 Unported license. Traducere Nicolae Sfetcu

Analiza, se referă la împărțirea unui întreg în componentele sale separate pentru examinare individuală. Analiza datelor este un proces de obținere a datelor brute și, ulterior, convertirea acestora în informații utile pentru luarea deciziilor de către utilizatori. Datele sunt colectate și analizate pentru a răspunde la întrebări, a testa ipoteze sau a respinge teoriile.

Statisticianul John Tukey, a definit analiza datelor în 1961, ca:

„Proceduri de analiză a datelor, tehnici de interpretare a rezultatelor unor astfel de proceduri, modalități de planificare a culegerii datelor pentru a face analiza mai ușoară, mai precisă sau cu mai mare acuratețe, și toate mecanismele și rezultatele statisticilor (matematice) care se aplică analizei datelor .”

Există mai multe faze care pot fi distinse, descrise mai jos. Fazele sunt iterative, în sensul că feedback-ul din fazele ulterioare poate duce la lucrări suplimentare în fazele anterioare. Cadrul CRISP, utilizat în extragerea datelor, are pași similari.

Cerințe privind datele

Datele sunt necesare ca elemente de intrare în analiză, care este specificată pe baza cerințelor celor care dirijează analiza sau a clienților (care vor utiliza produsul finit al analizei). Tipul general de entitate asupra căruia vor fi colectate datele este denumit o unitate experimentală (de exemplu, o persoană sau o populație de oameni). Variabile specifice privind o populație (de exemplu, vârstă și venitul) pot fi specificate și obținute. Datele pot fi numerice sau categorice (de exemplu, o etichetă text pentru numere).

Colectare de date

Datele sunt colectate dintr-o varietate de surse. Cerințele pot fi comunicate de către analiști custodilor datelor; precum, personalul tehnologiei informației din cadrul unei organizații. Datele pot fi, de asemenea, colectate de la senzori din mediu, inclusiv camere de trafic, sateliți, dispozitive de înregistrare etc. De asemenea, pot fi obținute prin interviuri, descărcări din surse online sau citirea documentației.

Procesarea datelor

Activitatea informativă(Fazele ciclului de informații utilizate pentru a converti informațiile brute în informații prelucrate sau cunoștințe care pot fi acționate sunt similare din punct de vedere conceptual cu fazele din analiza datelor.)

Datele, atunci când sunt obținute inițial, trebuie procesate sau organizate pentru analiză. De exemplu, acestea pot implica plasarea datelor în rânduri și coloane într-un format de tabel (cunoscut sub numele de date structurate) pentru analize ulterioare, adesea prin utilizarea unei foi de calcul sau a unui software statistic.

Curățarea datelor

Odată prelucrate și organizate, datele pot fi incomplete, pot conține duplicate sau pot conține erori. Necesitatea curățării datelor va apărea din probleme legate de modul în care datele sunt introduse și stocate. Curățarea datelor este procesul de prevenire și corectare a acestor erori. Sarcinile obișnuite includ potrivirea înregistrărilor, identificarea inexactității datelor, calitatea generală a datelor existente, deduplicarea și segmentarea coloanelor. Astfel de probleme de date pot fi, de asemenea, identificate printr-o varietate de tehnici analitice. De exemplu, cu informații financiare, totalurile pentru anumite variabile pot fi comparate cu numere publicate separat, despre care se crede că sunt fiabile. Sumele neobișnuite, peste sau sub pragurile prestabilite, pot fi, de asemenea, revizuite. Există mai multe tipuri de curățare a datelor, care depind de tipul de date din set; acestea ar putea fi numere de telefon, adrese de e-mail, angajatori sau alte valori. Metodele cantitative de date pentru detecția anterioară pot fi utilizate pentru a scăpa de datele care par să aibă o probabilitate mai mare de a fi introduse incorect. Verificatoarele ortografice de date textuale pot fi utilizate pentru a reduce cantitatea de cuvinte greșit scrise, cu toate acestea este mai greu de spus dacă cuvintele în sine sunt corecte.

Analiza exploratorie a datelor

Odată ce seturile de date sunt curățate, acestea pot fi apoi analizate. Analiștii pot aplica o varietate de tehnici, denumite analize exploratorii de date, pentru a începe să înțeleagă mesajele conținute în datele obținute. Procesul de explorare a datelor poate avea ca rezultat curățarea suplimentară a datelor sau solicitări suplimentare de date; astfel, inițializarea fazelor iterative menționate în paragraful principal al acestei secțiuni. Statisticile descriptive, cum ar fi, media sau mediana, pot fi generate pentru a ajuta la înțelegerea datelor. Vizualizarea datelor este, de asemenea, o tehnică utilizată, în care analistul este capabil să examineze datele într-un format grafic pentru a obține informații suplimentare, cu privire la mesajele din cadrul datelor.

Modelare și algoritmi

Formulele sau modelele matematice (cunoscute sub numele de algoritmi), pot fi aplicate datelor pentru a identifica relațiile dintre variabile; de exemplu, folosind corelația sau cauzalitatea. În termeni generali, modelele pot fi dezvoltate pentru a evalua o variabilă specifică bazată pe alte variabile conținute în setul de date, cu unele erori reziduale în funcție de acuratețea modelului implementat (de exemplu, Date = Model + Eroare).

Statistica inferențială include utilizarea tehnicilor care măsoară relațiile dintre anumite variabile. De exemplu, analiza de regresie poate fi utilizată pentru a modela dacă o modificare a publicității (variabila independentă X) oferă o explicație pentru variația vânzărilor (variabila dependentă Y). În termeni matematici, Y (vânzări) este o funcție a lui X (publicitate). Poate fi descris ca (Y = aX + b + eroare), în care modelul este conceput astfel încât (a) și (b) să minimizeze eroarea atunci când modelul prezice Y pentru un anumit interval de valori ale lui X. Analiștii pot încerca, de asemenea, să construiască modele care să descrie datele, în scopul simplificării analizei și comunicării rezultatelor.

Produs de date

Un produs de date este o aplicație pentru computer care preia date de intrare și generează ieșiri, trimiâându-le înapoi în mediu. Poate fi bazat pe un model sau algoritm. De exemplu, o aplicație care analizează date despre istoricul achizițiilor clienților și utilizează rezultatele pentru a recomanda alte achiziții de care s-ar putea bucura clientul.

Comunicare

Vizualizarea datelor pentru a înțelege rezultatele unei analize a datelor.
Vizualizarea datelor pentru a înțelege rezultatele unei analize a datelor. Sursa: Martin Grandjean, https://en.wikipedia.org/wiki/File:Social_Network_Analysis_Visualization.png, CC Attribution-Share Alike 3.0 Unported license

Odată ce datele sunt analizate, acestea pot fi raportate în mai multe formate utilizatorilor analizei pentru a-și susține cerințele. Utilizatorii pot avea feedback, ceea ce duce la analize suplimentare. Ca atare, o mare parte din ciclul analitic este iterativ.

La stabilirea modului de comunicare a rezultatelor, analistul poate lua în considerare implementarea unei varietăți de tehnici de vizualizare a datelor, pentru a ajuta la comunicarea clară și eficientă a publicului. Vizualizarea datelor folosește afișaje de informații (grafică, cum ar fi tabele și diagrame) pentru a ajuta la comunicarea mesajelor cheie conținute în date. Tabelele sunt un instrument valoros, permițând capacității unui utilizator de a interoga și de a se concentra asupra anumitor numere; în timp ce diagramele (de exemplu, diagrame cu bare sau diagrame liniare) pot ajuta la explicarea mesajelor cantitative conținute în date.

Include texte traduse din Wikipedia

Ghid WordPress pentru începători
Ghid WordPress pentru începători

WordPress combină simplitatea pentru utilizatorii şi editori cu complexitate suportului software pentru dezvoltatori. Acest lucru îl face mai flexibil, fiind în acelaşi timp uşor de utilizat. Simplitatea sa face posibilă instalarea şi publicarea online rapid. Nimic nu ar trebui să … Citeşte mai mult

Nu a fost votat 2.583.02 Selectează opțiunile
Promovarea afacerilor prin campanii de marketing online
Promovarea afacerilor prin campanii de marketing online

Marketing online poate să facă oricine. La un moment dat , firma ta are sute de opţiuni pentru desfăşurarea unei campanii de marketing. Totul depinde de alegerile făcute. Poţi să scrii articole pe blog, să atragi clienţi cu anunțuri cu … Citeşte mai mult

Nu a fost votat 3.458.57 Selectează opțiunile
Introducere în Business Intelligence
Introducere în Business Intelligence

Colecția ȘTIINȚA INFORMAȚIEI ”Introducere în Business Intelligence” oferă cititorilor informații cuprinzătoare despre business intelligence, explorând toate aspectele importante ale inteligenței de afaceri în scenariul actual. Subiectele tratate se referă la abordările de bază ale business intelligence. Cartea își propune să … Citeşte mai mult

Nu a fost votat 2.584.15 Selectează opțiunile

Faci un comentariu sau dai un răspuns?

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *