Știința datelor este un domeniu interdisciplinar care folosește metode științifice, procese, algoritmi și sisteme pentru a extrage cunoștințe și perspective din multe date structurale și nestructurate. Știința datelor este legată de extragerea datelor, învățarea automată și big data.
Știința datelor este un „concept pentru a unifica statisticile, analiza datelor și metodele lor conexe” pentru a „înțelege și analiza fenomenele reale” cu date. Folosește tehnici și teorii extrase din mai multe domenii în contextul matematicii, statisticii, informaticii, cunoașterii domeniului și științei informației. Jim Gray, câștigătorul premiului Turing, și-a imaginat știința datelor ca pe o „a patra paradigmă” a științei (empirică, teoretică, de calcul și acum bazată pe date) și a afirmat că „totul despre știință se schimbă din cauza impactului tehnologiei informației” și a potopului de date.
Știința datelor – ca profesie și ca disciplină academică în sine – este nouă, fiind născută în primul deceniu al secolului 21. Este un copil născut din disciplinele parentale mature de metode științifice, inginerie de date și software, statistici și vizualizare.
Știința datelor, așa cum se practică astăzi, ia naștere din lumea „big data / cloud computing” și din știința complexității. Aceasta înseamnă că știința datelor este o disciplină avansată, care necesită cunoștințe în prelucrarea paralelă, calculul de reducere a hărților, bazele de date noSQL de dimensiuni petabyte, învățarea automată, statistici avansate și știința complexității. În acest sens, știința datelor „adevărată” este predată mai adecvat la nivel de masterat și doctorat. Știința datelor se referă atât la mentalitate, cât și la utilizarea cu îndemânare a instrumentelor.
Fundații
Știința datelor este un domeniu interdisciplinar axat pe extragerea cunoștințelor din seturile de date, care sunt de obicei mari (vezi big data). Domeniul cuprinde analiza, pregătirea datelor pentru analiză și prezentarea constatărilor pentru a informa deciziile la nivel înalt dintr-o organizație. Ca atare, încorporează abilități din informatică, matematică, statistici, vizualizare a informațiilor, design grafic, sisteme complexe, comunicare și afaceri. Statisticianul Nathan Yau, pe baza lui Ben Fry, leagă, de asemenea, știința datelor de interacțiunea om-computer: utilizatorii ar trebui să poată controla și explora datele intuitiv. În 2015, Asociația Statistică Americană a identificat gestionarea bazelor de date, statisticile și învățarea automată și sistemele distribuite și paralele ca fiind cele trei comunități profesionale fundamentale emergente.
Relația cu statisticile
Mulți statisticieni, inclusiv Nate Silver, au susținut că știința datelor nu este un domeniu nou, ci mai degrabă un alt nume pentru statistici. Alții susțin că știința datelor este distinctă de statistici, deoarece se concentrează pe probleme și tehnici unice pentru datele digitale. Vasant Dhar scrie că statisticile subliniază datele cantitative și descrierea. În contrast, știința datelor se ocupă de date cantitative și calitative (de exemplu, imagini) și accentuează predicția și acțiunea. Andrew Gelman de la Universitatea Columbia și omul de știință al datelor Vincent Granville au descris statisticile ca o parte neesențială a științei datelor. Profesorul de la Stanford, David Donoho, scrie că știința datelor nu se distinge de statistici prin mărimea seturilor de date sau utilizarea computerului și că multe programe postuniversitare își promovează în mod înșelător pregătirea în analize și statistici ca fiind esența unui program de știință a datelor. El descrie știința datelor ca pe un câmp aplicat care iese din statisticile tradiționale. Pe scurt, știința datelor poate fi deci descrisă ca o ramură aplicată a statisticii.
Impactul științei datelor
Big data devine foarte rapid un instrument vital pentru afaceri și companii de toate dimensiunile. Disponibilitatea și interpretarea big data au modificat modelele de afaceri ale industriilor vechi și au permis crearea altora noi. Companiile bazate pe date valorează colectiv 1,2 trilioane de dolari în 2020, o creștere de la 333 miliarde de dolari în anul 2015. Cei care activează în știința datelor sunt responsabili pentru descompunerea big data în informații utilizabile și crearea de software și algoritmi care ajută companiile și organizațiile să determine operațiunile optime. Deoarece big data continuă să aibă un impact major asupra lumii, știința datelor are și ea un impact semnificativ datorită relației strânse dintre cele două.
Tehnologii și tehnici
Există o varietate de tehnologii și tehnici diferite care sunt utilizate pentru știința datelor, care depind de aplicație. Mai recent, au fost dezvoltate platforme complete, de la un capăt la altul, utilizate intens pentru știința datelor și învățarea automată.
Tehnici
- Regresie liniară
- Regresie logistică
- Arborele decizional este utilizat ca modele de predicție pentru clasificare și adaptarea datelor. Structura arborelui decizional poate fi utilizată pentru a genera reguli capabile să clasifice sau să prezică variabila țintă / clasă / etichetă pe baza atributelor de observare.
- Suport pentru mașini vectoriale (SVM)
- Clusterizarea este o tehnică utilizată pentru a grupa datele împreună.
- Reducerea dimensiunii este utilizată pentru a reduce complexitatea calculului datelor, astfel încât să poată fi efectuată mai rapid.
- Învățarea automată este o tehnică utilizată pentru a efectua sarcini prin deducerea tiparelor din date.
Limbaje
- Python este un limbaj de programare cu sintaxă simplă, care este frecvent utilizat pentru știința datelor. Există o serie de biblioteci python care sunt utilizate în știința datelor, inclusiv numpy, panda, Matplotlib și scipy.
- R este un limbaj de programare care a fost conceput pentru statistici și pentru extragerea datelor și este optimizat pentru calcul.
- Julia este un limbaj de programare dinamic de înaltă performanță, dinamic, potrivit pentru analize numerice și științe computaționale.
Cadre
- TensorFlow este un cadru pentru crearea de modele de învățare automată dezvoltate de Google.
- Pytorch este un alt cadru pentru învățarea automată dezvoltat de Facebook.
- Jupyter Notebook este o interfață web interactivă pentru Python care permite experimentarea mai rapidă.
- Apache Hadoop este un cadru software care este utilizat pentru procesarea datelor pe sisteme distribuite mari.
Instrumente de vizualizare
- Plotly oferă un set bogat de biblioteci interactive de grafice științifice.
- Tableau creează o varietate de software care este utilizat pentru vizualizarea datelor.
- PowerBI este un serviciu de analiză a afacerilor de la Microsoft.
- Qlik produce software precum QlikView și Qlik Sense utilizate pentru vizualizarea datelor și business intelligence.
- AnyChart oferă biblioteci JavaScript și alte instrumente pentru vizualizarea datelor în diagrame și tablouri de bord.
- Google Charts este un serviciu web bazat pe JavaScript realizat și acceptat de Google pentru crearea de diagrame grafice.
- Sisense oferă un front-end pentru crearea vizualizărilor de date, inclusiv tablouri de bord și rapoarte.
- Webix este un set de instrumente UI care include instrumente dedicate pentru vizualizarea informațiilor.
Platforme
- RapidMiner este o platformă software pentru știința datelor dezvoltată de compania cu același nume.
- Dataiku este un software colaborativ pentru știința datelor comercializat pentru big data.
- Anaconda oferă o distribuție cuprinzătoare gratuită și open-source a limbajelor de programare Python și R.
- MATLAB este un mediu de calcul utilizat intens în industrie și în mediul academic.
- Databricks este o platformă cloud pentru ingineria datelor la scară masivă și știința datelor colaborative.
- IBM Watson Studio este o platformă cloud care oferă o suită cuprinzătoare de instrumente de colaborare în știința datelor pentru infuzarea AI în aplicațiile de afaceri.
(Traducere de Nicolae Sfetcu din Wikipedia)
Lasă un răspuns