Home » Articole » Articole » Calculatoare » Internet » Big Data » Utilizări ale datelor mari (Big Data)

Utilizări ale datelor mari (Big Data)

postat în: Big Data 0
Creșterea și digitizarea capacității globale de stocare a informațiilor
Sursa https://en.wikipedia.org/wiki/File:Hilbert_InfoGrowth.png 

(Creșterea și digitizarea capacității globale de stocare a informațiilor. )

Big Data reprezintă un domeniu care tratează modalități de analiză, de extragere sistematică a informațiilor sau de tratare a unor seturi de date care sunt prea mari sau complexe pentru a fi tratate de software-ul tradițional de prelucrare a datelor. Datele cu multe cazuri (rânduri) oferă o putere statistică mai mare, în timp ce datele cu o complexitate mai mare (mai multe atribute sau coloane) pot conduce la o rată de descoperire mai mare. Provocările majore privind datele includ captarea datelor, stocarea datelor, analiza datelor, căutarea, partajarea, transferul, vizualizarea, interogarea, actualizarea, confidențialitatea informațiilor și sursa de date. Datele mari au fost inițial asociate cu trei concepte cheie: volum, varietate și viteză . Alte concepte atribuite mai târziu cu date mari sunt veracitatea (adică, cât de mult este zgomotul în date) și valoarea.

Utilizarea curentă a termenului de Big Data tinde să se refere la utilizarea analizei predictive, a analizei comportamentului utilizatorilor sau a altor metode avansate de analiză a datelor care extrag valoarea din date și rareori la o anumită dimensiune a setului de date. „Nu există nicio îndoială că cantitățile de date disponibile sunt într-adevăr mari, dar aceasta nu este cea mai relevantă caracteristică a acestui nou ecosistem de date”. Analiza seturilor de date poate găsi corelații noi pentru a „identifica tendințele afacerii, lupta împotriva criminalității și așa mai departe.” Oamenii de știință, directorii de afaceri, practicienii de medicină, publicitate și guverne întâmpină în mod regulat dificultăți cu seturi mari de date în domenii precum căutare pe Internet, fintech, informatică urbană și informatică de afaceri. Oamenii de știință se confruntă cu limitări în activitatea de e-știință, inclusiv meteorologie, genomică, conectomică, simulări fizice complexe, biologie și cercetare în domeniul mediului .

Seturile de date cresc rapid – parțial pentru că acestea sunt adunate din ce în ce mai mult de către dispozitivele ieftine și numeroase de sensibilizare a informațiilor, cum ar fi dispozitive mobile, antene (teledetecție), jurnale de software, aparate de fotografiat, microfoane, cititoare de radiofrecvență (RFID) rețele wireless de senzori. Capacitatea tehnologică globală de a stoca informații pe cap de locuitor sa dublat aproximativ la 40 de luni din anii 1980; începând din 2012, în fiecare zi sunt generați 2.5 exabytes (2.5 × 1018) Pe baza unei previziuni a raportului IDC, volumul global de date va crește exponențial de la 4,4 zeta la 44 de zettabyte între 2013 și 2020. Până în 2025, IDC estimează că vor exista 163 de zeta de date. O întrebare pentru întreprinderile mari este determinarea cine ar trebui să dețină inițiative Big Data care să afecteze întreaga organizație .

Sistemele de gestionare a bazelor de date relaționale, statisticile desktop și pachetele software utilizate pentru vizualizarea datelor au adesea dificultăți în gestionarea Big Data. Lucrarea poate necesita „software masiv paralel care rulează pe zeci, sute sau chiar mii de servere”. Ceea ce se califică drept „Big Data” variază în funcție de capabilitățile utilizatorilor și de instrumentele acestora, iar extinderea capabilităților face ca datele mari să fie o țintă în mișcare. „Pentru unele organizații, care se confruntă cu sute de gigaocteți de date pentru prima dată, poate declanșa necesitatea reconsiderării opțiunilor de gestionare a datelor. Pentru alții, poate dura zeci sau sute de terabiți înainte ca dimensiunea datelor să devină o considerație importantă”.

Definiție

Termenul a fost folosit de la anii ’90, cu unii dându-i credit lui John Mashey pentru popularizarea termenului. Big Data includ, de obicei, seturi de date cu dimensiuni care depășesc capacitatea instrumentelor software utilizate în mod obișnuit de a capta, curăța, gestiona și procesa date într-un timp scurs tolerabil. Filozofia Big Data cuprinde date nestructurate, semi-structurate și structurate, însă accentul se pune pe date nestructurate. „Dimensiune” Big Data reprezintă o țintă în mod constant în mișcare, începând cu anul 2012, variind de la câteva zeci de terabyte până la multe exabyte de date. Big Data necesită un set de tehnici și tehnologii cu noi forme de integrare pentru a dezvălui informații din seturi de date care sunt diverse, complexe și de o scară masivă .

O definiție din 2016 afirmă că „Big Data reprezintă activele informaționale caracterizate printr-un volum, o viteză și o varietate atât de mare încât necesită tehnologii specifice și metode analitice pentru transformarea lor în valoare” . În mod similar, Kaplan și Haenlein definesc Big Data ca „seturi de date caracterizate de cantități uriașe (volum) de date actualizate frecvent (viteză) în diverse formate, cum ar fi numeric, textual sau imagini / videoclipuri (varietate)”. un nou V, veridicitatea, este adăugat de unele organizații pentru a o descrie, revizionismul provocat de unele autorități din industrie. Cele trei Vs (volum, varietate și viteză) au fost extinse la alte caracteristici complementare ale Big Data:

  • Învățarea în mașină: Big Data adesea nu întreabă de ce și detectează pur și simplu modele
  • Amprenta digitală: Big Data sunt adesea un produs secundar fără costuri de interacțiune digitală

O definiție din 2018 afirmă că „Big Data sunt unde sunt necesare instrumentele de calcul paralel pentru a gestiona datele” și notează: „Aceasta reprezintă o schimbare distinctă și clar definită în informatica utilizată, prin teorii de programare paralelă și pierderi ale unor garanții și capabilitati facute de modelul relational al lui Codd. ”

Maturitatea crescândă a conceptului evidențiază mai clar diferența dintre „Big Data” și „Business Intelligence”:

  • Business Intelligence utilizează statistici descriptive cu date cu o densitate mare de informații pentru a măsura lucrurile, a detecta tendințele etc.
  • Big Data utilizează statistici inductive și concepte de la identificarea sistemelor neliniare pentru a deduce legi (regresii, relații neliniare și efecte cauzale) din seturi mari de date cu densitate scăzută de informații pentru a dezvălui relații și dependențe sau pentru a efectua predicții rezultatelor și comportamentelor.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *