Prin următoarea listă încercăm să identificăm unele dintre activele valoroase ale megadatelor (Big Data) cunoscute într-un mod ierarhic. Elementele din categoriile de primul și al doilea nivel (grupul de active și tipul de active) pot fi considerate ca fiind intuitiv clare, dar totuși oferim o scurtă descriere a acestora. Numerele dintre paranteze se referă la Error! Reference source not found. (28)
Date – Aceasta este categoria de bază a taxonomiei Big Data și include:
Metadate, adică scheme, indici, dicționare de date și date de gramatică de flux (care adesea, dar nu neapărat, vin împreună cu date de flux).
Date structurate, adică înregistrări de baze de date structurate după un model de date, cum ar fi, de exemplu, o schemă relațională sau ierarhică; date de identificare structurate, cum ar fi profilurile și preferințele utilizatorilor; date deschise legate; inferențe și reconectarea datelor structurate în conformitate cu formatele standard.
Date semi-structurate și nestructurate, de exemplu jurnale, mesaje și date web (ne)formatate (pagini Web și Wiki, mesaje e-mail, SMS-uri, tweet-uri, postări, bloguri etc.), fișiere și documente (de exemplu, fișiere PDF și date de suite de birouri în depozite și servere de fișiere), date multimedia (fotografii, videoclipuri, hărți etc.) și alte materiale non-text pe lângă multimedia (date medicale, date bio-științifice și date brute prin satelit înainte de procesarea radiometrică / geometrică , etc.).
Date streaming, adică streaming single-medium (de exemplu, date senzor în mișcare) și streaming multimedia (fluxuri de date de teledetecție etc.).
Date volatile, adică date care sunt fie în mișcare, fie stocate temporar, cum ar fi, de exemplu, datele de rutare a rețelei sau datele din memoria cu acces aleatoriu a dispozitivelor.
Infrastructură – Termenul de infrastructură cuprinde software, resurse hardware care denotă atât dispozitive fizice cât și virtualizate, infrastructura de calcul de bază cu procesele sale batch și streaming, și infrastructura de stocare cu tot felul de sisteme de gestionare a bazelor de date, variind de la baze de date relaționale în stil vechi la NoSQL sau NewSQL , precum și instrumente web semantice. Mai exact, categoria de infrastructură de primul nivel include:
Software, inclusiv sisteme de operare, drivere de dispozitiv, firmware, pachete software pentru server (ca software Web și Application Server) și aplicații. Subcategoria de aplicații include implementarea software-ului ca servicii back-end și tot felul de funcționalități care utilizează alte active pentru a îndeplini o sarcină definită, cum ar fi, de exemplu, instrumente de gestionare a activelor, aplicații de colectare a cerințelor, servicii de facturare și instrumente pentru a monitoriza performanțele și SLA-urile. .
Hardware (fizic și virtual), adică servere (dispozitive fizice și noduri hardware, tot hardware-ul virtualizat, inclusiv centre de date virtuale cu consolele lor de gestionare și mașini virtuale, precum și hardware-ul fizic care susține aprovizionarea lor), clienți, dispozitive de rețea (pentru, de exemplu, comutatoare fizice, comutatoare virtuale și comutatoare distribuite virtuale etc.), medii și dispozitive de stocare (diferite tipuri de stocare pe disc etc.), dispozitive de colectare a datelor (senzori, platforme la distanță ca platforme aeriene sau drone etc.), dispozitive de interfață umană (HID) și dispozitive mobile.
Modele de infrastructură de calcul, această categorie include paradigme ale arhitecturilor de procesare abstractă, dacă procesarea se poate face în modul batch, de exemplu MapReduce; pe date de streaming în timp real / aproape în timp real, cum ar fi modelele bazate pe Sketch sau Hash; sau urmează o abordare unificată care să le susțină pe ambele, cum ar fi Cloud Dataflow.
Modele de infrastructură de stocare, această categorie include paradigme ale arhitecturilor de stocare abstracte, inclusiv fișiere mari și modele bazate pe triple.
Analitica Big Data – Această categorie include modele care definesc protocoale și algoritmi pentru analiza Big Data, cum ar fi proceduri, modele, definiții ale algoritmilor până la codul sursă și rezultatele analiticii. Categoria include:
Algoritmi și proceduri de analiză a datelor, care includ codul sursă al algoritmului cu parametrii lor de configurare, configurație și praguri, metrici, definițiile modelului, tehnici avansate care simplifică etapa de pregătire a datelor a procesului analitic.
Rezultate analitice, fie în mod textual, fie în mod grafic (de exemplu, dispuneri spațiale, vizualizări abstracte, interactive și în timp real).
Tehnici de securitate și confidențialitate – Acest nume de categorie include termenul „tehnici” pentru a remarca faptul că activele legate de securitate pe care le include sunt cele de interes pentru atacatori și, prin urmare, sunt mai supuse divulgării și scurgerilor neautorizate, cum ar fi, de exemplu, documentele privind cele mai bune practici de securitate, criptografie algoritmi și metode, informații despre modelul de control al accesului utilizat, etc. Categoria include următoarele subcategorii:
Securitatea infrastructurii, adică primul aspect al securității ecosistemului Big Data, care se ocupă cu modul de securizare a sistemelor de calcul distribuite și a depozitelor de date, cu cele mai bune practici de securitate și configurările politicii.
Gestionarea datelor, adică documente și tehnici despre cum să securizați stocarea și jurnalele de date și documentația despre auditurile granulare și ciclul de viață al datelor (proveniența datelor).
Integritate și securitate reactivă, care se ocupă de toate practicile, tehnicile și documentele legate de validarea și filtrarea punctelor finale și de monitorizarea securității în timp real, inclusiv gestionarea incidentelor și criminalistica informațiilor.
Confidențialitatea datelor, adică toate tehnicile puse în aplicare pentru a proteja confidențialitatea așa cum este solicitat prin lege, de exemplu metode criptografice și controlul accesului.
Roluri – Această terminologie pentru această categorie a fost introdusă de NIST Big Data Public Working Group (29) și include:
Furnizor de date, cum ar fi întreprinderi, organizații, agenții publice, mediul academic, operatori de rețea și utilizatori finali.
Consumator de date, care se suprapune parțial categoriei anterioare, dar dintr-un domeniu diferit, și care include întreprinderi, organizații, agenții publice, mediul academic și utilizatorii finali.
Roluri operaționale, adică orchestratori de sistem (lider de afaceri, oameni de știință de date, arhitecți etc.), furnizori de aplicații Big Data (specialiști în aplicații și platforme), furnizori de cadru Big Data (personal furnizor de cloud), specialiști în securitate și confidențialitate, management tehnic (personalul intern, etc.).
Observăm că lăsarea taxonomiei dezechilibrată (unele sub-ramuri, precum cele la bază în date și infrastructură, sunt mai adânci decât altele) este o alegere deliberată. Într-adevăr, unele subcategorii de ramuri ale taxonomiei noastre, cum ar fi definițiile modelelor, ar putea fi utilizate pentru a integra taxonomii externe concepute din diferite motive, precum cele din domeniul științei datelor (30).
O altă remarcă este că majoritatea categoriilor și subcategoriilor ar putea fi legate de date, mai degrabă decât de megadate (Big Data). De exemplu, bazele de date relaționale sunt o resursă foarte tipică și obișnuită în fiecare infrastructură a întreprinderii, care nu stochează neapărat volume mari de date. Chiar și atunci când bazele de date relaționale au dimensiuni de volum mari, ele sunt adesea gestionabile prin clustere hardware, dispozitive și instrumente software tradiționale. Un alt exemplu este memoria cu acces aleatoriu a aplicațiilor (prezentată în categoria de date volatile), adică datele care sunt temporar în memorie datorită operațiilor de procesare. Această memorie adesea (deși nu invariabil, după cum reiese din succesul sistemelor de procesare în memorie) nu este mare, în comparație cu dimensiunile masive de date ale bazelor de date din memorie.
Cu toate acestea, am inclus aceste active în taxonomia noastră pentru exhaustivitatea informațiilor. Datele stocate în baze de date relaționale, adesea foarte valoroase pentru proprietarii de date, ar putea fi utilizate în unele cazuri ca sursă de date pentru analitica, în timp ce scurgerea de conținut RAM ar putea compromite acreditările de conectare și cheile criptografice, deschizând calea către atacuri periculoase către Big Data.
Taxonomia prezentată a activelor ar trebui considerată doar ca un instantaneu al gamei complexe de active Big Data și, ca atare, nu ar putea fi exhaustivă.
Date
(28) În taxonomia propusă, un activ ar putea fi membru al mai multor categorii (de exemplu, transmiterea de date ar putea fi atât date structurate, cât și date nestructurate). Această alegere se datorează faptului că acest ghid vizează în principal identificarea amenințărilor sau a grupurilor de amenințări care ar putea afecta categorii foarte largi și, în unele cazuri, chiar suprapuse. De asemenea, această alegere poate permite o mai bună corelație între amenințări.
(29) Pentru o descriere mai detaliată a resurselor umane a se vedea anexa A.
(30) A se vedea, de exemplu, https://www.thoughtworks.com/insights/blog/data-science-ontology, accesat în decembrie 2015.
Sursa: European Union Agency For Network And Information Security: Ernesto Damiani, Claudio Agostino Ardagna, Francesco Zavatarelli, Evangelos Rekleitis, Louis Marinos (2016). Big Data Threat Landscape and Good Practice Guide. © European Union Agency for Network and Information Security (ENISA). Traducere și adaptare independentă: Nicolae Sfetcu
© MultiMedia Publishing, Big Data – Ghid practic, Volumul 1
Lasă un răspuns