Home » Articole » RO » Calculatoare » Internet » Big Data » Arhitectura Big Data

Arhitectura Big Data

Depozitele Big Data au existat în mai multe forme, adesea construite de corporații cu o nevoie specială. Comercianții au oferit istoric sisteme de gestionare a bazelor de date paralele pentru Big Data începând cu anii 1990. Timp de mulți ani, WinterCorp a publicat cel mai mare raport de baze de date.

Teradata Corporation în 1984 a comercializat sistemul DBC 1012 de procesare paralelă. Sistemele Teradata au fost primele care au stocat și analizat 1 terabyte de date în 1992. Unitățile hard disk au fost de 2,5 GB în 1991, astfel încât definiția Big Data evoluează continuu în conformitate cu Legea lui Kryder. Teradata a instalat primul sistem bazat pe RDBMS pe baza de petabyte în 2007. Începând cu anul 2017, există câteva baze de date relaționale Teradata cu cate cinci petabyte, cea mai mare dintre acestea depășind 50 PB. Sistemele de până în 2008 au reprezentat 100% date structurale relaționale. De atunci, Teradata a adăugat tipuri de date nestructurate, inclusiv XML, JSON și Avro.

În 2000, Seisint Inc. (acum LexisNexis Group) a dezvoltat un sistem de distribuire a fișierelor distribuite pe bază de C ++ pentru stocarea și interogarea datelor. Sistemul stochează și distribuie date structurate, semi-structurate și nestructurate pe mai multe servere. Utilizatorii pot construi interogări într-un dialect C ++ numit ECL. ECL utilizează o metodă „aplicați schema pe citire” pentru a deduce structura datelor stocate atunci când este interogată, în loc de când este stocată. În 2004, LexisNexis a achiziționat Seisint Inc. iar în 2008 a dobândit ChoicePoint, Inc. și platforma lor de prelucrare paralelă de mare viteză. Cele două platforme au fost îmbinate în sistemele HPCC (sau High Performance Computing Cluster) și în 2011, HPCC a fost deschis cu licență Apache v2.0. Sistemul de fișiere Quantcast era disponibil în același timp.

CERN și alte experimente de fizică au colectat seturi de Big Data timp de mai multe decenii, analizate de obicei prin computere de înaltă performanță (supercomputere), mai degrabă decât arhitecturile de mărime a masei de mărfuri, de obicei, însemnate de mișcarea curentă de „Big Data”.

În 2004, Google a publicat o lucrare despre un proces numit MapReduce care utilizează o arhitectură similară. Conceptul MapReduce oferă un model de procesare paralelă și a fost lansată o implementare asociată pentru a procesa cantități uriașe de date. Cu MapReduce, interogările sunt împărțite și distribuite între nodurile paralele și procesate în paralel (pasul Map). Rezultatele sunt apoi colectate și livrate (pasul Reduce). Cadrul a fost foarte reușit, astfel încât alții au dorit să reproducă algoritmul. Prin urmare, o implementare a cadrului MapReduce a fost adoptată de un proiect open-source Apache numit Hadoop. Apache Spark a fost dezvoltat în 2012 ca răspuns la limitările paradigmei MapReduce, deoarece adaugă abilitatea de a configura mai multe operații (nu doar harta urmată de reducere).

MIKE2.0 este o abordare deschisă a managementului informațiilor, care recunoaște necesitatea unor revizuiri datorate implicațiilor mari de date identificate într-un articol intitulat „Oferirea de soluții mari de date”. Metodologia abordează gestionarea datelor importante în ceea ce privește permutările utile ale surselor de date, complexitatea în interdependențe și dificultatea de a șterge (sau modifica) înregistrările individuale.

Studiile din 2012 au arătat că o arhitectură cu mai multe straturi este o opțiune pentru a aborda problemele pe care le prezintă datele importante. O arhitectură paralelă distribuită distribuie date pe mai multe servere; aceste medii de execuție paralelă pot îmbunătăți dramatic vitezele de procesare a datelor. Acest tip de arhitectură introduce date într-un DBMS paralel, care implementează utilizarea cadrelor MapReduce și Hadoop. Acest tip de cadru încearcă să facă puterea de procesare transparentă pentru utilizatorul final prin utilizarea unui server de aplicații frontal.

Lacul de date permite unei organizații să își concentreze atenția de la controlul centralizat către un model comun pentru a răspunde la dinamica schimbătoare a gestionării informațiilor. Acest lucru permite segregarea rapidă a datelor în iazul de date, reducând astfel timpul de suspendare.

Analiza mare a datelor pentru aplicațiile de fabricație este comercializată ca o „arhitectură 5C” (conexiune, conversie, cibernetică, cunoaștere și configurare). Lucrările la fabrică și sistemele fizico-fizice pot avea un sistem „6C” extins:

  • Conectare (senzor și rețele)

  • Cloud (calcul și date la cerere)

  • Cyber (model și memorie)

  • Conținutul / contextul (sensul și corelația)

  • Comunitate (partajare și colaborare)

  • Personalizare (personalizare și valoare)

Caracteristici

Afișează creșterea caracteristicilor principale ale volumului, vitezei și varietății datelor mari.
Afișează creșterea caracteristicilor principale ale volumului, vitezei și varietății datelor mari. Sursa: Ender005, https://en.wikipedia.org/wiki/File:Big_Data.png, CC Attribution-Share Alike 4.0 International license

Big Data pot fi descrise prin următoarele caracteristici:

  • Volum: Cantitatea de date generate și stocate. Dimensiunea datelor determină valoarea și perspectiva potențială și dacă pot fi considerate Big Data sau nu.
  • Varietate: Tipul și natura datelor. Acest lucru îi ajută pe utilizatorii care o analizează să folosească eficient perspectiva rezultată. Big Data provin din text, imagini, audio, video; plus completează piesele lipsă prin fuziune de date.
  • Viteză: În acest context, viteza cu care datele sunt generate și procesate pentru a răspunde cerințelor și provocărilor care stau în calea creșterii și dezvoltării.Big Data sunt adesea disponibile în timp real. Comparativ cu datele mici, Big Data sunt produse mai continuu. Două tipuri de viteză legate de Big Data sunt frecvența generării și frecvența manipulării, înregistrării și publicării.
  • Veridicitate: Este definiția extinsă pentru Big Data, care se referă la calitatea datelor și la valoarea datelor. Calitatea Big Data capturate poate varia foarte mult, afectând analiza exactă.

Datele trebuie procesate cu instrumente avansate (analize și algoritmi) pentru a dezvălui informații semnificative. De exemplu, pentru a gestiona o fabrică trebuie să ia în considerare atât probleme vizibile, cât și invizibile cu diferite componente. Algoritmii de generare a informațiilor trebuie să detecteze și să abordeze aspecte invizibile, cum ar fi degradarea mașinii, uzura componentelor, etc. pe podeaua fabricii.

(Include text tradus din Wikipedia)

Eseuri filosofice
Eseuri filosofice

O colecție personală de eseuri din filosofia științei (fizică, în special gravitație), filosofia tehnologiei informațiilor și comunicații, problemele sociale actuale (inteligența emoțională, pandemia COVID-19, eugenia, serviciile de informații), filosofia artei și logica și filosofia limbajului. Distincția dintre falsificare și respingere … Citeşte mai mult

Nu a fost votat $4,99$18,09 Selectează opțiunile
Ghid WordPress pentru începători
Ghid WordPress pentru începători

WordPress combină simplitatea pentru utilizatorii şi editori cu complexitate suportului software pentru dezvoltatori. Acest lucru îl face mai flexibil, fiind în acelaşi timp uşor de utilizat. Simplitatea sa face posibilă instalarea şi publicarea online rapid. Nimic nu ar trebui să … Citeşte mai mult

Nu a fost votat $2,99$3,49 Selectează opțiunile
PowerPoint - Ghid pentru începători
PowerPoint – Ghid pentru începători

PowerPoint este un instrument excelent pentru prezentări de orice fel, fie în clasă, fie în cadrul unei conferințe. O prezentare PowerPoint este formată dintr-o serie de diapozitive care pot fi proiectate (afișate electronic) sau tipărite într-o varietate de formate de … Citeşte mai mult

Nu a fost votat $0,00 Selectează opțiunile

2 Responses

  1. Nicolae Sfetcu
    |

    Mulțumesc!

  2. Tiberiu Tanase
    |

    Foarte bun și util conținut

Faci un comentariu sau dai un răspuns?

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *