Home » Articole » Articole » Afaceri » Știința datelor (Data Science) » Depozite de date – ETL – Alte aspecte

Depozite de date – ETL – Alte aspecte

Procesarea paralelă

O dezvoltare recentă în software-ul ETL este implementarea procesării paralele. Acesta a activat o serie de metode pentru a îmbunătăți performanța generală a ETL atunci când se ocupă cu volume mari de date.

Aplicațiile ETL implementează trei tipuri principale de paralelism:

  • Date: prin împărțirea unui singur fișier secvenţial în fișiere de date mai mici pentru a oferi acces paralel
  • Pipeline: permite rularea simultană a mai multor componente pe același flux de date, de ex. căutarea unei valori din înregistrarea 1 în același timp cu adăugarea a două câmpuri din înregistrarea 2
  • Componentă: rularea simultană a mai multor procese pe fluxuri de date diferite în aceeași sarcină, de ex. sortarea unui fișier de intrare în timp ce se elimină duplicatele dintr-un alt fișier.

Toate cele trei tipuri de paralelism funcționează de obicei combinate într-un singur job.

O dificultate suplimentară constă în a vă asigura că datele încărcate sunt relativ consistente. Deoarece bazele de date cu mai multe surse pot avea cicluri de actualizare diferite (unele pot fi actualizate la fiecare câteva minute, în timp ce altele pot dura zile sau săptămâni), este posibil ca un sistem ETL să fie necesar să rețină anumite date până când toate sursele sunt sincronizate. De asemenea, atunci când un depozit poate fi reconciliat cu conținutul dintr-un sistem sursă sau cu registrul general, devine necesară stabilirea punctelor de sincronizare și reconciliere.

Rerulabilitate, recuperabilitate

Procedurile de depozitare a datelor subîmpart de obicei un proces ETL mare în bucăți mai mici care rulează secvenţial sau în paralel. Pentru a urmări fluxurile de date, este logic să etichetați fiecare rând de date cu „row_id” și să etichetați fiecare parte a procesului cu „run_id”. În cazul unor eșecuri, utilizarea acestor ID-uri ajută la derularea înapoi și la reluarea fragmentului eșuat.

Cele mai bune practici necesită, de asemenea, puncte de control, care sunt stări când anumite faze ale procesului sunt finalizate. Odată ajuns la un punct de control, este o idee bună să scrieți totul pe disc, să curățați unele fișiere temporare, să înregistrați starea și așa mai departe.

ETL virtual

Începând cu 2010, virtualizarea datelor a început să avanseze procesarea ETL. Aplicarea virtualizării datelor la ETL a permis rezolvarea celor mai comune sarcini ETL de migrare a datelor și integrare a aplicațiilor pentru mai multe surse de date dispersate. ETL virtual funcționează cu reprezentarea abstractă a obiectelor sau entităților adunate din varietatea de surse de date relaționale, semi-structurate și nestructurate. Instrumentele ETL pot valorifica modelarea orientată pe obiecte și pot lucra cu reprezentările entităților stocate în mod persistent într-o arhitectură centralizată de tip hub-and-spoke. O astfel de colecție care conține reprezentări ale entităților sau obiectelor adunate din sursele de date pentru procesarea ETL se numește depozit de metadate și poate să rămână în memorie sau să fie persistentă. Folosind un depozit de metadate persistente, instrumentele ETL pot trece de la proiecte unice la middleware persistent, realizând armonizarea datelor și profilarea datelor în mod constant și în timp aproape real.

Utilizarea cheilor

Cheile joacă un rol important în toate bazele de date relaționale, deoarece leagă totul împreună. O cheie primară este o coloană care identifică o anumită entitate, în timp ce o cheie străină este o coloană dintr-un alt tabel care se referă la o cheie primară. Cheile pot cuprinde mai multe coloane, caz în care sunt chei compozite. În multe cazuri, cheia primară este un număr întreg generat automat care nu are nicio semnificație pentru entitatea de afaceri reprezentată, dar există doar în scopul bazei de date relaționale – denumită în mod obișnuit cheie surogat.

Deoarece, de obicei, în depozit sunt încărcate mai multe surse de date, cheile reprezintă o preocupare importantă care trebuie abordată. De exemplu: clienții pot fi reprezentați în mai multe surse de date, cu numărul lor de securitate socială ca cheie principală într-o sursă, numărul lor de telefon în alta și un surogat în a treia. Cu toate acestea, un depozit de date poate necesita consolidarea tuturor informațiilor despre clienți într-un tabel cu dimensiuni.

O modalitate recomandată de a trata problema implică adăugarea unei chei surogat de depozit, care este folosită ca o cheie străină din tabelul de fapte.

De obicei, actualizările apar la datele sursă ale unei dimensiuni, care, evident, trebuie să se reflecte în depozitul de date.

Dacă cheia primară a datelor sursă este necesară pentru raportare, parametrul conține deja acea informație pentru fiecare rând. Dacă datele sursă folosesc o cheie surogat, depozitul trebuie să țină evidența acesteia, chiar dacă nu este niciodată folosită în interogări sau rapoarte; se realizează prin crearea unui tabel de căutare care conține cheia surogat de depozit și cheia de origine. În acest fel, dimensiunea nu este poluată cu surogate din diverse sisteme sursă, în timp ce capacitatea de actualizare este păstrată.

Tabelul de căutare este utilizat în moduri diferite, în funcție de natura datelor sursă. Există 5 tipuri de luat în considerare; trei sunt incluse aici:

  • Tipul 1: Rândul de dimensiune este pur și simplu actualizat pentru a se potrivi cu starea curentă a sistemului sursă; depozitul nu surprinde istoria; tabelul de căutare este utilizat pentru a identifica rândul de dimensiuni de actualizat sau suprascris
  • Tipul 2: Un nou rând de dimensiune este adăugat cu noua stare a sistemului sursă; este atribuită o nouă cheie surogat; cheia sursă nu mai este unică în tabelul de căutare
  • Înregistrat complet: Un nou rând de dimensiune este adăugat cu noua stare a sistemului sursă, în timp ce rândul de dimensiune anterior este actualizat pentru a reflecta că nu mai este activ și momentul dezactivării.

Instrumente

Folosind un cadru ETL stabilit, puteți crește șansele de a ajunge la o conectivitate și o scalabilitate mai bune. Un instrument ETL bun trebuie să poată comunica cu numeroasele baze de date relaționale și să citească diferitele formate de fișiere utilizate în cadrul unei organizații. Instrumentele ETL au început să migreze în Enterprise Application Integration sau chiar Enterprise Service Bus, sisteme care acum acoperă mult mai mult decât doar extragerea, transformarea și încărcarea datelor. Mulți furnizori de ETL au acum capabilități de profilare a datelor, calitate a datelor și metadate. Un caz de utilizare obișnuit pentru instrumentele ETL include conversia fișierelor CSV în formate care pot fi citite de bazele de date relaționale. O traducere tipică a milioane de înregistrări este facilitată de instrumentele ETL care permit utilizatorilor să introducă fluxuri de date/fișiere de tip csv și să le importe într-o bază de date cu cât mai puțin cod posibil.

Instrumentele ETL sunt utilizate de obicei de o gamă largă de profesioniști – de la studenți în informatică care doresc să importe rapid seturi mari de date până la arhitecții de baze de date responsabili cu gestionarea conturilor companiei, instrumentele ETL au devenit un instrument convenabil pe care se poate baza pentru a obține performanță maximă. Instrumentele ETL conțin în cele mai multe cazuri o interfață grafică, care îi ajută pe utilizatori să transforme datele în mod convenabil, utilizând un mapator vizual de date, spre deosebire de scrierea unor programe mari pentru a analiza fișiere și a modifica tipurile de date.

În timp ce instrumentele ETL au fost în mod tradițional pentru dezvoltatori și personalul I.T., noua tendință este de a oferi aceste capabilități utilizatorilor de afaceri, astfel încât aceștia să poată crea ei înșiși conexiuni și integrări de date atunci când este necesar, mai degrabă decât să meargă la personalul I.T.. Gartner se referă la acești utilizatori non-tehnici ca Citizen Integrators.

Sursa: Drew Bentley, Business Intelligence and Analytics. © 2017 Library Press, Licență CC BY-SA 4.0. Traducere și adaptare: Nicolae Sfetcu

Rețele de comunicații 5G
Rețele de comunicații 5G

Datorită impactului său așteptat în economie și societate, a cincea generație de telecomunicații mobile (5G) este una dintre cele mai importante inovații ale timpului nostru. Așteptările cresc cu capacitățile de bandă largă ale 5G, accesibile tuturor și peste tot, la … Citeşte mai mult

Nu a fost votat $2.99$6.88 Selectează opțiunile
Introducere în Business Intelligence
Introducere în Business Intelligence

Colecția ȘTIINȚA INFORMAȚIEI ”Introducere în Business Intelligence” oferă cititorilor informații cuprinzătoare despre business intelligence, explorând toate aspectele importante ale inteligenței de afaceri în scenariul actual. Subiectele tratate se referă la abordările de bază ale business intelligence. Cartea își propune să … Citeşte mai mult

Nu a fost votat $2.99$4.80 Selectează opțiunile
Lucrul cu baze de date
Lucrul cu baze de date

Colecția ȘTIINȚA INFORMAȚIEI Lucrul cu bazele de date este astăzi printre cele mai căutate abilități IT. Acum puteți obține o bază de plecare în proiectarea și implementarea bazelor de date cu o abordare practică, ușor de înțeles. ”Lucrul cu baze … Citeşte mai mult

Nu a fost votat $3.99$7.99 Selectează opțiunile

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *