Home » Articole » RO » Afaceri » Știința datelor (Data Science) » Integrarea datelor

Integrarea datelor

Integrarea datelor implică combinarea datelor din diferite surse și oferirea utilizatorilor a unei imagini unificate a acestora. Acest proces devine semnificativ într-o varietate de situații, care includ atât domenii comerciale (cum ar fi atunci când două companii similare trebuie să-și îmbine bazele de date), cât și științifice (combinând rezultatele cercetărilor din diferite depozite de bioinformatică, de exemplu). Integrarea datelor apare cu o frecvență crescândă pe măsură ce volumul (adică big data) și necesitatea de a partaja datele existente explodează. A devenit punctul central al unei ample lucrări teoretice și numeroase probleme deschise rămân nerezolvate. Integrarea datelor încurajează colaborarea între utilizatorii interni și externi. Datele integrate trebuie să fie primite dintr-un sistem de baze de date eterogene și transformate într-un singur depozit de date coerent care oferă date sincrone într-o rețea de fișiere pentru clienți. O utilizare obișnuită a integrării datelor este în exploatarea datelor atunci când se analizează și se extrag informații din bazele de date existente care pot fi utile pentru informațiile comerciale.

Istorie

Depozit de date  (Figura 1: Schemă simplă pentru un depozit de date. Procesul de extragere, transformare, încărcare ETL (Extract, Transform, Load) extrage informații din bazele de date sursă, le transformă și apoi le încarcă în depozitul de date.)

Integrarea datelor (Figura 2: Schemă simplă pentru o soluție de integrare a datelor. Un proiectant de sistem construiește o schemă mediată pe baza căreia utilizatorii pot rula interogări. Baza de date virtuală se interfațează cu bazele de date sursă prin cod de împachetare, dacă este necesar.)

Probleme legate de combinarea surselor de date eterogene, denumite adesea silozuri de informații, sub o singură interfață de interogare, există de ceva timp. La începutul anilor 1980, informaticienii au început să proiecteze sisteme pentru interoperabilitatea bazelor de date eterogene. Primul sistem de integrare a datelor bazat pe metadate structurate a fost proiectat la Universitatea din Minnesota în 1991, pentru seria de microdate cu utilizare publică integrată (IPUMS). IPUMS a folosit o abordare de stocare a datelor, care extrage, transformă și încarcă date din surse eterogene într-o schemă de vizualizare unică, astfel încât datele din surse diferite să devină compatibile. Prin interoperabilitatea a mii de baze de date ale populației, IPUMS a demonstrat fezabilitatea integrării datelor pe scară largă. Abordarea depozitului de date oferă o arhitectură strâns cuplată, deoarece datele sunt deja reconciliate fizic într-un singur depozit interogabil, de aceea durează de obicei puțin timp pentru a rezolva interogările.

Abordarea depozitului de date este mai puțin fezabilă pentru seturile de date care sunt actualizate frecvent, necesitând procesul de extragere, transformare, încărcare (ETL) pentru a fi reexecutat continuu pentru sincronizare. Dificultăți apar, de asemenea, în construirea depozitelor de date atunci când cineva are doar o interfață de interogare pentru a rezuma sursele de date și nu are acces la datele complete. Această problemă apare frecvent la integrarea mai multor servicii de interogare comercială, cum ar fi călătorii sau aplicații web publicitare clasificate.

Începând din 2009, tendința integrării datelor a favorizat cuplarea slabă a datelor și furnizarea unei interfețe de interogare unificate pentru a accesa datele în timp real printr-o schemă mediată (a se vedea Figura 2), care permite extragerea informațiilor direct din bazele de date originale. Acest lucru este în concordanță cu abordarea SOA populară în acea epocă. Această abordare se bazează pe mapări între schema mediată și schema surselor originale și traducerea unei interogări în interogări descompuse pentru a se potrivi cu schema bazelor de date originale. Astfel de mapări pot fi specificate în două moduri: ca mapare de la entități din schema mediată la entități din sursele originale (abordarea „Global-as-View” (GAV)) sau ca mapare de la entități din surse originale ale schemei mediate (abordarea „Local-as-View” (LAV)). Această din urmă abordare necesită inferențe mai sofisticate pentru a rezolva o interogare cu privire la schema mediată, dar facilitează adăugarea de surse de date noi la o schemă mediată (stabilă).

Începând cu 2010, o parte din activitatea de cercetare a integrării datelor se referă la problema integrării semantice. Această problemă nu abordează structurarea arhitecturii integrării, ci modul de rezolvare a conflictelor semantice între sursele de date eterogene. De exemplu, dacă două companii își îmbină bazele de date, anumite concepte și definiții în schemele lor respective, cum ar fi „câștigurile”, au în mod inevitabil semnificații diferite. Într-o bază de date, aceasta poate însemna profituri în dolari (un număr cu virgulă mobilă), în timp ce în cealaltă poate reprezenta numărul de vânzări (un număr întreg). O strategie comună pentru rezolvarea unor astfel de probleme implică utilizarea ontologiilor care definesc în mod explicit termenii schemei și, astfel, ajută la rezolvarea conflictelor semantice. Această abordare reprezintă integrarea datelor bazată pe ontologie. Pe de altă parte, problema combinării rezultatelor cercetărilor din diferite depozite de bioinformatică necesită o evaluare comparativă a similitudinilor, calculate din diferite surse de date, pe un singur criteriu, cum ar fi valoarea predictivă pozitivă. Acest lucru permite surselor de date să fie direct comparabile și pot fi integrate chiar și atunci când natura experimentelor este distinctă.

Începând din 2011, s-a stabilit că metodele actuale de modelare a datelor transmiteau izolarea datelor în fiecare arhitectură de date sub formă de insule de date și silozuri de informații disparate. Această izolare a datelor este un artefact neintenționat al metodologiei de modelare a datelor care are ca rezultat dezvoltarea de modele de date disparate. Modelele de date diferite, atunci când sunt instanțiate ca baze de date, formează baze de date disparate. Au fost dezvoltate metodologii îmbunătățite ale modelelor de date pentru a elimina artefactul de izolare a datelor și pentru a promova dezvoltarea de modele de date integrate. O metodă îmbunătățită de modelare a datelor reface modelele de date prin mărirea acestora cu metadate structurale sub formă de entități de date standardizate. Ca urmare a reformării mai multor modele de date, setul de modele de date reformate va împărtăși acum una sau mai multe relații comune care leagă metadatele structurale comune acum acestor modele de date. Relațiile de comunitate sunt un tip peer-to-peer de relații de entitate care raportează entitățile de date standardizate ale mai multor modele de date. Mai multe modele de date care conțin aceeași entitate de date standard pot participa la aceeași relație de comunitate. Când modelele de date integrate sunt instanțiate ca baze de date și sunt populate corespunzător dintr-un set comun de date master, atunci aceste baze de date sunt integrate.

Din 2011, abordările centrului de date au avut un interes mai mare decât depozitele de date pentru întreprinderi complet structurate (de obicei relaționale). Din 2013, abordările lacurilor de date s-au ridicat la nivelul centrelor de date. (Vedeți popularitatea celor trei termeni de căutare pe Google Trends.) Aceste abordări combină date nestructurate sau variate într-o singură locație, dar nu necesită neapărat o schemă relațională master (adesea complexă) pentru a structura și defini toate datele din centru.

Integrarea datelor joacă un rol important în afaceri în ceea ce privește colectarea datelor utilizate pentru studierea pieței. Conversia datelor brute preluate de la consumatori în date coerente este o activitate pe care întreprinderile încearcă să o facă atunci când iau în considerare ce măsuri ar trebui să ia în continuare. Organizațiile folosesc mai frecvent exploatarea datelor pentru colectarea informațiilor și tiparele din bazele lor de date, iar acest proces le ajută să dezvolte noi strategii de afaceri pentru a crește performanța afacerii și a efectua analize economice mai eficient. Compilarea cantității mari de date pe care o colectează pentru a fi stocate în sistemul lor este o formă de integrare a datelor adaptată pentru Business Intelligence pentru a-și îmbunătăți șansele de succes.

Exemplu

Luați în considerare o aplicație web în care un utilizator poate interoga o varietate de informații despre orașe (cum ar fi statistici privind criminalitatea, vreme, hoteluri, date demografice etc.). În mod tradițional, informațiile trebuie stocate într-o singură bază de date cu o singură schemă. Însă oricare întreprindere ar găsi informații de această amploare oarecum dificile și costisitor de colectat. Chiar dacă resursele există pentru a colecta datele, probabil că ar reproduce datele în bazele de date existente privind criminalitatea, site-urile meteo și datele recensământului.

O soluție de integrare a datelor poate rezolva această problemă considerând aceste resurse externe ca vederi materializate asupra unei scheme virtuale mediate, rezultând „integrarea datelor virtuale”. Aceasta înseamnă că dezvoltatorii de aplicații construiesc o schemă virtuală – schema mediată – pentru a modela cel mai bine tipurile de răspunsuri dorite de utilizatorii lor. Apoi, proiectează „împachetări” sau adaptoare pentru fiecare sursă de date, cum ar fi baza de date privind infracțiunile și site-ul meteo. Aceste adaptoare transformă pur și simplu rezultatele interogării locale (cele returnate de respectivele site-uri web sau baze de date) într-o formă ușor de procesat pentru soluția de integrare a datelor (vezi figura 2). Atunci când un utilizator de aplicație interoghează schema mediată, soluția de integrare a datelor transformă această interogare în interogări adecvate peste sursele de date respective. În cele din urmă, baza de date virtuală combină rezultatele acestor interogări cu răspunsul la interogarea utilizatorului.

Această soluție oferă comoditatea adăugării de surse noi prin simpla construire a unui adaptor sau a unei lame software pentru aplicații. Acesta contrastează cu sistemele ETL sau cu o singură soluție de bază de date, care necesită integrarea manuală a întregului set de date noi în sistem. Soluțiile ETL virtuale valorifică schema virtuală mediată pentru a implementa armonizarea datelor; prin care datele sunt copiate de la sursa „master” desemnată la țintele definite, câmp cu câmp. Virtualizarea avansată a datelor este, de asemenea, construită pe conceptul de modelare orientată pe obiecte, pentru a construi o schemă mediată virtuală sau un depozit de metadate virtuale, utilizând arhitectura ”hub and spoke”.

Fiecare sursă de date este diferită și, ca atare, nu este concepută pentru a sprijini îmbinările fiabile între sursele de date. Prin urmare, virtualizarea datelor, precum și federația datelor, depind de comunitatea accidentală a datelor pentru a sprijini combinarea datelor și informațiilor din seturi de date disparate. Din cauza lipsei valorii comune a datelor între sursele de date, setul de returnare poate fi inexact, incomplet și imposibil de validat.

O soluție este reformarea bazelor de date disparate pentru a integra aceste baze de date fără a fi nevoie de ETL. Bazele de date reformate acceptă constrângeri de comunitate în care integritatea referențială poate fi aplicată între baze de date. Bazele de date reformate oferă căi de acces la date proiectate, cu valori comune ale datelor în bazele de date.

Include texte traduse din Wikipedia

Întreţinerea şi repararea calculatoarelor
Întreţinerea şi repararea calculatoarelor

Manual pentru începători pentru întreţinerea şi depanarea calculatoarelor, cu o introducere în noţiuni despre calculatoare, hardware, software (inclusiv sisteme de operare) şi securitatea pe Internet. Un calculator de uz general are patru componente principale: unitatea logică aritmetică (ALU), unitatea de … Citeşte mai mult

Nu a fost votat $0,00 Selectează opțiunile
Tehnologia Blockchain - Bitcoin
Tehnologia Blockchain – Bitcoin

Internetul a schimbat complet lumea, cultura şi obiceiurile oamenilor. După o primă fază caracterizată prin transferul liber al informaţiilor, au apărut preocupările pentru siguranţa comunicaţiilor online şi confidenţialitatea utilizatorilor. Tehnologia blockchain asigură ambele aceste deziderate. Relativ nouă, ea are şansa să producă … Citeşte mai mult

Nu a fost votat $2,99$11,99 Selectează opțiunile
Criptomonede
Criptomonede

Odată cu popularitatea crescândă a pieței criptovalutelor, și numărul mare de criptomonede nereglementate (câteva sute), o atenție mai mare este acordată acum acestei activități de guverne și alte părți interesate din întreaga lume. De notat capitalizarea de piață totală a … Citeşte mai mult

Nu a fost votat $0,00 Selectează opțiunile

Lasă un răspuns

Adresa ta de email nu va fi publicată.