Home » Articole » Articole » Afaceri » Știința datelor (Data Science) » Structuri și standarde de metadate în inteligența operațională

Structuri și standarde de metadate în inteligența operațională

Structuri

Metadatele (metaconținutul) sau, mai corect, vocabularele utilizate pentru a asambla declarațiile de metadate (metaconținut), sunt de obicei structurate conform unui concept standardizat folosind o schemă de metadate bine definită, inclusiv: standarde de metadate și modele de metadate. Instrumente precum vocabulare controlate, taxonomii, tezaure, dicționare de date și registre de metadate pot fi folosite pentru a aplica o standardizare suplimentară metadatelor. Caracterul comun al metadatelor structurale este, de asemenea, de o importanță primordială în dezvoltarea modelelor de date și în proiectarea bazelor de date.

Sintaxa

Sintaxa metadatelor (metaconținut) se referă la regulile create pentru a structura câmpurile sau elementele metadatelor (metaconținut). O singură schemă de metadate poate fi exprimată într-un număr de limbaje de marcare sau de programare diferite, fiecare dintre acestea necesită o sintaxă diferită. De exemplu, Dublin Core poate fi exprimat în text simplu, HTML, XML și RDF.

Un exemplu comun de metaconținut (ghid) este clasificarea bibliografică, subiectul, numărul clasei Dewey Decimal. Există întotdeauna o declarație implicită în orice „clasificare” a unui obiect. Pentru a clasifica un obiect ca, de exemplu, clasa Dewey numărul 514 (Topologie) (adică, cărți care au numărul 514 pe coloana lor), afirmația implicită este: „<carte><titlu subiect><514>. Acesta este un triplu subiect-predicat-obiect sau, mai important, un triplu clasă-atribut-valoare. Primele două elemente ale triplei (clasă, atribut) sunt fragmente ale unor metadate structurale care au o semantică definită. Al treilea element este o valoare, de preferință dintr-un vocabular controlat, unele date de referință (principale). Combinația dintre metadate și elementele de date principale are ca rezultat o declarație care este o declarație de metaconținut, adică „metaconținut = metadate + date principale”. Toate aceste elemente pot fi considerate „vocabular”. Atât metadatele, cât și datele de bază sunt vocabulare care pot fi asamblate în declarații de metaconținut. Există multe surse ale acestor vocabulare, atât meta, cât și date de bază: UML, EDIFACT, XSD, Dewey/UDC/LoC, SKOS, ISO-25964, Pantone, Linnaean Binomial Nomenclature etc. Folosirea vocabularelor controlate pentru componentele declarațiilor de metaconținut, pentru indexare sau găsire, este aprobat[ de ISO 25964: „Dacă atât indexatorul, cât și cel care caută sunt îndrumați să aleagă același termen pentru același concept, atunci documentele relevante vor fi preluate.” Acest lucru este deosebit de relevant atunci când luăm în considerare motoarele de căutare de pe internet, cum ar fi Google. Procesul indexează paginile apoi potrivește șirurile de text folosind algoritmul său complex; nu are loc inteligența sau „inferențele”, ci doar iluzia acesteia.

Scheme ierarhice, liniare și plane

Schemele de metadate pot fi de natură ierarhică atunci când există relații între elementele de metadate și elementele sunt imbricate astfel încât relațiile părinte-copil să existe între elemente. Un exemplu de schemă de metadate ierarhice este schema IEEE LOM, în care elementele de metadate pot aparține unui element de metadate părinte. Schemele de metadate pot fi, de asemenea, unidimensionale sau liniare, unde fiecare element este complet separat de alte elemente și clasificat în funcție de o singură dimensiune. Un exemplu de schemă de metadate liniare este schema Dublin Core, care este unidimensională. Schemele de metadate sunt adesea bidimensionale sau plane, unde fiecare element este complet discret față de alte elemente, dar clasificat în funcție de două dimensiuni ortogonale.

Hipermaparea

În toate cazurile în care schemele metadatelor depășesc reprezentarea plană, este necesar un anumit tip de hipermapare pentru a permite afișarea și vizualizarea metadatelor în funcție de aspectul ales și pentru a oferi vizualizări speciale. Hipermaparea se aplică frecvent straturilor de suprapuneri de informații geografice și geologice.

Granularitatea

Gradul în care datele sau metadatele sunt structurate este denumit „granularitatea” acesteia. „Granularitatea” se referă la cât de multe detalii sunt furnizate. Metadatele cu o granularitate ridicată permit informații mai profunde, mai detaliate și mai structurate și permit niveluri mai mari de manipulare tehnică. Un nivel mai scăzut de granularitate înseamnă că metadatele pot fi create pentru costuri considerabil mai mici, dar nu vor oferi informații atât de detaliate. Impactul major al granularității nu este doar asupra creării și captării, ci și asupra costurilor de întreținere. De îndată ce structurile de metadate devin depășite, la fel este și accesul la datele menționate. Prin urmare, granularitatea trebuie să țină cont de efortul de a crea metadatele, precum și de efortul de a le menține.

Standarde

Standardele internaționale se aplică metadatelor. Se lucrează mult în comunitățile de standarde naționale și internaționale, în special ANSI (Institutul Național American de Standarde) și ISO (Organizația Internațională pentru Standardizare) pentru a ajunge la un consens cu privire la standardizarea metadatelor și a registrelor. Standardul de bază pentru registrul de metadate este ISO/IEC 11179 Metadate Registries (MDR), cadrul pentru standard este descris în ISO/IEC 11179-1:2004. O nouă ediție a părții 1 a fost publica în 2015/2016. A fost revizuită pentru a se alinia cu ediția actuală a părții 3, ISO/IEC 11179-3:2013, care extinde MDR pentru a sprijini înregistrarea sistemelor de concepte. Acest standard specifică o schemă pentru înregistrarea atât a semnificației, cât și a structurii tehnice a datelor pentru o utilizare clară de către oameni și computere. Standardul ISO/IEC 11179 se referă la metadate ca obiecte informaționale despre date sau „date despre date”. În ISO/IEC 11179 Partea 3, obiectele informaționale sunt date despre elementele de date, domeniile valoare și alte obiecte informative semantice și reprezentative reutilizabile care descriu semnificația și detaliile tehnice ale unui element de date. Acest standard prescrie, de asemenea, detaliile pentru un registru de metadate și pentru înregistrarea și administrarea obiectelor de informații din cadrul unui registru de metadate. ISO/IEC 11179 Partea 3 conține, de asemenea, prevederi pentru descrierea structurilor compuse care sunt derivate ale altor elemente de date, de exemplu prin calcule, culegeri de unul sau mai multe elemente de date sau alte forme de date derivate. În timp ce acest standard se descrie inițial ca un registru „element de date”, scopul său este de a sprijini descrierea și înregistrarea conținutului de metadate independent de orice aplicație particulară, oferind descrierilor să fie descoperite și reutilizate de oameni sau computere în dezvoltarea de noi aplicații, baze de date sau pentru analiza datelor colectate în conformitate cu conținutul metadatelor înregistrate. Acest standard a devenit baza generală pentru alte tipuri de registre de metadate, reutilizand și extinzând porțiunea de înregistrare și administrare a standardului.

Termenii de metadate Dublin Core sunt un set de termeni de vocabular care pot fi utilizați pentru a descrie resurse în scopul descoperirii. Setul original de 15 termeni clasici de metadate, cunoscut sub numele de Dublin Core Metadata Element Set, este aprobat în următoarele documente standard:

  • IETF RFC 5013
  • Standard ISO 15836-2009
  • Standard NISO Z39.85.

Deși nu este un standard, Microformat (menționat și în secțiunea metadate de pe internet mai jos) este o abordare bazată pe web a marcajului semantic care urmărește să refolosească etichetele HTML/XHTML existente pentru a transmite metadate. Microformatul urmează standardele XHTML și HTML, dar nu este un standard în sine. Un susținător al microformatelor, Tantek Qelik, a caracterizat o problemă cu abordări alternative:

„Iată un nou limbaj pe care vrem să îl învățați, iar acum trebuie să scoateți aceste fișiere suplimentare pe serverul dvs. Este o bătaie de cap. (Microformatele) reduc bariera de intrare.”

Sursa: Drew Bentley, Business Intelligence and Analytics. © 2017 Library Press, Licență CC BY-SA 4.0. Traducere și adaptare: Nicolae Sfetcu

Introducere în Business Intelligence
Introducere în Business Intelligence

Colecția ȘTIINȚA INFORMAȚIEI ”Introducere în Business Intelligence” oferă cititorilor informații cuprinzătoare despre business intelligence, explorând toate aspectele importante ale inteligenței de afaceri în scenariul actual. Subiectele tratate se referă la abordările de bază ale business intelligence. Cartea își propune să … Citeşte mai mult

Nu a fost votat $2.99$4.80 Selectează opțiunile
Etica Big Data în cercetare
Etica Big Data în cercetare

Principalele probleme cu care se confruntă oamenii de știință în lucrul cu seturile mari de date (Big Data), evidențiind principale aspecte etice, luând în considerare inclusiv legislația din Uniunea Europeană. După o scurtă Introducere despre Big Data, secțiunea Tehnologia prezintă … Citeşte mai mult

Nu a fost votat $0.00$2.35 Selectează opțiunile
Căutarea, extragerea, organizarea și evaluarea informațiilor
Căutarea, extragerea, organizarea și evaluarea informațiilor

Informația, ca și concept, include o mare diversitate de sensuri în contexte diferite, de la cele zilnice până la cele tehnice. Conceptul de informație este strâns legat de noțiunile de restricție, comunicare, control, date, forme, educație, cunoaștere, înțelegere, stimul mental, … Citeşte mai mult

Nu a fost votat $3.99$9.61 Selectează opțiunile

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *