Types
Bien que les applications des métadonnées soient multiples et couvrent une grande variété de domaines, il existe des modèles spécialisés et bien acceptés pour spécifier les types de métadonnées. Bretherton et Singley (1994) distinguent deux classes distinctes : les métadonnées structurelles/de contrôle et les métadonnées de guidage. Les métadonnées structurelles décrivent la structure des objets de base de données tels que les tables, les colonnes, les clés et les index. Les métadonnées de guidage aident les humains à trouver des éléments spécifiques et sont généralement exprimées sous la forme d’un ensemble de mots clés dans un langage naturel. Selon Ralph Kimball, les métadonnées peuvent être divisées en 2 catégories similaires : les métadonnées techniques et les métadonnées commerciales. Les métadonnées techniques correspondent aux métadonnées internes et les métadonnées commerciales correspondent aux métadonnées externes. Kimball ajoute une troisième catégorie : les métadonnées de processus. D’autre part, NISO distingue trois types de métadonnées : descriptives, structurelles et administratives.
Les métadonnées descriptives sont généralement utilisées pour la découverte et l’identification, comme informations permettant de rechercher et de localiser un objet, telles que le titre, l’auteur, les sujets, les mots-clés, l’éditeur. Les métadonnées structurelles décrivent la manière dont les composants d’un objet sont organisés. Un exemple de métadonnées structurelles serait la façon dont les pages sont ordonnées pour former les chapitres d’un livre. Enfin, les métadonnées administratives fournissent des informations permettant de gérer la source. Les métadonnées administratives font référence aux informations techniques, notamment le type de fichier, ou la date et la manière dont le fichier a été créé. Il existe deux sous-types de métadonnées administratives : les métadonnées de gestion des droits et les métadonnées de préservation. Les métadonnées de gestion des droits expliquent les droits de propriété intellectuelle, tandis que les métadonnées de préservation contiennent des informations permettant de préserver et de sauvegarder une ressource.
Structures
Les métadonnées (métacontenu) ou, plus exactement, les vocabulaires utilisés pour assembler les déclarations de métadonnées (métacontenu), sont généralement structurées selon un concept standardisé utilisant un schéma de métadonnées bien défini, comprenant : des normes de métadonnées et des modèles de métadonnées. Des outils tels que des vocabulaires contrôlés, des taxonomies, des thésaurus, des dictionnaires de données et des registres de métadonnées peuvent être utilisés pour appliquer une standardisation plus poussée aux métadonnées. La communauté des métadonnées structurelles est également d’une importance capitale dans le développement de modèles de données et dans la conception de bases de données.
Syntaxe
La syntaxe des métadonnées (métacontenu) fait référence aux règles créées pour structurer les champs ou éléments de métadonnées (métacontenu). Un seul schéma de métadonnées peut être exprimé dans un certain nombre de langages de balisage ou de programmation différents, chacun nécessitant une syntaxe différente. Par exemple, le Dublin Core peut être exprimé en texte brut, HTML, XML et RDF.
Un exemple courant de métacontenu (de guidage) est la classification bibliographique, le sujet, le numéro de classe Dewey Decimal. Il y a toujours une déclaration implicite dans toute « classification » d’un objet. Pour classer un objet comme, par exemple, le numéro de classe Dewey 514 (Topologie) (c’est-à-dire les livres portant le numéro 514 sur leur dos), la déclaration implicite est : « <book><subject heading><514>. Il s’agit d’un triplet sujet-prédicat-objet, ou plus important encore, d’un triplet classe-attribut-valeur. Les deux premiers éléments du triple (classe, attribut) sont des éléments de métadonnées structurelles ayant une sémantique définie. Le troisième élément est une valeur, de préférence issue d’un vocabulaire contrôlé, de certaines données de référence (maîtres). La combinaison des métadonnées et des éléments de données de base aboutit à une instruction qui est une instruction de métacontenu, c’est-à-dire « métacontenu = métadonnées + données de base ». Tous ces éléments peuvent être considérés comme du « vocabulaire ». Les métadonnées et les données de base sont des vocabulaires qui peuvent être assemblés en instructions de métacontenu. Il existe de nombreuses sources de ces vocabulaires, à la fois méta et données de base : UML, EDIFACT, XSD, Dewey/UDC/LoC, SKOS, ISO-25964, Pantone, Linnaean Binomial Nomenclature, etc. En utilisant des vocabulaires contrôlés pour les composants des déclarations de méta-contenu, que ce soit pour l’indexation ou la recherche, est approuvé par la norme ISO 25964 : « Si l’indexeur et le chercheur sont guidés pour choisir le même terme pour le même concept, alors les documents pertinents seront récupérés. » Ceci est particulièrement pertinent lorsqu’il s’agit de moteurs de recherche sur Internet, tels que Google. Le processus indexe les pages puis fait correspondre les chaînes de texte à l’aide de son algorithme complexe ; il n’y a pas d’intelligence ou d’« inférence », juste une illusion.
Bibliographie
- Kimball, Ralph (2008). The Data Warehouse Lifecycle Toolkit (Second ed.). New York: Wiley. pp. 10, 115–117, 131–132, 140, 154–155. ISBN 978-0-470-14977-5.
- National Information Standards Organization; Rebecca Guenther; Jaqueline Radebaugh (2004). Understanding Metadata (PDF). Bethesda, MD: NISO Press. ISBN 1-880124-62-9. Retrieved 2 April 2014.
Source: Drew Bentley, Business Intelligence and Analytics. © 2017 Library Press, License CC BY-SA 4.0. Traduction et adaptation: Nicolae Sfetcu. © 2023 MultiMedia Publishing, L’informatique décisionnelle et l’analyse exploratoire des données dans les entreprises, Collection Sciences de l’information
Laisser un commentaire