Date semi-structurate sau nestructurate
Companiile creează o cantitate uriașă de informații valoroase sub formă de e-mailuri, note, notițe din centre de apeluri, știri, grupuri de utilizatori, chat-uri, rapoarte, pagini web, prezentări, fișiere imagine, fișiere video și materiale de marketing și știri. Potrivit lui Merrill Lynch, mai mult de 85% din toate informațiile comerciale există în aceste forme. Aceste tipuri de informații sunt denumite fie date semi-structurate, fie nestructurate. Organizațiile folosesc adesea aceste documente o singură dată.
Gestionarea datelor semi-structurate este recunoscută ca o problemă majoră nerezolvată în industria tehnologiei informației. Potrivit proiecțiilor din Gartner (2003), muncitorii albi își petrec oriunde între 30 și 40% din timp căutând, găsind și evaluând date nestructurate. BI folosește atât date structurate, cât și date nestructurate, dar primele sunt ușor de căutat, iar cele din urmă conțin o cantitate mare de informații necesare pentru analiză și luarea deciziilor. Datorită dificultății căutării, găsirii și evaluării corespunzătoare a datelor nestructurate sau semi-structurate, organizațiile ar putea să nu folosească aceste vaste rezervoare de informații, care ar putea influența o anumită decizie, sarcină sau proiect. Acest lucru poate duce în cele din urmă la luarea unor decizii slab informate.
Prin urmare, atunci când se proiectează o soluție de business intelligence / DW, trebuie adaptate problemele specifice asociate cu datele semi-structurate și nestructurate, precum și cele pentru datele structurate.
Date nestructurate vs. semi-structurate
Datele nestructurate și semi-structurate au semnificații diferite în funcție de contextul lor. În contextul sistemelor de baze de date relaționale, datele nestructurate nu pot fi stocate în coloane și rânduri ordonate în mod previzibil. Un tip de date nestructurate este de obicei stocat într-un BLOB (obiect binar de mari dimensiuni), un tip de date captive disponibile în majoritatea sistemelor de gestionare a bazelor de date relaționale. Datele nestructurate se pot referi, de asemenea, la modele de coloane repetate neregulat sau aleatoriu, care variază de la rând la rând în cadrul fiecărui fișier sau document.
Multe dintre aceste tipuri de date, cu toate acestea, cum ar fi e-mailurile, fișierele text de procesare a textului, PPT-urile, fișierele de imagine și fișierele video sunt conforme cu un standard care oferă posibilitatea metadatelor. Metadatele pot include informații precum autorul și ora de creare, iar acestea pot fi stocate într-o bază de date relațională. Prin urmare, poate fi mai exact să vorbim despre acest lucru ca documente sau date semi-structurate, dar nu pare să fi fost atins un consens specific.
Datele nestructurate pot fi, de asemenea, pur și simplu cunoștințele pe care utilizatorii de afaceri le au despre tendințele viitoare de afaceri. Prognoza de afaceri se aliniază în mod natural cu sistemul BI, deoarece utilizatorii de afaceri se gândesc la afacerea lor în termeni cumulati. Captarea cunoștințelor de afaceri care pot exista doar în mintea utilizatorilor de afaceri oferă unele dintre cele mai importante puncte de date pentru o soluție completă de BI.
Probleme cu datele semi-structurate sau nestructurate
Există mai multe provocări în dezvoltarea BI cu date semi-structurate. Potrivit lui Inmon & Nesavich, unele dintre acestea sunt:
- Accesarea fizică a datelor textuale nestructurate – datele nestructurate sunt stocate într-o mare varietate de formate.
- Terminologie – În rândul cercetătorilor și analiștilor, este necesară dezvoltarea unei terminologii standardizate.
- Volumul de date – După cum s-a menționat anterior, până la 85% din toate datele există ca date semi-structurate. Cuplați acest lucru cu nevoia de analiză semantică de la un cuvânt la altul.
- Căutarea datelor textuale nestructurate – O căutare simplă pe unele date, de ex. apple, are ca rezultat linkuri în care există o trimitere la acel termen precis de căutare. Inmon și Nesavich (2008) oferă un exemplu: „se face o căutare pe termenul de crimă. Într-o căutare simplă, se folosește termenul de crimă și, oriunde se face referire la crimă, se obținere o trimitere la un document nestructurat. Dar o căutare simplă este brută. Nu găsește referințe la crimă, incendiere, ucidere, delapidare, omucidere cu vehicule și altele, chiar dacă aceste infracțiuni sunt tipuri de infracțiuni.”
Utilizarea metadatelor
Pentru a rezolva problemele legate de căutare și evaluarea datelor, este necesar să știți câte ceva despre conținut. Acest lucru se poate face prin adăugarea de context prin utilizarea metadatelor. Multe sisteme captează deja unele metadate (de exemplu, numele fișierului, autorul, dimensiunea etc.), dar mai utile ar fi metadatele despre conținutul real – de ex. rezumate, subiecte, persoane sau companii menționate. Două tehnologii concepute pentru generarea de metadate despre conținut sunt clasificarea automată și extragerea informațiilor.
Viitorul
O lucrare din 2009 a prezis aceste evoluții pe piața business intelligence:
- Din cauza lipsei de informații, procese și instrumente, până în 2012 mai mult de 35% din primele 5.000 de companii globale nu vor reuși în mod regulat să ia decizii perspicace cu privire la schimbări semnificative în afacerile și piețele lor.
- Până în 2012, unitățile de afaceri vor controla cel puțin 40% din bugetul total pentru business intelligence.
- Până în 2012, o treime din aplicațiile analitice aplicate proceselor de afaceri vor fi livrate prin mashup-uri de aplicații cu granulație grosieră.
- BI are un domeniu imens în domeniul antreprenoriatului, cu toate acestea majoritatea noilor antreprenori ignoră potențialul său.
Un raport special privind gestionarea informațiilor din 2009 a prezis tendințele de top ale BI: „calcul verde, servicii de rețele sociale, vizualizare date, BI mobil, analiză predictivă, aplicații compozite, cloud computing și multitouch”. Cercetările întreprinse în 2014 au arătat că angajații au mai multe șanse să aibă acces la instrumentele BI bazate pe cloud și să se angajeze mai mult decât în cazul instrumentelor tradiționale.
Alte tendințe de business intelligence includ următoarele:
- Produsele SOA-BI de la terțe părți abordează din ce în ce mai mult problemele ETL privind volumul și randamentul.
- Companiile îmbrățișează procesarea în memorie, procesarea pe 64 de biți și aplicațiile BI analitice preambalate.
- Aplicațiile operaționale au componente BI apelabile, cu îmbunătățiri în timp de răspuns, scalare și concurență.
- Analiza BI în timp real sau aproape este o așteptare de bază.
- Software-ul open source BI înlocuiește ofertele furnizorilor.
Alte linii de cercetare includ studiul combinat al business intelligence și date incerte. În acest context, datele utilizate nu sunt presupuse a fi precise, exacte și complete. În schimb, datele sunt considerate incerte și, prin urmare, această incertitudine se propagă la rezultatele produse de BI.
Potrivit unui studiu al Grupului Aberdeen, în ultimii ani a crescut interesul pentru inteligența de afaceri Software-as-a-Service (SaaS), de două ori mai multe organizații folosesc această abordare de implementare decât acum un an – 15% în 2009 comparativ cu 7% în 2008.
Un articol al lui Chris Kanaracus de la InfoWorld subliniază date similare de creștere de la firma de cercetare IDC, care prezice că piața SaaS BI va crește cu 22% în fiecare an până în 2013 datorită sofisticării sporite a produselor, bugetelor IT tensionate și alți factori.
Sursa: Drew Bentley, Business Intelligence and Analytics. © 2017 Library Press, Licență CC BY-SA 4.0. Traducere și adaptare: Nicolae Sfetcu
© 2021 MultiMedia Publishing, Business Intelligence și Analytica în afaceri, Colecția Știința Informației
Lasă un răspuns