Home » Articole » RO » Afaceri » Știința datelor (Data Science) » Provocări și obstacole în lucrul cu Big Data

Provocări și obstacole în lucrul cu Big Data

Calitatea datelor

Ca aspect practic, o provocare importantă de zi cu zi cu care se confruntă utilizatorii de megadate (Big Data) este să lucreze cu date de o calitate în general scăzută. Marwa Mabrouk, Manager de produs Cloud și Big Data la ESRI estimează că „de obicei, majoritatea oamenilor de știință în domeniul datelor își petrec între 75% și 80% din timp doar curățând datele și mutându-le și pregătindu-le pentru analiză”. De asemenea, Jeremy Barnes, co-fondator și director de tehnologie la Datacratic, estimează că „90% din timp este petrecut manipulând și transformând datele, iar 10% este petrecut în știința datelor”. Aceasta reprezintă o suprasarcină semnificativă pentru munca de date, care rezultă din inconsecvențele în formatarea diferitelor seturi de date (de exemplu, dacă două seturi de date stochează date în formate diferite, atunci unul trebuie convertit înainte ca datele să poată fi îmbinate) sau din cauza practicii în general proaste în modul în care datele sunt colectate și stocate (de exemplu, Brian Lorenz, vicepreședinte pentru date la BrightScope, a raportat că datele istorice ale planului de pensionare sunt puse la dispoziție de către guvernul SUA numai în format PDF care nu poate fi citit de mașină). Aceste probleme pot fi parțial atenuate dacă dezvoltarea și aderarea la standarde consecvente sunt încurajate atât la nivel de organizație, cât și la nivel de industrie.

Context, metadate și proveniența datelor

Inferențe valide pot fi extrase în mod fiabil din date numai atunci când analistul are o înțelegere aprofundată a datelor și a contextului din care au fost extrase, dar ambele sunt adesea pierdute pe măsură ce seturile de date sunt din ce în ce mai combinate și agregate. Exemplul menționat mai sus de pas fals în marketingul pentru sarcină al lui Target este un exemplu concret: această problemă specială a apărut deoarece datele despre obiceiurile de cumpărare au fost desprinse dintr-un punct contextual relevant (vârsta subiectului). Mouzykantskii a rezumat bine problema astfel: „Nu există o modalitate simplă sau standard de a păstra metadatele despre ceea ce înseamnă datele împreună cu datele într-un mod plăcut, ușor de căutat și consecvent. Și asta înseamnă că cunoștințele a ceea ce înseamnă de fapt datele sunt separate de date”. Problemele create de această lipsă de standardizare sunt amplificate, deoarece limitează capacitatea lucrătorilor de date calificați de a se muta fără probleme între industrii. Tim Davies, Open Data Research Coordinator pentru World Wide Web Foundation, oferă exemplul de lucru cu datele Serviciului Național de Sănătate: cei care lucrează pe probleme de sănătate, dar care nu sunt familiarizați cu codurile NHS sunt probabil să se confrunte cu o curbă abruptă de învățare, în timp ce numai cei familiarizați cu practicile idiosincratice ale sectorului sunt susceptibile să „înțeleagă care au fost datele”.

Într-adevăr, problema pierderii contextului este strâns legată de problema mai largă a utilizării metadatelor și a longevității datelor. Pentru ca datele să rămână utile în viitor (sau să fie utile terților) este nu numai necesar ca datele să fie lizibile, ci și ca acestea să fie documentate într-un mod transparent și consecvent, astfel încât toți utilizatorii să înțeleagă ce reprezintă datele. Cu toate acestea, respondenții au raportat că megadatele sunt utilizate în mod inconsecvent, dacă sunt utilizate, ridicând spectrul greșelilor care decurg din viitoarele interpretări greșite ale seturilor de date neetichetate. Această problemă este exacerbată în cazurile în care volume mari de date, cum ar fi cele create pe web-ul social, sunt gestionate de utilizatori, mai degrabă decât de o autoritate centralizată, instituționalizată de gestionare a datelor, deoarece utilizatorii individuali sunt, în general, mai puțin probabil să adere la orice practică standard de etichetare.

Un al treilea punct este că, în timp ce metodele de colectare a datelor sunt de obicei bine înțelese pentru cei care colectează datele, proveniența datelor de la terți este adesea mult mai opacă. De fapt, pentru companii precum Nielsen și ComScore care furnizează date și analize bazate pe panouri de public, o parte din dimensiunile proprii ale afacerii lor poate fi formarea acestor panouri. Câțiva dintre experți au exprimat îngrijorări cu privire la dependența comună a industriilor media față de aceste seturi de date, întrebând cine sunt exact membrii grupului și ce se știe cu adevărat despre ei. Daryl McNutt, vicepreședinte de marketing la Drawbridge, a observat că chiar și organizațiile de autoreglementare bine respectate din industria publicității, inclusiv Interactive Advertising Bureau (IAB) și Media Rating Council (MRC) trebuie să fie mai incluzive în ceea ce privește metodele prin pe care ajung la ratingurile lor. El a opinat că „Nu ar trebui să existe o cutie neagră sau un sos secret. Cred că trebuie să o faci într-un mod care să fie transparent, astfel încât oamenii să știe că există știință și tehnologie reală în spate”. În general, multe afaceri care utilizează date de la terțe părți se bazează pe surse de date fără a înțelege complet cum au fost colectate sau generate.

Standarde și accesibilitate

Nu doar în aplicarea metadatelor lipsesc practicile standard. Există o lipsă mai generală de standardizare a modului în care datele sunt stocate și procesate. O temă cheie este importanța combinării și a legăturii seturi de date pentru a genera noi perspective combinatorii. Dar, pentru a realiza acest lucru, deseori este nevoie ca sistemele responsabile cu colectarea și procesarea respectivelor date să fie, de asemenea, conectate. Intervievații au descris coșmarul încercării de a introduce o operațiune integrată de date într-o organizație cu zeci de sisteme informatice și software diferite, dintre care niciunul nu a fost conceput pentru compatibilitate. Bret Shroyer de la Willis Group descrie provocarea astfel: „Nu avem nici un instrument de ”merge la”. Trebuie să ne gândim cum vrem să punem acest lucru împreună, cum îl vom conecta la baza noastră de date, ce fel de model vom construi, și sunt o serie de pași manuali pentru a ajunge acolo”. Atâta timp cât un standard comun care permite interconectarea sistemelor este absent, aceasta va fi o provocare recurentă.

O problemă conexă este cea a accesibilității. Acolo unde există instrumente, acestea sunt adesea concepute pentru implementare și utilizare de către specialiști în știință de date sau ingineri. Dr. Cathy O’Neil de la Universitatea Columbia notează „Vreau să mă gândesc la algoritm și nu la implementarea algoritmului. Vreau să apăs pe un buton și ignorând costurile pentru moment, vreau să pornească cât mai multe mașini pe o rețea cât de mare este necesar pentru a face acest calcul într-un anumit timp limită. Și nu vreau să fiu nevoit să mă gândesc prea mult la asta. Și lucruri precum Hadoop, MapReduce și alte platforme conexe sunt un pas bun în acest sens. Practic, fac posibilă efectuarea unor calcule uriașe, dar încă nu le fac ușor”. Pe măsură ce utilizarea datelor devine mai răspândită în economie, este firesc să ne așteptăm ca gestionarea datelor să devină o sarcină de rutină pentru o parte din ce în ce mai mare a forței de muncă. Dar acest lucru se poate întâmpla doar dacă sunt dezvoltate instrumente care permit lucrătorilor neexperți să îndeplinească sarcini care sunt în prezent rezervate specialiștilor.

Politica internă

Politica companiei afectează ce date sunt partajate intern, atât între departamente, cât și în cadrul departamentelor, precum și modul în care datele sunt partajate cu terți. Acest element foarte uman poate crea obstacole pe care tehnologia singură nu le poate depăși. Deciziile cu privire la modul în care datele sunt formatate pentru partajare și potrivire între seturile de date sunt critice și au un impact asupra ușurinței procesării ulterioare (consultați discuțiile de mai sus despre calitatea datelor și metadate), dar aceste decizii sunt adesea modelate atât de structura organizațională și ierarhie, cât și de considerații practice sau tehnice.

Rolul guvernului

Intervievați au fost îngrijorați de faptul că expertiza industriei nu este reprezentată în mod adecvat în discuțiile privind reglementarea, dar perspectivele au variat. Unii au considerat că potențialul big data a fost supraevaluat, ceea ce a dus la panici neinformate. Alții s-au îngrijorat de faptul că factorii de decizie nu sunt suficient de informați cu privire la diferitele oportunități prezentate de big data și la realitatea practică cu care se confruntă organizațiile care doresc să profite de ele. Heather Savory de la Grupul de utilizatori de date deschise din Regatul Unit a remarcat „Guvernul ar trebui să ofere infrastructura minimă de reglementare pentru a permite lucrurilor să funcționeze și să ofere oportunități economice și să furnizeze servicii publice eficiente. Chiar nu ar trebui să interfereze în afaceri. Ceea ce ar trebui să facă este să promoveze oportunitățile asociate cu utilizarea datelor deschise către oameni care ar putea să nu le fi luat în considerare”. Pe scurt, există o dorință generală pentru o infrastructură de reglementare minimă combinată cu activități care vizează promovarea beneficiilor economice ale megadatelor, acolo unde acestea nu sunt binecunoscute.

S-a convenit că politicile de date mari ar trebui să fie transparente, clare, echitabile și consecvente. Acestea sunt semnele distinctive ale oricărei reglementări bune, dar merită o mențiune specială, deoarece există un sentiment comun că mediul de reglementare existent eșuează din unele dintre aceste aspecte. Un domeniu de fricțiune deosebită înconjoară problema confidențialității și a datelor personale. Legea a rămas în urmă atât cu creșterea utilizării datelor cu caracter personal, cât și cu evoluțiile tehnicilor și statisticilor de anonimizare. Există, de asemenea, o lipsă de standardizare a practicilor de confidențialitate dincolo de granițele jurisdicționale. Aceste deficiențe se reflectă într-un răspuns oarecum fragmentat la problemele legate de datele cu caracter personal din industrie și încă nu există un standard acceptat pentru modul în care ar trebui tratate astfel de probleme sau chiar care ar trebui să fie definiția adecvată a datelor cu caracter personal. Standardele sau codurile de conduită voluntare, potrivit persoanelor intervievate, ar fi un prim pas bun, având în vedere probabilitatea insolubilă a unei reglementări cu adevărat globale privind confidențialitatea. Germania a fost citată de Tariq Khokhar drept un exemplu pozitiv de țară care oferă protecție puternică a confidențialității, dar face acest lucru într-un mod corect și transparent, care respectă și nevoile comunității de afaceri. Cu toate acestea, mediul de reglementare este în prezent în flux, cu o nouă legislație europeană privind datele la orizont tocmai din cauza unora dintre întrebările ridicate de noile surse de date, iar alte jurisdicții, cum ar fi SUA, au nevoie de actualizare (Pasquale, 2015).

Referințe

Sursa: Ralph Schroeder (2016) Big data business models: Challenges and opportunities, Cogent Social Sciences, 2:1, 1166924, DOI: 10.1080/23311886.2016.1166924, licența CC BY 4.0. Traducere și adaptare de Nicolae Sfetcu

Introducere în Business Intelligence
Introducere în Business Intelligence

Colecția ȘTIINȚA INFORMAȚIEI ”Introducere în Business Intelligence” oferă cititorilor informații cuprinzătoare despre business intelligence, explorând toate aspectele importante ale inteligenței de afaceri în scenariul actual. Subiectele tratate se referă la abordările de bază ale business intelligence. Cartea își propune să … Citeşte mai mult

Nu a fost votat $2,99$4,80 Selectează opțiunile
Tehnologia Blockchain - Bitcoin
Tehnologia Blockchain – Bitcoin

Internetul a schimbat complet lumea, cultura şi obiceiurile oamenilor. După o primă fază caracterizată prin transferul liber al informaţiilor, au apărut preocupările pentru siguranţa comunicaţiilor online şi confidenţialitatea utilizatorilor. Tehnologia blockchain asigură ambele aceste deziderate. Relativ nouă, ea are şansa să producă … Citeşte mai mult

Nu a fost votat $2,99$11,99 Selectează opțiunile
Etica Big Data în cercetare
Etica Big Data în cercetare

Principalele probleme cu care se confruntă oamenii de știință în lucrul cu seturile mari de date (Big Data), evidențiind principale aspecte etice, luând în considerare inclusiv legislația din Uniunea Europeană. După o scurtă Introducere despre Big Data, secțiunea Tehnologia prezintă … Citeşte mai mult

Nu a fost votat $0,00$2,35 Selectează opțiunile

Lasă un răspuns

Adresa ta de email nu va fi publicată.