Home » Articole » RO » Afaceri » Știința datelor (Data Science) » Provocări ale megadatelor (Big Data) în afaceri

Provocări ale megadatelor (Big Data) în afaceri

Încercările oamenilor de știință și ale liderilor din industrie de a studia și conceptualiza beneficiile (potențiale) ale unei economii de date mari au fost împiedicate de dificultățile în definirea datelor mari. Într-adevăr, dacă acest concept urmează să fie definit prin „mărimea” sa, mulți ar spune că dimensiunea unui set de date există de obicei pe un continuum fără un prag evident de calificare. Dr. Boris Mouzykantskii, fondator și CEO al IPONWEB, a remarcat: „Nu cred că cineva mai vorbește despre date mici… toate datele sunt acum megadate.”

Mai concret, definițiile propuse ar putea fi clasificate, în linii mari, în abordări absolute și relative. Definițiile absolute stabilesc un set de criterii pe care orice activitate de colectare sau analiză a datelor trebuie să le îndeplinească pentru a fi clasificată ca megadate. Această abordare este caracterizată de o pereche de studii realizate de Gartner, firma de consultanță și firma de IT IBM (Schroeck et al., 2012). Aceste studii definesc în comun big data în termeni de patru V: volum, viteză, varietate și veridicitate. Aceste patru dimensiuni, respectiv, țin cont de cantitatea de date generate sau procesate, viteza sau frecvența cu care sunt înregistrate și analizate, gama de surse și tipuri de date (de exemplu, demografice, textuale, geografice, imagine etc.) care sunt reunite, și fiabilitatea cu care sunt efectuate măsurătorile și sunt capturate datele. Această abordare este binecunoscută în comunitatea de afaceri și un număr din intervievați s-au referit la una sau mai multe dintre aceste dimensiuni în descrierea naturii activității lor cu datele. Abordarea absolută, totuși, are o serie de dezavantaje. În primul rând, problema pragului rămâne. Deși poate exista un consens că big data implică frecvent volume mari de date de mare viteză, rămâne neclar care sunt exact volumul și frecvența minime. Selectarea unei limite pentru varietate și veridicitate este și mai problematică, având în vedere că aceste dimensiuni nu sunt ușor cuantificabile. În al doilea rând, rămâne neclar cum trebuie să fie clasificate datele care îndeplinesc parțial aceste criterii. De exemplu, ar trebui considerate megadate volume mari de date care prezintă o varietate, viteză sau veritate redusă? Dar datele fiabile (veridicitate ridicată) care există doar în volume mici?

O a treia problemă a abordării absolute este că ignoră natura dinamică a mediului tehnologic în care sunt utilizate megadatele. Cu puțin mai mult de un deceniu în urmă, un set de date de cinci gigabyte ar fi depășit capacitățile de calcul și de stocare ale majorității computerelor desktop și, prin urmare, ar fi putut fi văzut ca satisfacând criteriul de volum. În 2014, totuși, stocarea și procesarea unui set de date de această dimensiune este în esență banală. Într-adevăr, ca răspuns la sondajul IBM (2012), peste jumătate dintre profesioniștii din IT și afaceri au descris volumul de date mari ca între un terabyte și un petabyte. Acest lucru sugerează o paradigmă de definiție alternativă în care datele mari nu sunt definite în termeni absoluti, ci mai degrabă în raport cu capacitatea tehnologică și analitică dominantă a zilei. Semnificația megadatelor, atunci, se schimbă odată cu capacitatea noastră de a le gestiona.

Deși mulți dintre intervievați au vorbit în ceea ce privește volumul, viteza, varietatea sau veridicitatea datelor lor, viziunea lor mai largă asupra megadatelor și a rolului lor în afaceri pare a fi de natură mai relativă. Dr. Phil Mui, Chief Product and Engineering Officer la Acxiom, de exemplu, a definit big data cu referire la „metodele de acces și tehnologiile de manipulare pentru a înțelege datele”, în timp ce Chris Nott, Chief Technology Officer Big Data și Analytics la IBM UK, descrie megadatele ca o „evoluție a capacității”. Într-adevăr, pare să existe o viziune destul de răspândită conform căreia întreprinderile trec printr-un proces de schimbare care, deși rapid, reprezintă mai degrabă o evoluție decât o revoluție. Mulți dintre intervievații noștri au considerat că principalele oportunități create de big data provin din creșterea dimensiunii, vitezei sau acurateții proceselor existente, mai degrabă decât din activitățile fundamental noi. După cum descrie Basem Nayfeh, Chief Technology Officer la Audience Science: „Adevărata schimbare este procesarea. Este abilitatea de a captura și stoca și apoi de a discuta datele și de a reveni cu un anumit răspuns într-un interval de timp rezonabil”. Acest sentiment s-a reflectat și în accentul pe care respondenții l-au pus pe dimensiunea de reducere a costurilor progresului tehnologic în acest domeniu. Boris Mouzykantskii a descris procesul astfel: „Cantitatea de date care ar putea fi accesată […] la un preț rezonabil devine din ce în ce mai mare.” Acolo unde au apărut oportunități cu adevărat noi, firmele par să fie implicate într-un proces continuu de experimentare. Nigel Davis de la Willis Group, de exemplu, a remarcat „Învățăm [încă] despre valoarea potențială a unora dintre sursele de date mai noi cum ar fi rețelele sociale și alte fluxuri de date pentru diferite domenii ale afacerii noastre.”

În ciuda acestui optimism rezervat, experții au identificat o serie de moduri în care big data și tehnologiile de procesare aferente au avut un impact clar calitativ asupra a ceea ce sunt capabile să realizeze. Multe dintre aceste progrese sunt legate de capacitatea de a lega diferite seturi de date într-o singură analiză. În trecut, datele erau adesea în siloz – colectate și analizate pentru un singur scop, din cauza costurilor de stocare și testare a modelelor. Acest lucru s-a schimbat acum. Mark Elliot de la Centrul pentru Census and Survey Research de la Universitatea din Manchester spune că „lucru care schimbă totul pentru mine este faptul că există legături. Există legături între date și există legături între date și persoane. Deci legătura dintre noi și datele noastre este mult mai strânsă și devine din ce în ce mai strânsă”. Reuniunea de seturi mari de date permite potriviri și conexiuni care nu erau posibile anterior. Legăturile dintre, de exemplu, datele meteorologice și imaginile din satelit pentru modelarea catastrofală efectuată de Willis Group, sau comportamentele de cumpărare online și offline efectuate de Tesco, pot permite companiilor să ia decizii mai bine informate.

O a doua practică importantă făcută posibilă de noile capacități tehnologice este predicția mai puternică. Paul Malyon de la Experian spune că „diferența principală dintre megadate și analiza standard de date pe care am făcut-o întotdeauna în trecut este că megadatele ne permite să prezicem comportamentul. De asemenea, prezicem evenimente pe baza a o mulțime de surse de date pe care acum le putem combina în moduri în care nu puteam înainte”. Predicția nu este un fenomen nou pentru comerț, dar diferența cu big data este metoda de predicție. Metodele tradiționale au subliniat „de ce-ul” comportamentelor sau fenomenelor — de ex. de ce se vând mai multe unități de cafea într-o regiune față de alta. Răspunsul a fost apoi folosit pentru a prezice ce se va întâmpla în continuare. Aceasta reprezintă o abordare „prioritară” pentru analiza datelor. Au fost folosite cantități relativ mici de date pentru a construi o înțelegere teoretică a procesului sau comportamentului de bază, care ar putea servi drept bază pentru predicție.

Big Data a adus o schimbare, deoarece volumele și varietatea datelor înseamnă adesea că predicția poate fi decuplată de înțelegerea proceselor conceptuale subiacente (Mayer-Schonberger & Cukier, 2013). În schimb, modelele ezoterice din date pot fi folosite pentru a prognoza viitorul fără niciun motiv intuitiv sau evident pentru care predicția ar trebui să funcționeze așa cum funcționează. De exemplu, Google a descoperit că a putut prognoza epidemiile de gripă înaintea indicatorilor oficiali doar analizând traficul pentru un subset de cuvinte cheie de căutare (Ginsberg și colab., 2009). Aceste cuvinte cheie au fost alese mai degrabă pentru corelarea cu variabila de interes decât pentru conținutul lor semantic. Acest tip de predicție vine cu riscuri: fără a înțelege mecanismul de bază, predicțiile sunt vulnerabile la modificări ale structurii de bază a comportamentului sau ale mediului care fac modelul implicit invalid. Eșecurile recente în predicția Google privind gripa (Lazer, Kennedy, King și Vespignani, 2014) sunt un exemplu și evidențiază, de asemenea, lipsa generală de transparență cu privire la modul în care au fost culese datele, ceea ce reprezintă o barieră în calea reproducbilității. (Se poate adăuga că acest obstacol nu este de nedepășit: un studiu ulterior folosind Wikipedia pentru a prezice gripa și alte boli a fost atât mai puternic și este deschis pentru replicare, deoarece sursa de date este deschisă; vezi Generous, Fairchild, Deshpande, Del Valle și Priedhorsky, 2014).

În concluzie, opinia generală a experților a fost că utilizarea sporită a datelor are un impact pozitiv asupra sectorului lor. Cu toate acestea, mulți lideri de afaceri nu văd „big data” ca un fenomen nou. Mai degrabă, este perceput ca fiind o continuare a unui proces prin care companiile caută un avantaj competitiv sau eficiență prin aplicarea științei și tehnologiei (date). Ceea ce este nou este domeniul de oportunitate oferit de big data, împreună cu rentabilitatea pentru afacerile de toate dimensiunile.

Trebuie subliniat faptul că o constatare consecventă în interviuri a fost rolul crucial pe care datele deschise, adesea furnizate de guverne sau de grupurile societății civile, îl joacă în facilitarea acestor noi oportunități. Potrivit lui Tariq Khokhar, cercetător de date la Banca Mondială, „Unul dintre cei mai mari furnizori și creatori de date administrative este guvernul”. Paul Maylon a explicat că „Folosim adesea datele deschise ca element de bază sau temelia de bază pe care punem alte surse de date”. În general, a devenit rapid evident că datele deschise, în special din surse publice, sunt absolut fundamentale pentru multe dintre noile oportunități economice create prin utilizarea intensivă a datelor în afaceri. Există, de asemenea, dovezi că acest rol important este recunoscut de furnizorii de date deschise: Jeanne Holm, Evangelist la Data.gov, portalul de date deschise al guvernului SUA, conatata că „Observăm un întreg sector care urmărește creșterea serviciilor tradiționale cu date deschise pentru a crea fie servicii noi, fie servicii mai inteligente în cadrul unei companii”. În mod similar, Susan Bateman, șefa de știință a datelor la Biroul Cabinetului din Regatul Unit, raportează că o prioritate pentru echipa ei este să se gândească la modalități de a face datele mai relevante pentru companii.

Câțiva dintre intervievați au exprimat nevoia de prudență în acceptarea promisiunilor datelor sau încurajarea altora să facă acest lucru. În primul rând, datele, ca orice resursă, au un cost asociat și aceste costuri nu trebuie subestimate. Chiar dacă costurile pentru stocarea datelor au scăzut, ele trebuie să fie echilibrate cu beneficiile și valoarea. Există o credință predominantă că mai multe date sunt întotdeauna mai bune, permițând o analiză predictivă îmbunătățită. Jeremy Barnes, co-fondator și director de tehnologie al Datacratic, contestă această noțiune, întrebând „Valoarea de a avea acel bit suplimentar de informații merită prețul pe care îl vei plăti pentru el?” În general, valoarea este o preocupare constantă în rândul experților, cu toate acestea, modul în care sunt evaluate și extrase datele variază pentru fiecare sector. Strategia și scopul comercial sunt considerate factori determinanți ai cât de valoroase sunt anumite seturi de date pentru o companie.

În al doilea rând, beneficiile megadatelor – atât de popularizate de media – nu ar trebui să fie supraevaluate. Boris Mouzykantskii afirmă că, în adevăr, analiza este încă departe de a prezice comportamente sau de a adapta reclamele la un individ cu un grad ideal de acuratețe și personalizare. Publicitatea personalizată, de exemplu, se bazează în continuare pe tehnici euristice, cum ar fi segmentarea – clasificarea a comportamentelor prezise ale oamenilor pe baza comportamentelor agregate ale altora cu comportamente similare de cumpărare sau de vizionare. Mouzykantskii remarcă: „Industria online s-a împușcat în picior. Practic și-au supraexagerat capacitatea de a învăța din date”.

În al treilea rând, chiar și forma relativ ușoară de segmentare a publicului la care face referire Mouzykantskii poate părea deja invazivă pentru unii, iar societatea este încă în proces de stabilire a limitelor modului și când pot fi colectate și utilizate datele cu caracter personal. Simon Thompson de la ESRI ilustrează acest punct cu un exemplu acum infam. În 2012, Target, un comerciant cu amănuntul din SUA de produse alimentare și bunuri pentru casă, a trimis cupoane pentru haine și pătuțuri pentru bebeluși unei fete de 15 ani, căreia i-a prezis cu succes sarcina înainte ca familia ei să știe. Acest incident a fost folosit pe scară largă ca un exemplu al modului în care a devenit invazivă analiza datelor. Într-o întorsătură ironică, așa cum subliniază Thompson, cazul Target arată, de asemenea, cât de departe trebuie să meargă analiza datelor: sistemul de analiză al Target, evident, nu cunoștea vârsta fetei. Un caz mai recent de invazie este experimentul de „contagiune emoțională” de pe Facebook, efectuat pe mai mult de 700.000 de utilizatori Facebook, fără știrea lor, prin schimbarea cuvintelor din fluxul de știri pentru a vedea dacă ar reacționa pozitiv sau negativ (Kramer, Guillory și Hancock, 2014). Acest studiu a ridicat nu doar probleme de etică a cercetării, ci și întrebări mai ample despre dacă acest tip de cercetare poate condiționa oamenii.

Merită să semnalăm problema nu doar a predicției și condiționării oamenilor, ci și a relației dintre cercetătorii academicieni, pe de o parte, și, pe de altă parte, cercetătorii și datele de la utilizatorii din sectorul privat. (în acest caz, Facebook): (studiul este discutat în Schroeder, 2014) relevanța pentru modelele de afaceri este că a existat un protest public considerabil (BBC, 2014; Guardian, 2014a, 2014b) și o dezbatere între cercetători (Grimmelman, 2014; Schneier, 2015) care este încă în desfășurare. Se poate menționa că cercetătorii se aflau în două tabere: unii au susținut că restricționarea acestei cercetări în rândul cadrelor universitare ar conduce numai la subteran, pentru a fi urmărită în cadrul companiilor private, fără a o face deschisă controlului public (Meyer, 2014). Alții (Schroeder, 2014) au susținut că transparența și replicabilitatea sunt importante pentru știință și că problemele mai mari legate de utilizarea datelor mari pentru a modela comportamentul merită o dezbatere mai amplă.

Referințe

  • BBC. (2014). Facebook faces UK probe over emotion study. Retrieved from online news website: http://www.bbc. co.uk/news/technology-28102550
  • Beniger, J. (1986). The control revolution: Technological and economic origins of the information society. Cambridge, MA: Harvard University Press.
  • Borgman, C. (2014). Big data, little data and beyond. Cambridge, MA: MIT Press.
  • Boyd, D., & Crawford, K. (2012). Critical questions for big data. Information, Communication and Society, 15, 662–679. http://dx.doi.org/10.1080/1369118X.2012.678878
  • Brown, I., & Marsden, C. (2013). Regulating code: Good governance and better regulation in the information age. Cambridge, MA: MIT Press.
  • Brynjolfsson, E., Hitt, L., & Heekyung, K. (2011). Strength in numbers: How does data-driven decision making affect firm performance? Retrieved from http://papers.ssrn.com/ sol3/papers.cfm?abstract_id=1819486
  • Bulger, M., Taylor, G., & Schroeder, R. (2014). Engaging complexity: Challenges and opportunities of big data. London: NEMODE. Retrieved from http://www.oii.ox.ac.uk/ research/projects/?id=113
  • Clarke, A., & Margetts, H. (2014). Governments and citizens getting to know each other? Open, closed, and big data in public management reform. Policy & Internet, 6, 393–417. http://dx.doi.org/10.1002/poi3.v6.4
  • Cowls, J., & Schroeder, R. (2015). Causation, correlation, and big data in social science research. Policy & Internet, 7, 447–472. doi:10.1002/poi3.100
  • Eagle, N., & Greene, K. (2014). Reality mining: Using big data to engineer a better world. Cambridge, MA: MIT Press.
  • Einav, L., & Levin, J. (2014). Economics in the age of big data. Science, 346, 715.
  • Ekbia, H., Mattioli, M., Kouper, I., Arave, G., Ghazinejad, A., Bowman, T., … Sugimoto, C. R. (2015). Big data, bigger dilemmas: A critical review. Journal of the Association for Information Science and Technology, 66, 1523–1545. http://dx.doi.org/10.1002/asi.2015.66.issue-8
  • Generous, N., Fairchild, G., Deshpande, A., Del Valle, S. Y., & Priedhorsky, R. (2014). Global disease monitoring and forecasting with Wikipedia. PLoS Computational Biology, 10, e1003892. http://dx.doi.org/10.1371/journal.pcbi.1003892
  • George, G., Haas, M. R., & Pentland, A. (2014). Big data and management. Academy of Management Journal, 57, 321–326. http://dx.doi.org/10.5465/amj.2014.4002
  • Ginsberg, J., Mohebbi, M. H., Patel, R. S., Brammer, L., Smolinski, M. S., & Brilliant, L. (2009). Detecting influenza epidemics using search engine query data. Nature, 457, 1012–1014. http://dx.doi.org/10.1038/nature07634
  • González-Bailón, S., Wang, N., Rivero, A., Borge-Holthoefer, J., & Moreno, Y. (2014). Assessing the bias in samples of large online networks. Social Networks, 38, 16–27. http://dx.doi.org/10.1016/j.socnet.2014.01.004
  • Greenleaf, G. (2012). Global data privacy laws: 89 countries, and accelerating (Research Paper No. 98/2012). London: Queen Mary University of London, School of Law Legal Studies.
  • Greenleaf, G. (2013). Data protection in a globalised network. In I. Brown (Ed.), Research handbook on governance of the internet (pp. 221–259). Cheltenham: Edward Elgar. http://dx.doi.org/10.4337/9781849805049
  • Grimmelman, J. (2014). Personal website, with sources for the facebook emotional manipulation study. Retrieved from http://laboratorium.net/archive/2014/06/30/ the_facebook_emotional_manipulation_study_source
  • Guardian. (2014a, July 1). Facebook’s ‘experiment’ was socially irresponsible (newspaper). Retrieved from http://www.theguardian.com/technology/2014/jul/01/ facebook-socially-irresponsible
  • Guardian. (2014b, July 2). Facebook apologises for psychological experiments on users (newspaper). Retrieved from http://www.theguardian.com/technology/2014/jul/02/ facebook-apologises-psychological-experiments-on-users
  • Kitchin, R. (2014). The data revolution. London: Sage.
  • Kramer, A., Guillory, J., & Hancock, J. (2014). Experimental evidence of massive-scale emotional contagion through social networks. Proceedings of the National Academy of Sciences, 111, 8788–8790. http://dx.doi.org/10.1073/pnas.1320040111
  • Lane, J., & Stodden, V. (Eds.). (2014). Privacy, big data, and the public good: Frameworks for engagement. Cambridge: Cambridge University Press.
  • Lazer, D., Kennedy, R., King, G., & Vespignani, A. (2014). The parable of Google flu: Traps in big data analysis. Science, 343, 1203–1205. http://dx.doi.org/10.1126/science.1248506
  • Manyika, J., Chui, M., Brown, B., Bughin, J., Dobbs, R., Roxburgh, C., & Hung Byers, A. (2011). Big data: The next frontier for innovation, competition, and productivity. Washington, DC: McKinsey Global Institute. Retrieved from http:// www.mckinsey.com/insights/business_technology/ big_data_the_next_frontier_for_innovation
  • Mayer-Schönberger, V., & Cukier, K. (2013). Big data: A revolution that will transform how we live, work, and think. New York, NY: Houghton Mifflin Harcourt.
  • Meyer, M. (2014). Misjudgements will drive social trials underground. Nature, 511, 265.
  • Pasquale, F. (2015). The black box society. Cambridge, MA: Harvard University Press. http://dx.doi.org/10.4159/harvard.9780674736061
  • Pentland, S. (2014). Social physics: How good ideas spread: The lessons from a new science. London: Penguin.
  • Reimsbach-Kounatze, C. (2015). The proliferation of “big data” and implications for official statistics and statistical agencies: A preliminary analysis (OECD Digital Economy Papers, No. 245). Paris: OECD. http://dx.doi.org/10.1787/5js7t9wqzvg8-en
  • Rule, J. (2007). Privacy in peril: How we are sacrificing a fundamental right in exchange for security and convenience (Part IV). New York, NY: Oxford University Press.
  • Savage, M., & Burrows, R. (2007). The coming crisis of empirical sociology. Sociology, 41, 885–899. http://dx.doi.org/10.1177/0038038507080443
  • Savage, M., & Burrows, R. (2009). Some further reflections on the coming crisis of empirical sociology. Sociology, 43, 762–772. http://dx.doi.org/10.1177/0038038509105420
  • Schneier, B. (2015). Data and Goliath. New York, NY: W.W. Norton.
  • Schroeck, M., Shockley, R., Smart, J., Romero-Morales, D., & Tufano, P. (2012). Analytics: The real-world use of big data. London: IBM Global Business Services Business Analytics and Optimisation in collaboration with Säid Business School, University of Oxford. Retrieved from http://www- 935.ibm.com/services/us/gbs/thoughtleadership/ibv-bigdata- at-work.html
  • Schroeder, R. (2014). Big data and the brave new world of social media research. Big Data and Society, 1–11.
  • Taylor, L., & Schroeder, R. (2014). Is bigger better? The emergence of big data as a tool for international development policy. GeoJournal, 80, 503–518. doi:10.1007/s10708-014-9603-5
  • Taylor, L., Schroeder, R., & Meyer, P. (2014). Emerging practices and perspectives on big data analysis in economics: Bigger and better or more of the same? Big Data & Society, 1. doi:10.1177/205395171453687
  • Thomas, R., & McSharry, P. (2015). Big data revolution: What farmers, doctors and insurance agents teach us about discovering big data patterns. Chichester: Wiley.

Sursa: Ralph Schroeder (2016) Big data business models: Challenges and opportunities, Cogent Social Sciences, 2:1, 1166924, DOI: 10.1080/23311886.2016.1166924, licența CC BY 4.0. Traducere și adaptare de Nicolae Sfetcu

Etica Big Data în cercetare
Etica Big Data în cercetare

Principalele probleme cu care se confruntă oamenii de știință în lucrul cu seturile mari de date (Big Data), evidențiind principale aspecte etice, luând în considerare inclusiv legislația din Uniunea Europeană. După o scurtă Introducere despre Big Data, secțiunea Tehnologia prezintă … Citeşte mai mult

Nu a fost votat $0,00$2,35 Selectează opțiunile
Introducere în Business Intelligence
Introducere în Business Intelligence

Colecția ȘTIINȚA INFORMAȚIEI ”Introducere în Business Intelligence” oferă cititorilor informații cuprinzătoare despre business intelligence, explorând toate aspectele importante ale inteligenței de afaceri în scenariul actual. Subiectele tratate se referă la abordările de bază ale business intelligence. Cartea își propune să … Citeşte mai mult

Nu a fost votat $2,99$4,80 Selectează opțiunile
Tehnologia Blockchain - Bitcoin
Tehnologia Blockchain – Bitcoin

Internetul a schimbat complet lumea, cultura şi obiceiurile oamenilor. După o primă fază caracterizată prin transferul liber al informaţiilor, au apărut preocupările pentru siguranţa comunicaţiilor online şi confidenţialitatea utilizatorilor. Tehnologia blockchain asigură ambele aceste deziderate. Relativ nouă, ea are şansa să producă … Citeşte mai mult

Nu a fost votat $2,99$11,99 Selectează opțiunile

Lasă un răspuns

Adresa ta de email nu va fi publicată.