Rețelele sociale sunt definite ca aplicații de internet bazate pe web și pe mobil care permit crearea, accesul și schimbul de conținut generat de utilizatori care este accesibil omniprezent (Kaplan și Haenlein 2010). Pe lângă rețelele sociale (de exemplu, Twitter și Facebook), pentru comoditate, vom folosi termenul „social media” pentru a include și fluxuri RSS, bloguri, wiki-uri și știri, toate generând de obicei text nestructurat și accesibile prin intermediul web. Analitica social media este importantă în special pentru cercetarea în știința socială computațională care investighează întrebări (Lazer și colab. 2009) folosind tehnici cantitative (de exemplu, statistici computaționale, învățarea automată și complexitate) și așa-numitele megadate (big data) pentru extragerea datelor și modelarea prin simulare (Cioffi- Revilla 2010).
Acest lucru a condus la numeroase servicii de date, instrumente și platforme de analiză. Cu toate acestea, această disponibilitate ușoară a datelor din rețelele sociale pentru cercetarea academică se poate schimba semnificativ din cauza presiunilor comerciale. În plus, instrumentele disponibile cercetătorilor sunt departe de a fi ideale. Acestea fie oferă acces superficial la datele brute, fie (pentru acces nesuperficial) solicită cercetătorilor să programeze analitice într-un limbaj precum Java.
Terminologie
Definițiile unora dintre tehnicile cheie legate de analiza datelor textuale nestructurate:
- Procesarea limbajului natural — (natural language processing, NLP) este un domeniu de informatică, inteligență artificială și lingvistică preocupat de interacțiunile dintre computere și limbajele umane (naturale). Mai exact, este procesul unui computer care extrage informații semnificative din intrarea în limbaj natural și/sau produce ieșiri în limbaj natural.
- Analitica știrilor — măsurarea diferitelor atribute calitative și cantitative ale știrilor (date nestructurate). Unele dintre aceste atribute sunt: sentimentul, relevanța și noutatea.
- Mineritul opiniilor — mineritul opiniei (mineritul sentimentelor, extracția opiniei/sentimentului) este domeniul de cercetare care încearcă să creeze sisteme automate pentru a determina opinia umană din text scris în limbaj natural.
- Scraping—colectarea de date online de pe rețelele sociale și alte site-uri web sub formă de text nestructurat și cunoscută și sub denumirea de site scraping, recoltare web și extragere de date web.
- Analiza sentimentelor — analiza sentimentelor se referă la aplicarea procesării limbajului natural, a lingvisticii computaționale și a analizei de text pentru a identifica și extrage informații subiective din materialele sursă.
- Analitica textelor — implică extragerea informațiilor (information retrieval, IR), analiza lexicală pentru a studia distribuțiile de frecvență a cuvintelor, recunoașterea modelelor, etichetarea/adnotarea, extragerea informațiilor, tehnicile de minerit a datelor, inclusiv analiza de legături și asocieri, vizualizare și analitica predictivă.
Provocări în cercetare
Scraping și analitica rețelelor sociale oferă o sursă bogată de provocări de cercetare academică pentru oamenii din științe sociale, informaticieni și organismele de finanțare. Provocările includ:
- Scraping — deși datele din rețelele sociale sunt accesibile prin intermediul API-urilor, din cauza valorii comerciale a datelor, majoritatea surselor majore, cum ar fi Facebook și Google, fac din ce în ce mai dificil pentru cadrele universitare să obțină acces complet la datele lor „brute”; foarte puține surse de date sociale oferă date la prețuri accesibile mediului academic și cercetătorilor. Serviciile de știri cum ar fi Thomson Reuters și Bloomberg percep de obicei o sumă pentru accesul la datele lor. În schimb, Twitter a anunțat recent programul Twitter Data Grants, în care cercetătorii pot aplica pentru a obține acces la tweet-urile publice și datele istorice ale lui Twitter pentru a obține informații din setul său masiv de date (Twitter are mai mult de 500 de milioane de tweet-uri pe zi).
- Curățirea datelor — curățarea datelor textuale nestructurate (de exemplu, normalizarea textului), în special a datelor transmise în flux de înaltă frecvență în timp real, prezintă încă numeroase probleme și provocări de cercetare.
- Surse de date holistice — cercetătorii reunesc și combină din ce în ce mai mult surse de date noi: date de pe rețelele sociale, date de piață și clienți în timp real și date geospațiale pentru analiză.
- Protecția datelor — odată ce ați creat o resursă de „megadate” (”big data”), datele trebuie securizate, problemele de proprietate și de IP rezolvate (adică, stocarea datelor extrase este împotriva majorității termenilor de serviciu ai editorilor), iar utilizatorii să aibă la dispoziție diferite niveluri de acces; în caz contrar, utilizatorii pot încerca să „sugă” toate datele valoroase din baza de date.
- Analitica datelor — analiza sofisticată a datelor din rețelele sociale pentru mineritul opiniilor (de exemplu, analiza sentimentelor) ridică încă o multitudine de provocări din cauza limbilor străine, cuvintelor străine, argoului, erorilor de ortografie și evoluției naturale a limbilor.
- Tablouri de bord pentru analitica — multe platforme de rețele sociale impun utilizatorilor să scrie API-uri pentru a accesa fluxuri sau modele de analitica programelor într-un limbaj de programare, cum ar fi Java. Deși sunt rezonabile pentru informaticieni, aceste abilități depășesc de obicei majoritatea cercetătorilor (științe sociale). Sunt necesare interfețe care nu sunt de programare pentru a oferi ceea ce s-ar putea numi acces „profund” la datele „brute”, de exemplu, configurarea API-urilor, îmbinarea fluxurilor de rețele sociale, combinarea surselor holistice și dezvoltarea modelelor analitice.
- Vizualizarea datelor — reprezentare vizuală a datelor prin care informațiile care au fost extrase într-o formă schematică cu scopul de a comunica informațiile în mod clar și eficient prin mijloace grafice. Având în vedere amploarea datelor implicate, vizualizarea devine din ce în ce mai importantă.
Cercetare și aplicații în rețelele sociale
Datele din rețelele sociale sunt în mod clar cea mai mare, mai bogată și mai dinamică bază de înregistrări ale comportamentului uman, aducând noi oportunități de a înțelege indivizii, grupurile și societatea. Oamenii de știință inovatori și profesioniștii din industrie găsesc din ce în ce mai multe modalități noi de a colecta, combina și analiza automat această bogăție de date. Desigur, a face dreptate acestor aplicații de rețele sociale de pionierat în câteva paragrafe este o provocare. Trei domenii ilustrative sunt: afaceri, bioștiințe și științe sociale.
Primii care au adoptat analiza rețelelor sociale de afaceri au fost de obicei companii din retail și finanțe. Companiile de retail folosesc rețelele sociale pentru a-și valorifica gradul de cunoaștere a mărcii, îmbunătățirea produselor/serviciului pentru clienți, strategiile de publicitate/ marketing, analiza structurii rețelei, propagarea știrilor și chiar detectarea fraudei. În finanțe, rețelele de socializare sunt folosite pentru a măsura sentimentul pieței, iar datele de știri sunt folosite pentru tranzacționare. Ca o ilustrare, Bollen et al. (2011) au măsurat sentimentul unui eșantion aleatoriu de date Twitter, constatând că prețurile Dow Jones Industrial Average (DJIA) sunt corelate cu sentimentul Twitter cu 2-3 zile mai devreme, cu o acuratețe de 87,6%. Wolfram (2010) a folosit datele Twitter pentru a antrena un model de regresie vectorială de suport (SVR) pentru a prezice prețurile acțiunilor individuale NASDAQ, găsind un „avantaj semnificativ” pentru estimarea prețurilor 15 minute în viitor.
În bioștiințe, rețelele sociale sunt folosite pentru a colecta date despre cohorte mari pentru inițiative de schimbare a comportamentului și monitorizarea impactului, cum ar fi combaterea fumatului și a obezității sau monitorizarea bolilor. Un exemplu este biologii de la Penn State University (Salathe et al. 2012) care au dezvoltat sisteme și tehnici inovatoare pentru a urmări răspândirea bolilor infecțioase, cu ajutorul site-urilor web de știri, blogurilor și rețelelor sociale.
Aplicațiile computaționale ale științelor sociale includ: monitorizarea răspunsurilor publice la anunțuri, discursuri și evenimente, în special comentarii și inițiative politice; perspective în comportamentul comunității; sondaje pe rețelele sociale ale grupurilor (greu de contactat); detectarea timpurie a evenimentelor emergente, ca în Twitter. De exemplu, Lerman et al. (2008) folosesc lingvistica computațională pentru a prezice automat impactul știrilor asupra percepției publice a candidaților politici. Yessenov și Misailovic (2009) folosesc comentariile de recenzii ale filmelor pentru a studia efectul diverselor abordări în extragerea caracteristicilor textului asupra acurateței a patru metode de învățare automată—Naive Bayes, Decision Trees, Maximum Entropie și K-Means clustering. În cele din urmă, Karabulut (2013) a constatat că Fericirea națională brută (GNH) a Facebook prezintă maxime și minime în concordanță cu evenimentele publice majore din SUA.
Prezentare generală a social media
Grupăm instrumentele de social media în:
- • Date de social media — tipuri de date de social media (de exemplu, rețele sociale, wiki-uri, bloguri, fluxuri RSS și știri etc.) și formate (de exemplu, XML și JSON). Acestea include seturi de date și fluxuri de date în timp real din ce în ce mai importante, cum ar fi date financiare, date despre tranzacțiile clienților, telecomunicații și date spațiale.
- Accesul programatic la social media — servicii de date și instrumente pentru aprovizionarea și colectarea datelor (text) din rețelele sociale, wiki-uri, fluxuri RSS, știri etc. Aceste pot fi subdivizați în mod util în:
- Surse de date, servicii și instrumente — unde datele sunt accesate de instrumente care protejează datele brute sau oferă analize simple. Exemplele includ: Google Trends, SocialMention, SocialPointer și Social-Seek, care oferă un flux de informații care combină diverse fluxuri de social media.
- Fluxuri de date prin intermediul API-urilor — unde seturile și fluxurile de date sunt accesibile prin intermediul API-urilor programabile bazate pe HTTP și datele etichetate return folosind XML sau JSON etc. Exemplele includ Wikipedia, Twitter și Facebook.
- Instrumente pentru curățarea și stocarea textului — instrumente pentru curățarea și stocarea datelor textuale. Google Refine și DataWran-gler sunt exemple pentru curățarea datelor.
- Instrumente de analiză a textului — individual sau biblioteci de instrumente pentru analiza datelor din social media după ce acestea au fost răzuite și curățate. Acestea sunt în principal instrumente de procesare, analiză și clasificare a limbajului natural, care sunt explicate mai jos.
- Instrumente de transformare — instrumente simple care pot transforma datele de intrare textuale în tabele, hărți, diagrame (liniare, circulare, punctuale, bară etc.), cronologie sau chiar mișcare (animație peste cronologie), cum ar fi Google Fusion Tables, Zoho Reports, Tableau Public sau Many Eyes de la IBM.
- Instrumente de analiză — instrumente de analiză mai avansate pentru analiza datelor sociale, identificarea conexiunilor și construirea rețelelor, cum ar fi Gephi (sursă deschisă) sau plugin-ul Excel NodeXL.
- Platforme de social media — medii care oferă date cuprinzătoare de social media și biblioteci de instrumente pentru analitica. Exemplele includ: Thomson Reuters Machine Readable News, Radian 6 și Lexalytics.
- Platforme media de rețele sociale — platforme care oferă analiză și extragere de date pe Twitter, Facebook și o gamă largă de alte surse media de rețele sociale.
- Platforme de știri — platforme precum Thomson Reuters care oferă arhive/feed-uri de știri comerciale și analitice asociate.
Referințe
- ACM Comput Surv CSUR 32(2):144-173 Lazer D et al (2009) Computational social science. Science 323:721-723
- Bollen J, Mao H, Zeng X (2011) Twitter mood predicts the stock market. J Comput Sci 2(3):1-8
- Cioffi-Revilla C (2010) Computational social science. Wiley Inter-discip Rev Comput Statistics 2(3):259-271
- Kaplan AM, Haenlein M (2010) Users of the world, unite! the challenges and opportunities of social media. Bus Horiz 53(1):59-68
- Karabulut Y (2013) Can Facebook predict stock market activity? SSRN eLibrary, pp 1-58. http://ssrn.com/abstract=2017099 or http://dx.doi.org/10.2139/ssrn.2017099. Accessed 2 Feb 2014
- Lerman K, Gilder A, Dredze M, Pereira F (2008) Reading the markets: forecasting public opinion of political candidates by news analysis. In: Proceedings of the 22nd international conference on computational linguistics 1:473-480 MapReduce (2011) What is MapReduce?. http://www.mapreduce.
- Salathe M et al. (2012) Digital epidemiology. PLoS Comput Biol 8(7):1-5
- Wolfram SMA (2010) Modelling the stock market using Twitter. Dissertation Master of Science thesis, School of Informatics,
- Yessenov K, Misailovic S (2009) Sentiment analysis of movie review comments, pp 1-17. http://people.csail.mit.edu/kuat/courses/6. 863/report.pdf. Accessed 16 Aug 2013
Sursa: Bogdan Batrinca, Philip C. Treleaven, „Social media analytics: a survey of techniques, tools and platforms„, AI & Soc (2015) 30:89-116 DOI 10.1007/s00146-014-0549-4
Lasă un răspuns