Cele două impedimente majore în calea utilizării rețelelor sociale pentru cercetarea academică sunt, în primul rând, accesul la seturi de date cuprinzătoare și, în al doilea rând, instrumente care să permită o analiză „profundă” a datelor fără a fi necesar să se poată programa într-un limbaj precum Java. Majoritatea resurselor rețelelor sociale sunt comerciale, iar companiile încearcă în mod natural să-și monetizeze datele. Este important ca cercetătorii să aibă acces la seturi de date „mari” (rețele sociale) și la facilități pentru experimentare. În caz contrar, cercetarea în rețelele sociale ar putea deveni domeniul exclusiv al marilor companii, agențiilor guvernamentale și al unui set privilegiat de cercetători academicieni cu acces la datele private din care produc lucrări care nu pot fi criticate sau replicate. Există un răspuns modest, deoarece Twitter și Gnip pilotează un program de acces la date, începând cu 5 granturi de date cu acces total pentru selectarea candidaților.
Metodologie
Cerințele de cercetare pot fi grupate în: date, analize și facilități.
Date
Cercetătorii au nevoie de acces online la date istorice și în timp real din rețelele sociale, în special sursele principale, pentru a efectua cercetări de vârf:
- Mediul rețelelor sociale — acces la seturi de date istorice cuprinzătoare și, de asemenea, acces în timp real la surse, eventual cu o întârziere de timp (15 minute), la fel ca în cazul datelor financiare Thomson Reuters și Bloomberg.
- Datele de știri — acces la date istorice și la seturi de date de știri în timp real, eventual prin conceptul de „licențe de date educaționale” (cf. licență software).
- Date publice — acces la date publice importante curățate și arhivate; disponibil prin fluxuri RSS, bloguri sau baze de date guvernamentale deschise.
- Interfețe programabile — cercetătorii au nevoie și de acces la interfețe simple de programare a aplicațiilor (API-uri) pentru a curăța și stoca alte surse de date disponibile care este posibil să nu fie colectate automat.
Analitica
În prezent, datele din rețelele sociale sunt de obicei disponibile fie prin rutine generale simple, fie solicită cercetătorului să-și programeze analizele într-un limbaj precum MAT-LAB, Java sau Python. Cercetătorii au nevoie de:
- Tablouri de bord de analiză — sunt necesare interfețe non-programare pentru a oferi ceea ce ar putea fi denumit acces „profund” la datele „brute”.
- Analiză holistică a datelor — sunt necesare instrumente pentru combinarea (și efectuarea analizelor pe) mai multe rețele sociale și alte seturi de date.
- Vizualizarea datelor — instrumente de vizualizare prin care informațiile care au fost abstratizate pot fi vizualizate într-o formă schematică cu scopul de a comunica informațiile în mod clar și eficient prin mijloace grafice.
Facilități
În cele din urmă, volumul mare de date generate de rețelele sociale susțin crearea de facilități naționale și internaționale pentru a sprijini cercetarea în rețelele sociale (cf. Wharton Research Data Services, https://wrds-web.wharton.upenn.edu):
- Stocarea datelor — volumul de date din rețelele sociale, actual și proiectat, depășește majoritatea universităților individuale și, prin urmare, trebuie abordat la nivel de fundație științifică națională. Stocarea este necesară atât pentru sursele principale de date (de exemplu, Twitter), dar și pentru sursele colectate de proiecte individuale și arhivate pentru utilizare ulterioară de către alți cercetători.
- Facilități de calcul — facilități de calcul accesibile de la distanță sunt, de asemenea, necesare pentru: a) protejarea accesului la datele stocate; b) găzduirea instrumentelor de analiză și vizualizare; și c) furnizarea de resurse de calcul, cum ar fi rețele și GPU-uri necesare pentru procesarea datelor la instalație, mai degrabă decât pentru a le transmite printr-o rețea.
Critica
Trebuie făcut multe pentru a sprijini cercetarea în rețelele sociale. Majoritatea resurselor actuale de rețele sociale sunt comerciale, costisitoare și dificil de obținut pentru cadre universitare.
Date
În general, accesul la surse importante de date din rețelele sociale este adesea restricționat, iar accesul comercial complet este costisitor.
- Date izolate — majoritatea surselor de date (de exemplu, Twitter) au informații în mod inerent izolate, ceea ce face dificilă combinarea cu alte surse de date.
- Date holistice — în schimb, cercetătorii sunt din ce în ce mai interesați să acceseze, să stocheze și să combine surse de date noi: date din rețelele sociale, date în timp real despre piața financiară și despre clienți și date geospațiale pentru analiză. În prezent, acest lucru este extrem de dificil de făcut chiar și pentru departamentele de informatică.
Analitica
Instrumentele analitice oferite de furnizori sunt adesea legate de un singur set de date, poate limitate ca și capacitate analitică, iar taxele de date le fac costisitoare de utilizat.
Facilități
Există un număr tot mai mare de platforme comerciale puternice, cum ar fi cele furnizate de SAS și Thomson Reuters, dar tarifele sunt în mare măsură prohibitive pentru cercetarea academică. Fie facilități comparabile trebuie să fie furnizate de fundațiile științifice naționale, fie furnizorii trebuie să fie convinși să introducă conceptul de „licență educațională”.
Sursa: Bogdan Batrinca, Philip C. Treleaven, „Social media analytics: a survey of techniques, tools and platforms„, AI & Soc (2015) 30:89-116 DOI 10.1007/s00146-014-0549-4
Lasă un răspuns