Home » Articole » RO » Afaceri » Știința datelor (Data Science) » Colectarea și analiza datelor generate în rețelele sociale (Twitter)

Colectarea și analiza datelor generate în rețelele sociale (Twitter)

Colectarea de date

API-urile Twitter (Interfețele de Programare a Aplicațiilor; tehnologiile prin care utilizatorii accesează datele Twitter) permit utilizatorilor să recupereze o serie de entități de date și valori asociate. Prezentăm două abordări pentru colectarea acestor date. În primul rând, căutarea familiară a cuvintelor cheie de interogare, care utilizează entități lingvistice (respectiv cuvinte, hashtag-uri, adrese URL) ca niște criterii pentru compilarea seturilor de date. În al doilea rând, discutăm despre date care constau în cronologiile extinse ale grupurilor de utilizatori – o strategie de urmărire a utilizatorilor. (4)

Captarea datelor determinate semantic (căutări de cuvinte cheie la interogare)

Acest tip de captură de date ia ca punct de plecare conținutul semantic al tweet-urilor utilizatorilor. Prin urmare, procesul de cercetare ar putea începe prin identificarea cuvintelor cheie care sunt probabil să caracterizeze tweet-urile în jurul unui subiect de interes, folosind operatori logici pentru a defini domeniul de aplicare. Datele rezultate au o orientare semantică inerentă în jurul unui subiect, păstrând în același timp un grad de flexibilitate în ceea ce privește cât de exclusivă este interogarea (adică pot include o selecție de termeni alternativi pentru a ține seama de variațiile în modul în care oamenii postează în jurul subiectului).

Captarea datelor determinate de utilizator (urmărirea utilizatorului)

Datele determinate de utilizator sunt organizate în jurul activității Twitter a grupurilor selectate de utilizatori. Aceasta implică identificarea utilizatorilor ale căror tweet-uri sunt relevante pentru o întrebare de cercetare, extragerea cronologiei lor Twitter și selectarea temelor relevante pentru cercetare. Această abordare este utilă pentru proiecte în care o interogare de cuvinte cheie nu este ușor de definit (adică în cazul în care utilizatorii folosesc referințe implicite, informale, colocviale sau generale la zona de interes) sau când există o valoare în înțelegerea rolului unei anumite probleme într-un set mai larg a preocupărilor. Deși le permite cercetătorilor să afle despre ce postează un grup de persoane fără a restrânge domeniul de aplicare a cuvintelor cheie, această strategie oferă totuși o provocare analitică în ceea ce privește diversitatea subiectelor surprinse.

Analiza datelor

În completare cu aceste strategii de colectare a datelor, schițăm două orientări analitice pentru datele Twitter: analiza temporală și analiza corpus. A existat o tendință recentă în aplicarea analiticii vizuale spre reprezentarea modului în care structura actuală evoluează în timp – vezi Cui et al., 2011; Luo și colab., 2012; Marcus și colab., 2011; Rose et al., 2009. Cu toate acestea, considerăm că există valoare în descompunerea structurilor temporale și semantice în vederi distincte, dar coordonate, ale acelorași date. La nivel conceptual, o viziune a datelor bazată pe evenimente dependentă de timp și o viziune bazată pe subiecte care nu depinde de timp a datelor pot fi concepute ca două fețe ale aceleiași monede care reprezintă evoluția subiectului. Facem acest lucru deoarece există întrebări interesante de cercetare în științe sociale despre subiecte care ar putea să nu necesite o perspectivă asupra modului în care a evoluat un subiect – vedeți, de exemplu, exemplele noastre despre experiențele utilizatorilor cu dispozitive epi-pen și raportarea simptomelor de către bolnavii de fibroză chistică. Acest lucru, susținem, permite cercetătorilor să vadă mai clar posibilitățile fiecărui tip analitic înainte de a lua în considerare cum să le combine cel mai bine. În plus, distincția dintre aceste două abordări nu îi împiedică pe cercetători să exploreze evoluția subiectului în trecerea de la o strategie metodologică la alta – de fapt, încurajăm acest lucru ca parte a naturii iterative a analiticii vizuale ca metodologie a științelor sociale.

Având în vedere preocuparea noastră de a afișa modul în care instrumentele software devin încorporate în ansamblurile pe care le construim pentru a face vizibile fenomenele sociale, merită să remarcăm câteva diferențe tehnice între Chorus și alte instrumente și abordări (menționate mai sus). În primul rând, spre deosebire de instrumentele mai generale de analiză a textului, cum ar fi Textflow (Cui și colab., 2011), Chorus este special conceput pentru a fi sensibil la exigențele tehnice și contextuale ale lui Twitter, oferind o explorare mai profundă a rolului Twitter în ansamblurile pe care le construim în jurul lui. În al doilea rând, Chorus folosește API-ul de căutare Twitter, mai degrabă decât API-ul său de streaming (cum este cazul cu TwitInfo (Marcus și colab., 2011)), permițând o reamintire mai cuprinzătoare a datelor despre anumite subiecte. În al treilea rând, explorarea tweet-urilor și cronologiei utilizatorilor cu vizualizările specifice (de grup) spațial-semantice ale lui Chorus facilitează posibilități analitice unice care nu sunt oferite de alte instrumente de analiză Twitter. Aceste caracteristici (și multe altele) situează Chorus ca o alternativă utilă la instrumentele existente, ale căror posibilități sunt demonstrate în exemplele de mai jos.

Analiza temporală (pe bază de evenimente)

Datele Twitter pot fi privite ca o narațiune care se desfășoară în timp. Cercetătorii pot obține perspective din lucruri precum: variația volumului tweet-urilor în jurul locurilor, evoluția sentimentelor pozitive sau negative pe parcursul unei conversații, modificări ale vocabularului care caracterizează o discuție, modificări ale probabilității ca adresele URL să fie menționate în tweet-uri și așa mai departe. În acest fel, o vizionare cronologică se pretează la explorarea „evenimentelor” pe măsură ce acestea se desfășoară în Twitter.

Analiza corpus (pe baza de subiecte)

În schimb, o analiză corpus se bazează pe o concepție a seturilor de date întregi ca un „spațiu informațional” în care trăsăturile semantice (cuvinte, hashtag-uri etc.) se intersectează în moduri potențial interesante, indiferent de momentul în care sunt exprimate. Cercetătorii pot extrage perspective din explorarea structurilor de actualitate care apar din întregul corp de date, investigând modurile în care cuvintele cheie sunt utilizate împreună pentru a ​​forma teme mai ample. În acest fel, o analiză corpus de vizualizare a datelor Twitter se pretează la explorarea „subiectelor”.

Nota

  1. Mai exact, rutinele de colectare a datelor Chorus se bazează pe următoarele metode din API-ul REST al lui Twitter. Căutările de cuvinte cheie de interogare folosesc GET/search/tweets. Extrtagerile cronologiei utilizatorilor folosesc GET/statuses/user_timeline pentru a furniza tweet-uri, cu metode GET/friends/list și GET/followers/list pentru a construi liste de utilizatori de urmărit (deși Chorus permite utilizatorilor să furnizeze propriile liste de tweetere de urmat) .

Referințe

  • Cui W, Lin S, Tan L, et al. (2011) TextFlow: Towards better understanding of evolving topics in text. IEEE Transactions on Visualization and Computer Graphics 17(2): 2412-2421.
  • Luo D, Yang J, Krstajic M, et al. (2012) EventRiver: Visually exploring text collections with temporal references. IEEE Transactions on Visualization and Computer Graphics 18(1): 93-105.
  • Marcus A, Bernstein MS, Badar O, et al. (2011) TwitInfo: Aggregating and visualizing microblogs for event exploration. In: CHI ‘11 Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, Vancouver, Canada, 7-12 May 2011, pp.227-236. New York, USA: ACM.
  • Rose S, Butner S, Cowley W, et al. (2009) Describing story evolution from dynamic information streams. In: IEEE symposium on visual analytics science and technology, Atlantic City, NJ, USA, 12-13 October 2009, pp.99-106. IEEE.

Sursa: Phillip Brooker, Julie Barnett and Timothy Cribbin, Doing social media analytics, in Big Data & Society, July–December 2016: 1–12, DOI: 10.1177/2053951716658060, bds.sagepub.com CC BY 3.0 license. Traducere și adaptare de Nicolae Sfetcu

© 2021 MultiMedia Publishing, Analitica rețelelor sociale, Volumul 1

Lasă un răspuns

Adresa ta de email nu va fi publicată.