Home » Articole » Articole » Afaceri » Știința datelor (Data Science) » Datele din rețelele sociale în studiile analitice

Datele din rețelele sociale în studiile analitice

În mod clar, există un număr din ce în ce mai mare de servicii (comerciale) care oferă acces la rețelele sociale (de exemplu, Twitter, Facebook și Wikipedia) și servicii de știri (de exemplu, Thomson Reuters Machine Readable News). Serviciile academice majore echivalente sunt rare.

Tipuri de date

Deși ne concentrăm pe rețelele sociale, cercetătorii găsesc continuu surse de date noi și inovatoare pentru a le reuni și analiza. Prin urmare, atunci când luăm în considerare analiza datelor textuale, ar trebui să luăm în considerare mai multe surse (de exemplu, rețelele sociale, fluxuri RSS, bloguri și știri) completate de date numerice (financiare), date de telecomunicații, date geospațiale și, eventual, date audio și video. Folosirea mai multor surse de date este cu siguranță viitorul analiticii.

În linii mari, datele se împart în:

  • Seturi de date istorice — date acumulate și stocate anterior, sociale/știri, financiare și economice.
  • Fluxuri în timp real — fluxuri de date în direct de la rețelele sociale transmise în flux real, servicii de știri, schimburi financiare, servicii de telecomunicații, dispozitive GPS și audio.

și în:

  • Date brute — date de computer neprocesate direct din sursă care pot conține erori sau pot fi neanalizate.
  • Date curățate — corectarea sau eliminarea datelor eronate (parazite) cauzate de disparități, greșeli de tastare, biți lipsă, valori aberante etc.
  • Date cu valoare adăugată — date care au fost curățate, analizate, etichetate și îmbunătățite cu cunoștințe.

Formate de date text

Cele mai comune patru formate utilizate pentru a scrie sub formă de text sunt: ​​HTML, XML, JSON și CSV.

  • HTML — HyperText Markup Language (HTML), așa cum este bine-cunoscut, este limbajul de marcare pentru paginile web și alte informații care pot fi vizualizate într-un browser web. HTML constă din elemente care includ etichete cuprinse între paranteze unghiulare (de exemplu, <div>), în conținutul paginii web.
  • XML — Extensible Markup Language (XML) — limbajul de marcare pentru structurarea datelor textuale folosind <tag>…<\tag> pentru a defini elementele.
  • JSON — JavaScript Object Notation (JSON) este un standard deschis bazat pe text, conceput pentru schimbul de date lizibile de către om și este derivat din JavaScript.
  • CSV — Un fișier cu valori separate prin virgulă (CSV), conține valorile dintr-un tabel ca o serie de linii de text ASCII organizate astfel încât fiecare valoare de coloană să fie separată prin o virgulă de valoarea coloanei următoare și fiecare rând începe o nouă linie.

Pentru a fi complet, HTML și XML sunt așa-numitele limbaje de marcare (marcare și conținut) care definesc un set de reguli sintactice simple pentru codificarea documentelor într-un format care poate fi citit atât de om, cât și de mașină. Un marcaj cuprinde etichete de început (de exemplu, <tag>), text de conținut și etichete de final (de exemplu, </tag>).

Multe fluxuri de date folosesc JavaScript Object Notation (JSON), formatul ușor de schimb de date, bazat pe un subset al limbajului de programare JavaScript. JSON este un format de text independent de limbă care utilizează convenții care sunt familiare programatorilor din familia C de limbi, inclusiv C, C++, C#, Java, JavaScript, Perl, Python și multe altele. Tipurile de bază ale JSON sunt: ​​Number, String, Boolean, Array (o secvență ordonată de valori, separate prin virgulă și cuprinse între paranteze drepte) și Object (o colecție neordonată de perechi key:value pairs). Formatul JSON este ilustrat în exempolul de mai jos pentru o interogare pe API-ul Twitter pe șirul „UCL”, care returnează două rezultate „text” de la utilizatorul Twitter „uclnews”.

Valorile separate prin virgulă nu sunt un format unic, bine definit, ci se referă mai degrabă la orice fișier text care:

  1. este text simplu folosind un set de caractere precum ASCII, Unicode sau EBCDIC;
  2. constă din înregistrări text (de exemplu, o înregistrare pe rând);
  3. cu înregistrările împărțite în câmpuri separate prin delimitatori (de exemplu, virgulă, punct și virgulă și tab); și
  4. în cazul în care fiecare înregistrare are aceeași secvență de câmpuri.

(Exemplu de JSON pe Twitter)

{
„page”:1,
„query”:”UCL”,
„results”:[
{
“text”:”UCL comes 4th in the QS World University Rankings. Good eh? http://bit.ly/PlUbsG”,
“date”:”2012-09-11”,
“twitterUser”:”uclnews”
},
{
“text”:”@uclcareers Like it!”,
“date”:”2012-08-07”,
“twitterUser”:”uclnews”
}
],
„results_per_page”:2
}

Sursa: Bogdan Batrinca, Philip C. Treleaven, „Social media analytics: a survey of techniques, tools and platforms„, AI & Soc (2015) 30:89-116 DOI 10.1007/s00146-014-0549-4, Creative Commons Attribution License

Etica Big Data în cercetare
Etica Big Data în cercetare

Principalele probleme cu care se confruntă oamenii de știință în lucrul cu seturile mari de date (Big Data), evidențiind principale aspecte etice, luând în considerare inclusiv legislația din Uniunea Europeană. După o scurtă Introducere despre Big Data, secțiunea Tehnologia prezintă … Citeşte mai mult

Nu a fost votat 0.00 lei11.36 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Introducere în Business Intelligence
Introducere în Business Intelligence

O resursă esențială pentru toți cei interesați de analiza datelor și de optimizarea proceselor de afaceri.

Nu a fost votat 14.45 lei25.95 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Introducere în inteligența artificială
Introducere în inteligența artificială

Pășește în era digitală pregătit să înțelegi și să aplici conceptele care schimbă lumea!

Nu a fost votat 14.45 lei25.32 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *