Home » Articole » RO » Afaceri » Știința datelor (Data Science) » Datele din rețelele sociale în studiile analitice

Datele din rețelele sociale în studiile analitice

În mod clar, există un număr din ce în ce mai mare de servicii (comerciale) care oferă acces la rețelele sociale (de exemplu, Twitter, Facebook și Wikipedia) și servicii de știri (de exemplu, Thomson Reuters Machine Readable News). Serviciile academice majore echivalente sunt rare.

Tipuri de date

Deși ne concentrăm pe rețelele sociale, cercetătorii găsesc continuu surse de date noi și inovatoare pentru a le reuni și analiza. Prin urmare, atunci când luăm în considerare analiza datelor textuale, ar trebui să luăm în considerare mai multe surse (de exemplu, rețelele sociale, fluxuri RSS, bloguri și știri) completate de date numerice (financiare), date de telecomunicații, date geospațiale și, eventual, date audio și video. Folosirea mai multor surse de date este cu siguranță viitorul analiticii.

În linii mari, datele se împart în:

  • Seturi de date istorice — date acumulate și stocate anterior, sociale/știri, financiare și economice.
  • Fluxuri în timp real — fluxuri de date în direct de la rețelele sociale transmise în flux real, servicii de știri, schimburi financiare, servicii de telecomunicații, dispozitive GPS și audio.

și în:

  • Date brute — date de computer neprocesate direct din sursă care pot conține erori sau pot fi neanalizate.
  • Date curățate — corectarea sau eliminarea datelor eronate (parazite) cauzate de disparități, greșeli de tastare, biți lipsă, valori aberante etc.
  • Date cu valoare adăugată — date care au fost curățate, analizate, etichetate și îmbunătățite cu cunoștințe.

Formate de date text

Cele mai comune patru formate utilizate pentru a scrie sub formă de text sunt: ​​HTML, XML, JSON și CSV.

  • HTML — HyperText Markup Language (HTML), așa cum este bine-cunoscut, este limbajul de marcare pentru paginile web și alte informații care pot fi vizualizate într-un browser web. HTML constă din elemente care includ etichete cuprinse între paranteze unghiulare (de exemplu, <div>), în conținutul paginii web.
  • XML — Extensible Markup Language (XML) — limbajul de marcare pentru structurarea datelor textuale folosind <tag>…<\tag> pentru a defini elementele.
  • JSON — JavaScript Object Notation (JSON) este un standard deschis bazat pe text, conceput pentru schimbul de date lizibile de către om și este derivat din JavaScript.
  • CSV — Un fișier cu valori separate prin virgulă (CSV), conține valorile dintr-un tabel ca o serie de linii de text ASCII organizate astfel încât fiecare valoare de coloană să fie separată prin o virgulă de valoarea coloanei următoare și fiecare rând începe o nouă linie.

Pentru a fi complet, HTML și XML sunt așa-numitele limbaje de marcare (marcare și conținut) care definesc un set de reguli sintactice simple pentru codificarea documentelor într-un format care poate fi citit atât de om, cât și de mașină. Un marcaj cuprinde etichete de început (de exemplu, <tag>), text de conținut și etichete de final (de exemplu, </tag>).

Multe fluxuri de date folosesc JavaScript Object Notation (JSON), formatul ușor de schimb de date, bazat pe un subset al limbajului de programare JavaScript. JSON este un format de text independent de limbă care utilizează convenții care sunt familiare programatorilor din familia C de limbi, inclusiv C, C++, C#, Java, JavaScript, Perl, Python și multe altele. Tipurile de bază ale JSON sunt: ​​Number, String, Boolean, Array (o secvență ordonată de valori, separate prin virgulă și cuprinse între paranteze drepte) și Object (o colecție neordonată de perechi key:value pairs). Formatul JSON este ilustrat în exempolul de mai jos pentru o interogare pe API-ul Twitter pe șirul „UCL”, care returnează două rezultate „text” de la utilizatorul Twitter „uclnews”.

Valorile separate prin virgulă nu sunt un format unic, bine definit, ci se referă mai degrabă la orice fișier text care:

  1. este text simplu folosind un set de caractere precum ASCII, Unicode sau EBCDIC;
  2. constă din înregistrări text (de exemplu, o înregistrare pe rând);
  3. cu înregistrările împărțite în câmpuri separate prin delimitatori (de exemplu, virgulă, punct și virgulă și tab); și
  4. în cazul în care fiecare înregistrare are aceeași secvență de câmpuri.

(Exemplu de JSON pe Twitter)

{
“page”:1,
“query”:”UCL”,
“results”:[
{
“text”:”UCL comes 4th in the QS World University Rankings. Good eh? http://bit.ly/PlUbsG”,
“date”:”2012-09-11”,
“twitterUser”:”uclnews”
},
{
“text”:”@uclcareers Like it!”,
“date”:”2012-08-07”,
“twitterUser”:”uclnews”
}
],
“results_per_page”:2
}

Sursa: Bogdan Batrinca, Philip C. Treleaven, “Social media analytics: a survey of techniques, tools and platforms“, AI & Soc (2015) 30:89-116 DOI 10.1007/s00146-014-0549-4, Creative Commons Attribution License

Tehnologia Blockchain - Bitcoin
Tehnologia Blockchain – Bitcoin

Internetul a schimbat complet lumea, cultura şi obiceiurile oamenilor. După o primă fază caracterizată prin transferul liber al informaţiilor, au apărut preocupările pentru siguranţa comunicaţiilor online şi confidenţialitatea utilizatorilor. Tehnologia blockchain asigură ambele aceste deziderate. Relativ nouă, ea are şansa să producă … Citeşte mai mult

Nu a fost votat $2,99$11,99 Selectează opțiunile
Etica Big Data în cercetare
Etica Big Data în cercetare

Principalele probleme cu care se confruntă oamenii de știință în lucrul cu seturile mari de date (Big Data), evidențiind principale aspecte etice, luând în considerare inclusiv legislația din Uniunea Europeană. După o scurtă Introducere despre Big Data, secțiunea Tehnologia prezintă … Citeşte mai mult

Nu a fost votat $0,00$2,35 Selectează opțiunile
Lucrul cu baze de date
Lucrul cu baze de date

Colecția ȘTIINȚA INFORMAȚIEI Lucrul cu bazele de date este astăzi printre cele mai căutate abilități IT. Acum puteți obține o bază de plecare în proiectarea și implementarea bazelor de date cu o abordare practică, ușor de înțeles. ”Lucrul cu baze … Citeşte mai mult

Nu a fost votat $3,99$7,99 Selectează opțiunile

Lasă un răspuns

Adresa ta de email nu va fi publicată.