În mod clar, există un număr din ce în ce mai mare de servicii (comerciale) care oferă acces la rețelele sociale (de exemplu, Twitter, Facebook și Wikipedia) și servicii de știri (de exemplu, Thomson Reuters Machine Readable News). Serviciile academice majore echivalente sunt rare.
Tipuri de date
Deși ne concentrăm pe rețelele sociale, cercetătorii găsesc continuu surse de date noi și inovatoare pentru a le reuni și analiza. Prin urmare, atunci când luăm în considerare analiza datelor textuale, ar trebui să luăm în considerare mai multe surse (de exemplu, rețelele sociale, fluxuri RSS, bloguri și știri) completate de date numerice (financiare), date de telecomunicații, date geospațiale și, eventual, date audio și video. Folosirea mai multor surse de date este cu siguranță viitorul analiticii.
În linii mari, datele se împart în:
- Seturi de date istorice — date acumulate și stocate anterior, sociale/știri, financiare și economice.
- Fluxuri în timp real — fluxuri de date în direct de la rețelele sociale transmise în flux real, servicii de știri, schimburi financiare, servicii de telecomunicații, dispozitive GPS și audio.
și în:
- Date brute — date de computer neprocesate direct din sursă care pot conține erori sau pot fi neanalizate.
- Date curățate — corectarea sau eliminarea datelor eronate (parazite) cauzate de disparități, greșeli de tastare, biți lipsă, valori aberante etc.
- Date cu valoare adăugată — date care au fost curățate, analizate, etichetate și îmbunătățite cu cunoștințe.
Formate de date text
Cele mai comune patru formate utilizate pentru a scrie sub formă de text sunt: HTML, XML, JSON și CSV.
- HTML — HyperText Markup Language (HTML), așa cum este bine-cunoscut, este limbajul de marcare pentru paginile web și alte informații care pot fi vizualizate într-un browser web. HTML constă din elemente care includ etichete cuprinse între paranteze unghiulare (de exemplu, <div>), în conținutul paginii web.
- XML — Extensible Markup Language (XML) — limbajul de marcare pentru structurarea datelor textuale folosind <tag>…<\tag> pentru a defini elementele.
- JSON — JavaScript Object Notation (JSON) este un standard deschis bazat pe text, conceput pentru schimbul de date lizibile de către om și este derivat din JavaScript.
- CSV — Un fișier cu valori separate prin virgulă (CSV), conține valorile dintr-un tabel ca o serie de linii de text ASCII organizate astfel încât fiecare valoare de coloană să fie separată prin o virgulă de valoarea coloanei următoare și fiecare rând începe o nouă linie.
Pentru a fi complet, HTML și XML sunt așa-numitele limbaje de marcare (marcare și conținut) care definesc un set de reguli sintactice simple pentru codificarea documentelor într-un format care poate fi citit atât de om, cât și de mașină. Un marcaj cuprinde etichete de început (de exemplu, <tag>), text de conținut și etichete de final (de exemplu, </tag>).
Multe fluxuri de date folosesc JavaScript Object Notation (JSON), formatul ușor de schimb de date, bazat pe un subset al limbajului de programare JavaScript. JSON este un format de text independent de limbă care utilizează convenții care sunt familiare programatorilor din familia C de limbi, inclusiv C, C++, C#, Java, JavaScript, Perl, Python și multe altele. Tipurile de bază ale JSON sunt: Number, String, Boolean, Array (o secvență ordonată de valori, separate prin virgulă și cuprinse între paranteze drepte) și Object (o colecție neordonată de perechi key:value pairs). Formatul JSON este ilustrat în exempolul de mai jos pentru o interogare pe API-ul Twitter pe șirul „UCL”, care returnează două rezultate „text” de la utilizatorul Twitter „uclnews”.
Valorile separate prin virgulă nu sunt un format unic, bine definit, ci se referă mai degrabă la orice fișier text care:
- este text simplu folosind un set de caractere precum ASCII, Unicode sau EBCDIC;
- constă din înregistrări text (de exemplu, o înregistrare pe rând);
- cu înregistrările împărțite în câmpuri separate prin delimitatori (de exemplu, virgulă, punct și virgulă și tab); și
- în cazul în care fiecare înregistrare are aceeași secvență de câmpuri.
(Exemplu de JSON pe Twitter)
{
„page”:1,
„query”:”UCL”,
„results”:[
{
“text”:”UCL comes 4th in the QS World University Rankings. Good eh? http://bit.ly/PlUbsG”,
“date”:”2012-09-11”,
“twitterUser”:”uclnews”
},
{
“text”:”@uclcareers Like it!”,
“date”:”2012-08-07”,
“twitterUser”:”uclnews”
}
],
„results_per_page”:2
}
Sursa: Bogdan Batrinca, Philip C. Treleaven, „Social media analytics: a survey of techniques, tools and platforms„, AI & Soc (2015) 30:89-116 DOI 10.1007/s00146-014-0549-4, Creative Commons Attribution License
Lasă un răspuns