Home » Articole » RO » Afaceri » Știința datelor (Data Science) » Mediu de calcul experimental pentru rețelele sociale în analitica

Mediu de calcul experimental pentru rețelele sociale în analitica

Cercetătorii au nevoie de un mediu/facilitate de calcul experimentală cuprinzătoare pentru cercetarea rețelelor sociale, cu următoarele atribute:

Date

  • Scraping date — capacitatea prin intermediul API-urilor ușor de programat de a analiza orice tip de social media (rețele sociale, fluxuri RSS, bloguri, wiki-uri, știri etc.).
  • Flux de date — pentru a accesa și a combina fluxuri în timp real și date arhivate pentru analitica.
  • Stocarea datelor — o facilitate majoră pentru stocarea principalelor surse de date și pentru arhivarea datelor colectate pentru proiecte specifice.
  • Protecția/securitatea datelor — datele stocate trebuie protejate pentru a împiedica utilizatorii să încerce să „extragă” din facilitate. Este posibil ca accesul la anumite seturi de date să fie necesar să fie restricționat și se pot percepe taxe pentru acces (cf. Wharton Research Data Services).
  • Interfețe programabile — cercetătorii au nevoie de acces la interfețe simple de programare a aplicațiilor (API) pentru a scana și stoca alte surse de date disponibile care este posibil să nu fie colectate automat.

Analitica

  • Tablouri de bord de analitica — sunt necesare interfețe care nu sunt de programare pentru a oferi ceea ce ar putea fi denumit acces „profund” la datele „brute”.
  • Analitici programabile — sunt necesare și interfețe de programare, astfel încât utilizatorii să poată implementa modele avansate de extragere a datelor și simulare pe computer folosind MAT-LAB, Java și Python.
  • Procesarea fluxului — sunt necesare facilități pentru a sprijini analitica pe fluxurile de date transmise în timp real, cum ar fi fluxurile Twitter, fluxurile de știri și datele financiare.
  • Calcul de înaltă performanță — în sfârșit, mediul trebuie să accepte interfețe care nu sunt de programare pentru MapReduce/Hadoop, bazele de date NoSQL și grile de procesoare.
  • Analitica descentralizată — dacă cercetătorii vor combina datele din rețelele sociale cu date proprietare extrem de sensibile/valoroase deținute de guverne, instituții financiare, comercianți cu amănuntul și alte organizații comerciale, atunci mediul trebuie să susțină în viitor analiza descentralizată în sursele de date distribuite și într-un mod extrem de sigur.

În mod realist, acest lucru este cel mai bine facilitat la nivel național sau internațional.

Pentru a oferi o perspectivă asupra structurii unui mediu de calcul experimental pentru rețelele sociale (analitica), mai jos prezentăm arhitectura de sistem a platformei de analiză UCL SocialSTORM dezvoltată de Dr. Michal Galas și colegii săi (Galas și colab. 2012) la University College London (UCL).

Platforma de streaming, stocare și analiză a rețelelor sociale de la University College London (SocialSTORM) este o platformă „central hub” bazată pe cloud, care facilitează achiziția de date bazate pe text din surse online precum Twitter, Facebook, media RSS și știri. Sistemul include facilități pentru a încărca și a rula modele de simulare codificate Java pentru a analiza datele agregate, care pot cuprinde date sociale scanate și/sau date proprii ale utilizatorilor.

Arhitectura sistemului

Figura prezintă arhitectura platformei SocialSTORM, iar secțiunea următoare prezintă componentele cheie ale întregului sistem. Ideea de bază este că fiecare flux extern are un motor de conectivitate (API) dedicat și acesta transmite date către magistrala de mesaje, care se ocupă de comunicarea internă, analiza și stocarea.

  • Motoare de conectivitate — modulele de conectivitate comunică cu sursele externe de date, inclusiv API-urile Twitter și Facebook, bloguri financiare, diverse RSS și fluxuri de știri. API-urile platformei sunt extinse în mod continuu pentru a încorpora alte surse de rețele sociale, după cum este necesar. Datele sunt introduse în SocialSTORM în timp real, inclusiv un eșantion aleatoriu din toate actualizările publice de pe Twitter, oferind gigaocteți de date bazate pe text în fiecare zi.
  • Magistrala de mesagerie — magistrala de mesaje servește ca strat intern de comunicație care acceptă fluxurile de date (mesaje) primite de la diferitele motoare de conectivitate, le analizează (din formatul JSON sau XML) la o reprezentare internă a datelor în platformă, distribuie informații din toate modulele interesate și scrie diferitele date în tabelele adecvate ale bazei de date principale.
  • Depozitul de date — baza de date acceptă terabytes de intrări bazate pe text, care sunt însoțite de diferite tipuri de metadate pentru a extinde posibilele căi de cercetare. Intrările sunt organizate în funcție de sursă și marcate corect cu ora publicării, precum și etichetate cu subiecte pentru a fi recuperate cu ușurință de către modelele de simulare. Platforma folosește în prezent HBase, dar în viitor ar putea folosi Apache Cassandra sau Hive.

Arhitectura platformei SocialSTORM
(Arhitectura platformei SocialSTORM)

  • Manager de simulare — managerul de simulare oferă un API extern pentru clienți pentru a interacționa cu datele în scopuri de cercetare, inclusiv o interfață grafică bazată pe web, prin care utilizatorii pot selecta diferite filtre pentru a le aplica seturilor de date înainte de a încărca un model de simulare codat Java pentru a performa analiza dorită asupra datelor. Acest lucru facilitează accesul tuturor clienților la depozitul de date și, de asemenea, permite utilizatorilor să își încarce propriile seturi de date pentru agregarea cu datele sociale ale UCL pentru o anumită simulare. Există, de asemenea, opțiunea de a comuta între modul istoric (care minează datele existente la momentul începerii simulării) și modul live (care „ascultă” fluxurile de date primite și efectuează analize în timp real).

Componentele platformei

Platforma cuprinde următoarele module, care sunt ilustrate în Figura de mai jos

  • Servicii de back-end — acestea oferă nucleul funcționalităților platformei. Este un set de servicii care permit conexiuni cu furnizorii de date, procesarea de propagare și agregarea fluxurilor de date, execuția și întreținerea modelelor, precum și gestionarea acestora într-un mediu multiutilizator.
  • API-uri client front-end — acestea oferă un set de interfețe programatice și grafice care pot fi utilizate pentru a interacționa cu o platformă pentru a implementa și a testa modele analitice. Accesul programatic oferă șabloane de model pentru a simplifica accesul la unele dintre funcționalități și definește structura generală a fiecărui model din platformă. Interfața grafică cu utilizatorul permite gestionarea vizuală a modelelor analitice. Acesta permite utilizatorului să vizualizeze datele în diverse forme, oferă capabilități de grilă de urmărire a datelor, oferă o vizualizare dinamică a comportamentului grupului de date și permite utilizatorilor să observe informații despre evenimente relevante pentru mediul utilizatorului.
  • Motor de conectivitate — această funcționalitate oferă un mijloc de comunicare cu lumea exterioară, cu brokerii financiari, furnizorii de date și alții. Fiecare dintre locațiile exterioare utilizate de platformă are un obiect conector dedicat responsabil de controlul comunicării. Acest lucru este posibil datorită faptului că fiecare dintre instituțiile exterioare furnizează fie un API dedicat, fie folosește un protocol de comunicare (de exemplu, protocolul FIX și protocolul bazat pe JSON/XML). Platforma oferă o interfață generalizată pentru a permite standardizarea unei varietăți de conectori.
  • Stratul de comunicare internă — ideea din spatele utilizării sistemului de mesagerie internă în platformă se bazează pe conceptul de programare bazată pe evenimente. Platformele analitice folosesc evenimentele ca mijloc principal de comunicare între elementele lor. Elementele, la rândul lor, sunt fie producători, fie consumatori ai evenimentelor. Abordarea simplifică semnificativ arhitectura unui astfel de sistem, făcându-l în același timp scalabil și flexibil pentru alte extensii.
  • Baza de date de agregare — aceasta oferă o funcționalitate SGBD rapidă și robustă, pentru o agregare entry-level a datelor, care sunt apoi filtrate, îmbogățite, restructurate și stocate în facilități de date mari. Facilitățile de agregare permit platformelor analitice să stocheze, să extragă și să manipuleze cantități mari de date. Capacitățile de stocare ale elementului de agregare nu numai că permit reluarea datelor istorice în scopuri de modelare, dar permit și alte sarcini mai sofisticate legate de funcționarea platformei, inclusiv analiza riscului modelului, evaluarea performanței modelelor și multe altele.

Arhitectura sistemului de mediu și module
(Arhitectura sistemului de mediu și module)

  • Client SDK — acesta este un set complet de API-uri (Application Programming Interfaces) care permit dezvoltarea, implementarea și testarea de noi modele analitice cu utilizarea IDE-ului (Integrated Development Environment) preferat al dezvoltatorului. SDK-ul permite conectarea de la IDE la partea de server a platformei pentru a oferi toate funcționalitățile de care ar putea avea nevoie utilizatorul pentru a dezvolta și executa modele.
  • Memorie partajată — aceasta oferă o funcționalitate de tip buffer care accelerează livrarea datelor temporale/ istorice către modele și elementele de analiză ale platformei (adică, biblioteca de metode de analiză statistică) și, în același timp, reduce necesarul de utilizare a memoriei. Ideea principală este de a avea un punct central în memoria (RAM) al platformei care va gestiona și va furniza date temporale/istorice de la momentul curent până la un anumit număr de marcaje temporale din istorie). Deoarece memoria este partajată, niciun model nu va trebui să păstreze și să gestioneze singur istoricul. Mai mult, deoarece memoria este păstrată în RAM mai degrabă decât în ​​fișiere sau DBMS, accesul la aceasta este instantaneu și limitat doar de performanța hardware-ului și de platforma pe care funcționează bufferele.
  • Șabloane de model — platforma acceptă două tipuri generice de modele: push și pull. Tipul push se înregistrează pentru a asculta un set specificat de fluxuri de date în timpul inițializării, iar execuția logicii modelului este declanșată de fiecare dată când un nou flux de date ajunge pe platformă. Acest tip este dedicat modelelor foarte rapide, cu latență scăzută și cu frecvență înaltă, iar viteza este atinsă cu prețul unor buffer-uri de memorie partajată mici. Șablonul de model pull execută și solicită date singur, pe baza unui program. În loc să folosească memoria tampon, are o conexiune directă la facilitățile de megadate și, prin urmare, poate solicita cât de multe date istorice este necesar, în detrimentul vitezei.

Concluzii

După cum s-a discutat, disponibilitatea ușoară a API-urilor furnizate de serviciile Twitter, Facebook și știri a condus la o „explozie” a serviciilor de date și a instrumentelor software pentru scanarea și analiza sentimentelor și a platformelor de analitica rețelelor sociale. Această lucrare analizează unele dintre instrumentele software pentru rețelele de socializare și, pentru a fi complet, a introdus scanarea rețelelor sociale, curățarea datelor și analiza sentimentelor.

Poate că cea mai mare îngrijorare este că companiile restricționează din ce în ce mai mult accesul la datele lor pentru a-și monetiza conținutul. Este important ca cercetătorii să aibă acces la medii de calcul și în special la ”mega” date din rețelele sociale pentru experimentare. În caz contrar, știința socială computațională ar putea deveni domeniul exclusiv al marilor companii, agenții guvernamentale și un set privilegiat de cercetători academicieni care prezidează datele private din care produc lucrări care nu pot fi criticate sau replicate. Probabil că ceea ce este necesar sunt medii de calcul din domeniul public și facilități de date pentru științe sociale cantitative, care pot fi accesate de cercetători prin intermediul unei instalații bazate pe cloud.

Referințe

  • Galas M, Brown D, Treleaven P (2012) A computational social science environment for financial/economic experiments. In: Proceedings of the Computational Social Science Society of the Americas, vol 1, pp 1-13

Sursa: Bogdan Batrinca, Philip C. Treleaven, “Social media analytics: a survey of techniques, tools and platforms“, AI & Soc (2015) 30:89-116 DOI 10.1007/s00146-014-0549-4, Creative Commons Attribution License. Traducere și adaptare Nicolae Sfetcu

Lucrul cu baze de date
Lucrul cu baze de date

Colecția ȘTIINȚA INFORMAȚIEI Lucrul cu bazele de date este astăzi printre cele mai căutate abilități IT. Acum puteți obține o bază de plecare în proiectarea și implementarea bazelor de date cu o abordare practică, ușor de înțeles. ”Lucrul cu baze … Citeşte mai mult

Nu a fost votat $3,99$7,99 Selectează opțiunile
Rețele de comunicații 5G
Rețele de comunicații 5G

Datorită impactului său așteptat în economie și societate, a cincea generație de telecomunicații mobile (5G) este una dintre cele mai importante inovații ale timpului nostru. Așteptările cresc cu capacitățile de bandă largă ale 5G, accesibile tuturor și peste tot, la … Citeşte mai mult

Nu a fost votat $2,99$6,88 Selectează opțiunile
Tehnologia Blockchain - Bitcoin
Tehnologia Blockchain – Bitcoin

Internetul a schimbat complet lumea, cultura şi obiceiurile oamenilor. După o primă fază caracterizată prin transferul liber al informaţiilor, au apărut preocupările pentru siguranţa comunicaţiilor online şi confidenţialitatea utilizatorilor. Tehnologia blockchain asigură ambele aceste deziderate. Relativ nouă, ea are şansa să producă … Citeşte mai mult

Nu a fost votat $2,99$11,99 Selectează opțiunile

Lasă un răspuns

Adresa ta de email nu va fi publicată.