Home » Articole » RO » Afaceri » Știința datelor (Data Science) » Tehnici de analitica rețelelor sociale – Tehnici de știință computațională

Tehnici de analitica rețelelor sociale – Tehnici de știință computațională

Mineritul opiniilor (sau analiza sentimentelor) este o încercare de a profita de cantitățile mari de text și știri generate de utilizatori online. Una dintre caracteristicile principale ale unui astfel de conținut este dezordinea textului și diversitatea ridicată. Aici, procesarea limbajului natural, lingvistica computațională și analiza textului sunt implementate pentru a identifica și extrage informații subiective din textul sursă. Scopul general este de a determina atitudinea unui scriitor (sau vorbitor) cu privire la un subiect sau la polaritatea contextuală generală a unui document.

Tehnici de știință computațională

Analiza automată a sentimentelor a textelor digitale folosește elemente din învățarea automată, cum ar fi analiza semantică latentă, mașinile vectoriale de suport, modelul pachetului de cuvinte și orientarea semantică (Turney 2002). În termeni simpli, tehnicile folosesc următoarele domenii largi:

  • Statistici computaționale — se referă la metode statistice intensive din punct de vedere computațional, inclusiv metodele de reeșantionare, metodele Monte Carlo în lanțul Markov, regresia locală, estimarea densității nucleului și analiza componentelor principale.
  • Învățare automată — un sistem capabil de achiziție și integrare autonomă a cunoștințelor învățate din experiență, observație analitică etc. (Murphy 2012). Aceste sisteme sub-simbolice se împart în continuare în:
    • Învățare supravegheată, cum ar fi arbori de regresie, analiza funcției discriminante, mașini de vectori de suport.
    • Învățare nesupravegheată, cum ar fi Hărți cu auto-organizare (SOM), K-Means.

Învățarea automată își propune să rezolve problema de a avea cantități uriașe de date cu multe variabile și este utilizat în mod obișnuit în domenii precum recunoașterea modelelor (vorbire, imagini), algoritmi financiari (scorarea creditelor, tranzacționare algoritmică) (Nuti et al. 2011), prognoza energetică (sarcină, preț) și biologie (detecția tumorilor, descoperirea medicamentelor). Figura 13 ilustrează cele două tipuri de învățare automată și categoriile lor de algoritm.

Învățarea automată
(Prezentare generală a învățării automate)

  • Știința complexității — modele complexe de simulare a sistemelor dificil de prezis derivate din fizica statistică, teoria informațiilor și dinamica neliniară. Regatul fizicienilor și al matematicienilor.

Aceste tehnici sunt implementate în două moduri:

  • Mineritul datelor — descoperire de cunoștințe care extrage tipare ascunse din cantități uriașe de date, folosind ecuații diferențiale sofisticate, euristici, discriminatori statistici (de exemplu, modele Markov ascunse) și tehnici de învățare automată a inteligenței artificiale (de exemplu, rețele neuronale, algoritmi genetici și mașini de vectori de suport).
  • Modelarea prin simulare — analiză bazată pe simulare care testează ipotezele. Simularea este folosită pentru a încerca să se prezică dinamica sistemelor, astfel încât să poată fi testată validitatea ipotezei de bază.

Procesarea fluxului

În cele din urmă, ar trebui să menționăm procesarea fluxului (Botan et al 2010). Din ce în ce mai mult, aplicațiile de analitica utilizând rețelele sociale în timp real, „tickerele” financiare și rețelele de senzori trebuie să proceseze date temporale de mare volum cu latență redusă. Aceste aplicații necesită asistență pentru analiza online a fluxurilor de date care se schimbă rapid. Cu toate acestea, sistemele tradiționale de gestionare a bazelor de date (DBMS) nu au o noțiune predefinită de timp și nu pot gestiona datele online în timp aproape real. Acest lucru a condus la dezvoltarea sistemelor de gestionare a fluxului de date (DSMS) (Hebrail 2008) – procesare în memoria principală fără stocarea datelor pe disc – care gestionează fluxurile de date tranzitorii online și procesează interogări continue pe aceste fluxuri de date. Exemple de sisteme comerciale includ: motorul Oracle CEP, StreamBase și StreamInsight de la Microsoft (Chandramouli et al. 2010).

Referințe

  • Botan I et al. (2010) SECRET: a model for analysis of the execution semantics of stream processing systems. Proc VLDB Endow 3(1-2):232-243
  • Chandramouli B et al (2010) Data stream management systems for computational finance. IEEE Comput 43(12):45-52
  • Hebrail G (2008) Data stream management and mining. In: Fogel-man-Soulie F, Perrotta D, Piskorski J, Steinberger R (eds) Mining Massive Data Sets for Security. IOS Press, pp 89-102
  • Murphy KP (2012) Machine learning: a probabilistic perspective. In: Chapter 1: Introduction. MIT Press, pp 1-26 
  • Nuti G, Mirghaemi M, Treleaven P, Yingsaeree C (2011) Algorithmic trading. IEEE Comput 44(11):61-69 
  • Turney PD (2002) Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews. In: Proceedings of the 40th Annual Meeting on Association for Computational Linguistics pp. 417-424

Sursa: Bogdan Batrinca, Philip C. Treleaven, “Social media analytics: a survey of techniques, tools and platforms“, AI & Soc (2015) 30:89-116 DOI 10.1007/s00146-014-0549-4, Creative Commons Attribution License. Traducere și adaptare Nicolae Sfetcu

Etica Big Data în cercetare
Etica Big Data în cercetare

Principalele probleme cu care se confruntă oamenii de știință în lucrul cu seturile mari de date (Big Data), evidențiind principale aspecte etice, luând în considerare inclusiv legislația din Uniunea Europeană. După o scurtă Introducere despre Big Data, secțiunea Tehnologia prezintă … Citeşte mai mult

Nu a fost votat $0,00$2,35 Selectează opțiunile
Lucrul cu baze de date
Lucrul cu baze de date

Colecția ȘTIINȚA INFORMAȚIEI Lucrul cu bazele de date este astăzi printre cele mai căutate abilități IT. Acum puteți obține o bază de plecare în proiectarea și implementarea bazelor de date cu o abordare practică, ușor de înțeles. ”Lucrul cu baze … Citeşte mai mult

Nu a fost votat $3,99$7,99 Selectează opțiunile
Statistica pentru afaceri
Statistica pentru afaceri

Statistica pentru afaceri este un ghid practic elementar de statistică, cu eșantioanele de date și exemplele orientate spre afaceri. Statistica face posibilă analiza problemelor de afaceri din lumea reală cu date reale, astfel încât să puteți determina dacă o strategie … Citeşte mai mult

Nu a fost votat $3,99$8,55 Selectează opțiunile

Lasă un răspuns

Adresa ta de email nu va fi publicată.