Home » Articole » Articole » Afaceri » Știința datelor (Data Science) » Metode de învățare supravegheată în analiza sentimentelor

Metode de învățare supravegheată în analiza sentimentelor

Există o serie de statistici computaționale populare și tehnici de învățare automată utilizate pentru analiza sentimentelor. Pentru o introducere bună, a se vedea (Khan et al 2010). Tehnicile includ:

  • Bayesian naiv — un clasificator probabilist simplu bazat pe aplicarea teoremei lui Bayes cu ipoteze puternice (naive) de independență (atunci când caracteristicile sunt independente unele de altele în cadrul fiecărei clase).
  • Entropia maximă — distribuția de probabilitate care reprezintă cel mai bine starea actuală a cunoștințelor este cea cu cea mai mare entropie teoretică a informațiilor.
  • Mașini vectoriale de suport — sunt modele de învățare supravegheate cu algoritmi de învățare asociați care analizează datele și recunosc modele, utilizate pentru clasificare și analiza de regresie.
  • Modelul de regresie logistică — este un tip de analiză de regresie folosită pentru a prezice rezultatul unei variabile de criteriu categorice (o variabilă care poate prelua un număr limitat de categorii) pe baza uneia sau mai multor variabile de predicție.
  • Analiză semantică latentă — o metodă de indexare și de recuperare care utilizează o tehnică matematică numită descompunere a valorii singulare pentru a identifica modele în relațiile dintre termenii și conceptele conținute într-o colecție nestructurată de text (Kobayashi și Takeda 2000).

Modelul „sac-de-cuvinte” este o reprezentare simplificatoare folosită în mod obișnuit în procesarea limbajului natural și extragerea informațiilor, în care o propoziție sau un document este reprezentat ca o colecție neordonată de cuvinte, ignorând gramatica și chiar ordinea cuvintelor. Acesta este un model aplicat în mod tradițional analizei sentimentelor datorită simplității sale.

Clasificator bayesian naiv

Ca exemplu de analiză a sentimentelor, vom descrie pe scurt un clasificator bayesian naiv (Murphy 2006). Clasificatorul bayesian naiv are un scop general, simplu de implementat și funcționează bine pentru o gamă largă de aplicații. Clasifică datele în două etape:

  • Etapa de antrenament — folosind eșantioanele de antrenament, metoda estimează parametrii unei distribuții de probabilitate, presupunând caracteristicile ca fiind independente condiționat, având în vedere clasa.
  • Etapa de analiză/testare — pentru orice eșantion de testare nevăzut, metoda calculează probabilitatea posterioară ca eșantionul respectiv să aparțină fiecărei clase. Metoda clasifică apoi proba de testare în funcție de cea mai mare probabilitate posterioară.

Folosind clasificatorul bayesian naiv, clasificatorul calculează probabilitatea ca un text să aparțină fiecăreia dintre categoriile cu care testați. Câștigă categoria cu cea mai mare probabilitate pentru textul dat:

classify(word1;word2; . . .wordn) = argcat max P(cat) * Πi=1n P(wordi|cat)

Figura oferă un exemplu de clasificare a sentimentelor folosind un clasificator bayesian naiv în Python. Există o serie de programe de clasificare bayesian naiv disponibile în Java, inclusiv setul de instrumente jBNC (http://jbnc.sourceforge.net), WEKA (www.cs.waikato.ac.nz/ml/weka) și API-ul Alchemy (www.alchemyapi.com/api/demo.html).

for (tweet, label) in trainingSetMessage:
// Normalize words, handle punctuation, tokenize on white space etc.
preProcessMessage(tweet)
for tweetWord in tweet:
// Tokenize each Tweet, assign the label to each word and store it in the training set
trainingSet += (tweetWord, label)
classifier = NaiveBayesClassifier.train(trainingSet)
predictedLabel = classifier.classify(getFeatures(preProcessMessage(trainingSet)))

(Exemplu de clasificare a sentimentelor folosind Python)

Referințe

  • Khan A, Baharudin B, Lee LH, Khan K (2010) A review of machine learning algorithms for text-documents classification. J Adv Inf Technol 1(1):4-20
  • Kobayashi M, Takeda K (2000) Information retrieval on the web. ACM Comput Surv CSUR 32(2):144-173
  • Murphy KP (2006) Naive Bayes classifiers. University of British Columbia, pp 1-8.

Sursa: Bogdan Batrinca, Philip C. Treleaven, „Social media analytics: a survey of techniques, tools and platforms„, AI & Soc (2015) 30:89-116 DOI 10.1007/s00146-014-0549-4, Creative Commons Attribution License. Traducere și adaptare Nicolae Sfetcu

Etica Big Data în cercetare
Etica Big Data în cercetare

Principalele probleme cu care se confruntă oamenii de știință în lucrul cu seturile mari de date (Big Data), evidențiind principale aspecte etice, luând în considerare inclusiv legislația din Uniunea Europeană. După o scurtă Introducere despre Big Data, secțiunea Tehnologia prezintă … Citeşte mai mult

Nu a fost votat $0.00$2.35 Selectează opțiunile
Rețele de comunicații 5G
Rețele de comunicații 5G

Datorită impactului său așteptat în economie și societate, a cincea generație de telecomunicații mobile (5G) este una dintre cele mai importante inovații ale timpului nostru. Așteptările cresc cu capacitățile de bandă largă ale 5G, accesibile tuturor și peste tot, la … Citeşte mai mult

Nu a fost votat $2.99$6.88 Selectează opțiunile
Tehnologia Blockchain - Bitcoin
Tehnologia Blockchain – Bitcoin

Internetul a schimbat complet lumea, cultura şi obiceiurile oamenilor. După o primă fază caracterizată prin transferul liber al informaţiilor, au apărut preocupările pentru siguranţa comunicaţiilor online şi confidenţialitatea utilizatorilor. Tehnologia blockchain asigură ambele aceste deziderate. Relativ nouă, ea are şansa să producă … Citeşte mai mult

Nu a fost votat $4.99$11.99 Selectează opțiunile

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *