Home » Articole » Articole » Afaceri » Știința datelor (Data Science) » Metode de învățare supravegheată în analiza sentimentelor

Metode de învățare supravegheată în analiza sentimentelor

Există o serie de statistici computaționale populare și tehnici de învățare automată utilizate pentru analiza sentimentelor. Pentru o introducere bună, a se vedea (Khan et al 2010). Tehnicile includ:

  • Bayesian naiv — un clasificator probabilist simplu bazat pe aplicarea teoremei lui Bayes cu ipoteze puternice (naive) de independență (atunci când caracteristicile sunt independente unele de altele în cadrul fiecărei clase).
  • Entropia maximă — distribuția de probabilitate care reprezintă cel mai bine starea actuală a cunoștințelor este cea cu cea mai mare entropie teoretică a informațiilor.
  • Mașini vectoriale de suport — sunt modele de învățare supravegheate cu algoritmi de învățare asociați care analizează datele și recunosc modele, utilizate pentru clasificare și analiza de regresie.
  • Modelul de regresie logistică — este un tip de analiză de regresie folosită pentru a prezice rezultatul unei variabile de criteriu categorice (o variabilă care poate prelua un număr limitat de categorii) pe baza uneia sau mai multor variabile de predicție.
  • Analiză semantică latentă — o metodă de indexare și de recuperare care utilizează o tehnică matematică numită descompunere a valorii singulare pentru a identifica modele în relațiile dintre termenii și conceptele conținute într-o colecție nestructurată de text (Kobayashi și Takeda 2000).

Modelul „sac-de-cuvinte” este o reprezentare simplificatoare folosită în mod obișnuit în procesarea limbajului natural și extragerea informațiilor, în care o propoziție sau un document este reprezentat ca o colecție neordonată de cuvinte, ignorând gramatica și chiar ordinea cuvintelor. Acesta este un model aplicat în mod tradițional analizei sentimentelor datorită simplității sale.

Clasificator bayesian naiv

Ca exemplu de analiză a sentimentelor, vom descrie pe scurt un clasificator bayesian naiv (Murphy 2006). Clasificatorul bayesian naiv are un scop general, simplu de implementat și funcționează bine pentru o gamă largă de aplicații. Clasifică datele în două etape:

  • Etapa de antrenament — folosind eșantioanele de antrenament, metoda estimează parametrii unei distribuții de probabilitate, presupunând caracteristicile ca fiind independente condiționat, având în vedere clasa.
  • Etapa de analiză/testare — pentru orice eșantion de testare nevăzut, metoda calculează probabilitatea posterioară ca eșantionul respectiv să aparțină fiecărei clase. Metoda clasifică apoi proba de testare în funcție de cea mai mare probabilitate posterioară.

Folosind clasificatorul bayesian naiv, clasificatorul calculează probabilitatea ca un text să aparțină fiecăreia dintre categoriile cu care testați. Câștigă categoria cu cea mai mare probabilitate pentru textul dat:

classify(word1;word2; . . .wordn) = argcat max P(cat) * Πi=1n P(wordi|cat)

Figura oferă un exemplu de clasificare a sentimentelor folosind un clasificator bayesian naiv în Python. Există o serie de programe de clasificare bayesian naiv disponibile în Java, inclusiv setul de instrumente jBNC (http://jbnc.sourceforge.net), WEKA (www.cs.waikato.ac.nz/ml/weka) și API-ul Alchemy (www.alchemyapi.com/api/demo.html).

for (tweet, label) in trainingSetMessage:
// Normalize words, handle punctuation, tokenize on white space etc.
preProcessMessage(tweet)
for tweetWord in tweet:
// Tokenize each Tweet, assign the label to each word and store it in the training set
trainingSet += (tweetWord, label)
classifier = NaiveBayesClassifier.train(trainingSet)
predictedLabel = classifier.classify(getFeatures(preProcessMessage(trainingSet)))

(Exemplu de clasificare a sentimentelor folosind Python)

Referințe

  • Khan A, Baharudin B, Lee LH, Khan K (2010) A review of machine learning algorithms for text-documents classification. J Adv Inf Technol 1(1):4-20
  • Kobayashi M, Takeda K (2000) Information retrieval on the web. ACM Comput Surv CSUR 32(2):144-173
  • Murphy KP (2006) Naive Bayes classifiers. University of British Columbia, pp 1-8.

Sursa: Bogdan Batrinca, Philip C. Treleaven, „Social media analytics: a survey of techniques, tools and platforms„, AI & Soc (2015) 30:89-116 DOI 10.1007/s00146-014-0549-4, Creative Commons Attribution License. Traducere și adaptare Nicolae Sfetcu

Statistica pentru afaceri
Statistica pentru afaceri

Instrumentul esențial pentru decizii inteligente în mediul de afaceri!

Nu a fost votat 18.24 lei39.08 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Introducere în Business Intelligence
Introducere în Business Intelligence

O resursă esențială pentru toți cei interesați de analiza datelor și de optimizarea proceselor de afaceri.

Nu a fost votat 13.67 lei24.54 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Big Data: Modele de afaceri - Securitatea megadatelor
Big Data: Modele de afaceri – Securitatea megadatelor

Nu rata oportunitatea de a rămâne competitiv într-o lume bazată pe date!

Nu a fost votat 18.24 lei27.38 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *