Există o mulțime de instrumente de minare a opiniilor ale furnizorilor (comerciali), cele mai multe dintre acestea fiind înclinate spre analiza sentimentelor privind feedback-ul clienților despre produse și servicii. Din fericire, există un spectru vast de instrumente pentru analiza textuală, de la simple instrumente open-source până la biblioteci, seturi de instrumente comerciale multifuncționale și multiplatforme. Această secțiune se concentrează pe instrumente și seturi de instrumente individuale pentru răzuire, curățare și analiză. Există platforme de social media care furnizează atât date de arhivă, cât și fluxuri în timp real, precum și instrumente de analiză sofisticate.
Software de programare științifice
Bibliotecile și instrumentele populare de analiză științifică au fost îmbunătățite pentru a oferi suport pentru aprovizionarea, căutarea și analizarea textului. Exemplele includ: R — folosit pentru programarea statistică, MATLAB — folosit pentru programarea științifică numerică și Mathematica — utilizat pentru programarea științifică simbolică (algebră computerizată).
Procesarea datelor și modelarea datelor, de exemplu analiza de regresie, sunt simple folosind MATLAB, care oferă analiză în serii de timp, GUI și statistici bazate pe matrice. MATLAB este semnificativ mai rapid decât limbajele de programare tradiționale și poate fi utilizat pentru o gamă largă de aplicații. În plus, funcțiile de plotare exhaustive încorporate îl fac un set de instrumente de analiză complex. Algoritmi mai puternici din punct de vedere computațional pot fi dezvoltați folosindu-l împreună cu pachetele (de exemplu, FastICA pentru a efectua analize independente ale componentelor).
Python poate fi folosit pentru detectarea limbajului (natural), extragerea titlului și conținutului, potrivirea interogărilor și, atunci când este utilizat împreună cu un modul precum scikit-learn, poate fi antrenat pentru a efectua analize de sentimente, de exemplu folosind un clasificator bayesian nauv.
Un alt exemplu, Apache UIMA (Unstructured Information Management Applications) este un proiect open-source care analizează „megadatele” și descoperă informații relevante pentru utilizator.
Kituri de software pentru afaceri
Seturile de instrumente pentru afaceri sunt suite comerciale de instrumente care permit utilizatorilor să caute, să colecteze și să analizeze text pentru o serie de scopuri comerciale.
SAS Sentiment Analysis Manager, parte a programului SAS Text Analytics, poate fi utilizat pentru a analiza sursele de conținut, inclusiv site-uri web principale și rețelele de socializare, precum și surse interne de text organizaționale, și creează rapoarte care descriu sentimentele exprimate ale consumatorilor, clienților. și concurenților în timp real.
RapidMiner (Hirudkar și Sherekar 2013), este un set de instrumente popular care oferă o ediție comunitară open-source lansată sub GNU AGPL și, de asemenea, o ediție Enterprise oferită sub o licență comercială. RapidMiner oferă proceduri de minerit a datelor și de învățare automată, inclusiv: încărcare și transformare a datelor (Extract, Transform, Load, a.k.a. ETL), preprocesare și vizualizare a datelor, modelare, evaluare și implementare. RapidMiner este scris în Java și folosește scheme de învățare și evaluatori de atribute din mediul de învățare automată Weka și scheme de modelare statistică din proiectul R.
Alte exemple sunt Lexalytics, care oferă un motor comercial de analiză a sentimentelor pentru mulți clienți direcți; și IBM SPSS Statistics care este unul dintre cele mai utilizate programe de analiză statistică în științe sociale.
Software de monitorizare a rețelelor sociale
Instrumentele de monitorizare a rețelelor sociale sunt instrumente de analiză a sentimentelor pentru urmărirea și măsurarea a ceea ce spun oamenii (de obicei) despre o companie sau despre produsele acesteia sau despre orice subiect din peisajul rețelelor sociale de pe web.
În domeniul monitorizării rețelelor sociale, exemplele includ: Social Mention, (http://socialmention.com/), care furnizează alerte de rețele sociale în mod similar cu Google Alerts; Amplified Analytics care se concentrează pe recenzii despre produse și pe informații de marketing; Lithium Social Media Monitoring; și Trackur, care este un instrument de monitorizare a reputației online care urmărește ceea ce se spune pe internet.
Google oferă, de asemenea, câteva instrumente gratuite utile. Google Trends arată cât de des se compară un anumit termen de căutare cu volumul total de căutare. Un alt instrument construit în jurul Căutării Google este Google Alerts – un instrument de detectare a modificărilor de conținut care oferă notificări automate. Google a achiziționat, de asemenea, FeedBurner – un sistem de gestionare a fluxurilor RSS – în 2007.
Software de analiză a textului
Instrumentele de analiză a textului sunt instrumente cu o bază largă pentru procesarea limbajului natural și analiza textului. Exemple de companii din zona de analiză a textului includ: OpenAmplify și Jodange ale căror instrumente au posibilitatea de filtrare și agregare automată a gândurilor, sentimentelor și declarațiilor din rețelele tradiționale și sociale.
Există, de asemenea, un număr mare de instrumente disponibile gratuit produse de grupuri academice și organizații neguvernamentale (ONG-uri) pentru a obține, căuta și analiza opinii. Exemplele includ instrumentele de grup Stanford NLP și LingPipe, o suită de biblioteci Java pentru analiza lingvistică a limbajului uman (Teufl et al 2010).
Sunt disponibile o varietate de instrumente open-source de analiză a textului, în special pentru analiza sentimentelor. Un instrument popular de analiză a textului, care este, de asemenea, open source, este Python NLTK— Natural Language Toolkit (www.nltk.org/), care include module Python open source, date lingvistice și documentație pentru analiza textului. Un altul este GATE (https://gate.ac.uk/sentiment/).
De asemenea, ar trebui să menționăm Lexalytics Sentiment Toolkit, care efectuează o analiză automată a sentimentelor pe documentele de intrare. Este puternic atunci când este utilizat pe un număr mare de documente, dar nu efectuează scanarea datelor.
Alte software-uri comerciale pentru minarea de text includ: AeroText, Attensity, Clarabridge, IBM LanguageWare, SPSS Text Analytics for Surveys, Language Computer Corporation, STATISTICA Text Miner și WordStat.
Software de vizualizare a datelor
Instrumentele de vizualizare a datelor oferă capabilități de business intelligence (BI) și permit diferitelor tipuri de utilizatori să obțină informații din „mega” date. Utilizatorii pot efectua analize exploratorii prin interfețe de utilizator interactive disponibile pe majoritatea dispozitivelor, cu accent recent pe dispozitivele mobile (smartphone-uri și tablete). Instrumentele de vizualizare a datelor îi ajută pe utilizatori să identifice modele, tendințe și relații în datele care erau anterior latente. Vizualizarea rapidă ad-hoc a datelor poate dezvălui modele și valori aberante și poate fi efectuată pe cadre de seturi de date la scară largă, cum ar fi Apache Hadoop sau Amazon Kinesis. Două instrumente de vizualizare notabile sunt SAS Visual Analytics și Tableau.
Studiu de caz: SAS Statistical Analysis System
SAS este cel mai important software de analitică avansată pentru BI, managementul datelor și analitica predictivă. SAS (SAS Institute 2013) evaluează și clasifică automat opiniile. De asemenea, efectuează colectarea datelor de pe site-uri web, rețele sociale și sisteme de fișiere interne. Apoi, procesează într-un format unificat pentru a evalua relevanța în ceea ce privește subiectele sale predefinite. SAS identifică tendințele și schimbările emoționale. Experții pot perfecționa modelele de sentiment prin intermediul unui banc de lucru interactiv. Instrumentul atribuie automat scoruri de sentiment documentelor de intrare pe măsură ce acestea sunt preluate în timp real.
SAS combină modelarea statistică și lingvistica (tehnici de procesare a limbajului natural bazate pe reguli) pentru a obține rezultate precise ale analizei sentimentelor. Instrumentul monitorizează și evaluează schimbările de sentiment de-a lungul timpului; extrage sentimente în timp real pe măsură ce datele răzuite sunt preluate și generează rapoarte care arată modele și reacții detaliate.
Software-ul identifică locul în care (adică, pe ce canal) subiectul este discutat, și cuantifică percepțiile de pe piață pe măsură ce software-ul analizează conținutul intern și extern despre organizația dvs. (sau conceptul pe care îl analizați) și concurenții, identificând elemente pozitive, texte neutre, negative sau „fără sentiment” în timp real.
(Rapoarte grafice cu Sentiment Insights)
SAS are o interfață ușor de utilizat pentru dezvoltarea modelelor; utilizatorii pot încărca modele de analiză a sentimentelor direct pe server pentru a minimiza implementarea manuală a modelului. Utilizatorii mai avansați pot folosi bancul de lucru interactiv pentru a-și perfecționa modelele. Software-ul include grafice pentru a ilustra instantaneu clasificarea textului (de exemplu, pozitiv, negativ, neutru sau neclasificat) și explorarea prin punctare și clic pentru a detalia textul clasificat. Instrumentul oferă, de asemenea, unele funcționalități de lucru prin intermediul API-urilor, permițând integrarea automată/programatică cu alte module/proiecte. Figura 15 ilustrează rapoartele grafice SAS Social Media Analytics, care oferă informații despre sentimente ușor de utilizat. Software-ul SAS are pluginuri de crawling pentru cele mai populare site-uri de rețele sociale , inclusiv Facebook, Twitter, Bing, LinkedIn, Flickr și Google. De asemenea, poate fi personalizat pentru a accesa cu crawlere orice site web folosind instrumentul de potrivire a marcajului; aceasta oferă o interfață de tip punct și clic pentru a indica ce zone trebuie extrase din HTML sau XML. SAS adună conversații online de pe site-uri de rețele populare (de exemplu, Facebook și Twitter), bloguri și site-uri de recenzii (de exemplu, TripAdvisor și Priceline) și punctează datele pentru influență și sentiment. Oferă instrumente de vizualizare pentru urmărirea în timp real; permite utilizatorilor să trimită interogări personalizate și returnează o vizualizare geografică cu comentarii specifice mărcii de pe Twitter, așa cum este ilustrat în Fig. 16.
(Vizualizarea SAS a urmăririi în timp real prin Twitter)
Referințe
- Hirudkar AM, Sherekar SS (2013) Comparative analysis of data mining tools and techniques for evaluating performance of database system. Int J Comput Sci Appl 6(2):232-237
- SAS Institute Inc (2013) SAS sentiment analysis factsheet.
- Teufl P, Payer U, Lackner G (2010) From NLP (natural language processing) to MLP (machine language processing). In: Kotenko I, Skormin V (eds) Computer network security, Springer, Berlin Heidelberg, pp 256-269
Sursa: Bogdan Batrinca, Philip C. Treleaven, „Social media analytics: a survey of techniques, tools and platforms„, AI & Soc (2015) 30:89-116 DOI 10.1007/s00146-014-0549-4, Creative Commons Attribution License. Traducere și adaptare Nicolae Sfetcu
Lasă un răspuns