Home » Articole » Articole » Afaceri » Știința datelor (Data Science) » Data mining » Rezumarea automată prin învățarea automată în mineritul textelor (o posibilă explicație a funcționării lui Chat GPT)

Rezumarea automată prin învățarea automată în mineritul textelor (o posibilă explicație a funcționării lui Chat GPT)

postat în: Data mining 0

Rezumarea automată este procesul de sumarizare a unui document text cu un program de calculator pentru a crea un rezumat care să rețină cele mai importante puncte ale documentului original. Tehnologiile care pot face un rezumat coerent iau în considerare variabile precum lungimea, stilul de scriere și sintaxa. Rezumarea automată a datelor face parte din învățarea automată și extragerea datelor. Ideea principală a rezumatului este de a găsi un subset reprezentativ de date, care conține informațiile întregului set. Tehnologiile de rezumat sunt folosite astăzi într-un număr mare de sectoare din industrie. Un exemplu de utilizare a tehnologiei de rezumare îl reprezintă motoarele de căutare, cum ar fi Google. Alte exemple includ rezumatul documentelor, rezumatul colecției de imagini și rezumatul video. Rezumatul documentului încearcă să creeze automat un sumar reprezentativ sau un rezumat al întregului document, prin găsirea celor mai informative propoziții. În mod similar, în rezumarea imaginilor, sistemul găsește imaginile cele mai reprezentative și importante (sau proeminente). În mod similar, în videoclipurile pentru consumatori a‘i dori să eliminați scenele plictisitoare sau repetitive și să extrageți o versiune mult mai scurtă și concisă a videoclipului. Acest lucru este, de asemenea, important, să zicem pentru videoclipurile de supraveghere, în care s-ar putea să doriți să extrageți numai evenimente importante din videoclipul înregistrat, din moment ce cea mai mare parte a videoclipului poate fi neinteresantă, fără a se întâmpla nimic. Pe măsură ce problema supraîncărcării informaționale crește și pe măsură ce cantitatea de date crește, interesul pentru rezumarea automată crește și el.

În general, există două abordări ale rezum[rii automate: extracția și abstracția. Metodele extractive funcționează prin selectarea unui subset de cuvinte, fraze sau propoziții existente în textul original pentru a forma rezumatul. În schimb, metodele abstractive construiesc o reprezentare semantică internă și apoi folosesc tehnici de generare a limbajului natural pentru a crea un rezumat care este mai aproape de ce poate genera un om. Un astfel de rezumat poate conține cuvinte care nu sunt prezente în mod explicit în original. Cercetarea metodelor abstractive este un domeniu de cercetare din ce în ce mai important și activ; cu toate acestea, din cauza constrângerilor de complexitate, cercetarea până în prezent s-a concentrat în primul rând pe metodele extractive. În unele domenii de aplicație, rezumatul extractiv are mai mult sens. Exemple dintre acestea includ rezumatul colecțiilor de imagini și rezumatul videoclipurilor.

Rezumare bazată pe extracție

În această sarcină de rezumare, sistemul automat extrage obiecte din întreaga colecție, fără a modifica obiectele în sine. Exemple în acest sens includ extragerea expresiilor cheie, în care scopul este de a selecta cuvinte sau expresii individuale pentru a „eticheta” un document și rezumarea documentelor, în cazul în care scopul este de a selecta propoziții întregi (fără a le modifica) pentru a crea un scurt rezumat de paragraf. În mod similar, în rezumarea colecției de imagini, sistemul extrage imagini din colecție fără a modifica imaginile în sine.

Rezumare bazată pe abstracție

Tehnicile de extragere doar copiază informațiile considerate cele mai importante de sistem în rezumat (de exemplu, clauze cheie, propoziții sau paragrafe), în timp ce abstractizarea implică parafrazarea secțiunilor documentului sursă. În general, abstracția poate condensa un text mai puternic decât extracția, dar programele care pot face acest lucru sunt mai greu de dezvoltat, deoarece necesită utilizarea tehnologiei de generare a limbajului natural, care în sine este un domeniu în creștere.

În timp ce unele lucrări au fost făcute în rezumarea abstractivă (crearea unui sinopsis abstract ca cel al unui om), majoritatea sistemelor de rezumare sunt extractive (selectând un subset de propoziții pentru a le plasa într-un rezumat).

Rezumare asistată

Tehnicile de învățare automată din domenii strâns legate, cum ar fi regăsirea informațiilor sau mineritul de text, au fost adaptate cu succes pentru a ajuta la rezumarea automată.

În afară de Fully Automated Summarizers (FAS), există sisteme care ajută utilizatorii cu sarcina de a rezuma (MAHS = Machine Aided Human Summarization), de exemplu prin evidențierea pasajelor candidate care urmează să fie incluse în rezumat și există sisteme care depind de postare -procesare de către un om (HAMS = Human Aided Machine Summarization).

Aplicații și sisteme de rezumare

Există, în general, două tipuri de sarcini de rezumare extractive, în funcție de pe ceea ce se concentrează programul de rezumare. Primul este rezumatul generic, care se concentrează pe obținerea unui rezumat generic sau rezumat al colecției (fie documente, fie seturi de imagini, fie videoclipuri, știri etc.). A doua este rezumarea relevantă pentru interogare, uneori numită rezumare bazată pe interogări, care rezumă obiecte specifice unei interogări. Sistemele de rezumare pot crea atât rezumate text relevante pentru interogări, cât și rezumate generice generate de mașină, în funcție de nevoile utilizatorului.

Un exemplu de problemă de rezumare este rezumarea documentului, care încearcă să producă automat un rezumat dintr-un document dat. Uneori, cineva ar putea fi interesat să genereze un rezumat dintr-un singur document sursă, în timp ce alții pot folosi mai multe documente sursă (de exemplu, un grup de articole pe același subiect). Această problemă se numește rezumat cu mai multe documente. O aplicație conexă rezumă articole de știri. Imaginați-vă un sistem care reunește automat articole de știri pe un anumit subiect (de pe web) și reprezintă în mod concis cele mai recente știri ca un rezumat.

Rezumarea culegerii de imagini este un alt exemplu de aplicație de rezumare automată. Constă în selectarea unui set reprezentativ de imagini dintr-un set mai mare de imagini. Un rezumat în acest context este util pentru a afișa cele mai reprezentative imagini ale rezultatelor într-un sistem de explorare a colecțiilor de imagini. Rezumatul video este un domeniu înrudit, în care sistemul creează automat un trailer al unui videoclip lung. Aceasta are și aplicații în videoclipurile de consum sau personale, în care s-ar putea dori să săriți peste acțiunile plictisitoare sau repetitive. În mod similar, în videoclipurile de supraveghere, ar dori să extrageți activități importante și suspecte, ignorând în același timp toate cadrele plictisitoare și redundante capturate.

La un nivel foarte înalt, algoritmii de rezumare încearcă să găsească subseturi de obiecte (cum ar fi un set de propoziții sau un set de imagini), care acoperă informațiile întregului set. Acesta se mai numește și setul de bază. Acești algoritmi modelează noțiuni precum diversitatea, acoperirea, informația și reprezentativitatea rezumatului. Tehnici de rezumare bazate pe interogări, în plus model pentru relevanța rezumatului cu interogarea. Unele tehnici și algoritmi care modelează în mod natural problemele de rezumare sunt TextRank și PageRank, funcția set submodular, procesul de punct determinant, relevanța marginală maximă (MMR) etc.

Extragerea frazelor cheie

Sarcina este următoarea. Vi se oferă o bucată de text, cum ar fi un articol de jurnal, și trebuie să produceți o listă de cuvinte cheie sau de expresii-cheie care surprind subiectele principale discutate în text. În cazul articolelor de cercetare, mulți autori oferă cuvinte cheie atribuite manual, dar majoritatea textului nu are expresii cheie preexistente. De exemplu, articolele de știri rareori au atașate expresii cheie, dar ar fi util să se poată face acest lucru automat pentru o serie de aplicații discutate mai jos. Luați în considerare textul exemplu dintr-un articol de știri:

„Corpul Inginerilor din Armată, grăbindu-se să îndeplinească promisiunea președintelui Bush de a proteja New Orleans până la începutul sezonului uraganelor din 2006, a instalat pompe defective de control al inundațiilor anul trecut, în ciuda avertismentelor din partea propriului său expert că echipamentul se va defecta în timpul unei furtuni, potrivit documentelor obţinute de The Associated Press”.

Un extractor de fraze cheie poate selecta „Corpul Inginerilor din Armată”, „Președintele Bush”, „New Orleans” și „pompe defective de control al inundațiilor” ca fraze cheie. Acestea sunt extrase direct din text. Dimpotrivă, un sistem abstract de fraze cheie ar internaliza cumva conținutul și ar genera expresii cheie care nu apar în text, dar care seamănă mai mult cu ceea ce ar putea produce un om, cum ar fi „neglijență politică” sau „protecție inadecvată împotriva inundațiilor”. Abstractizarea necesită o înțelegere profundă a textului, ceea ce este dificil pentru un sistem informatic. Expresiile cheie au multe aplicații. Acestea pot permite navigarea documentelor furnizând un scurt rezumat, îmbunătățesc regăsirea informațiilor (dacă documentele au expresii cheie atribuite, un utilizator ar putea căuta după expresia cheie pentru a produce rezultate mai fiabile decât o căutare cu text integral) și pot fi folosite în generarea de intrări de index pentru un număr mare de corpus text.

În funcție de literatură diferită și de definiția termenilor, cuvintelor sau expresiilor cheie, tema foarte înrudită este cu siguranță extragerea cuvintelor cheie.

Abordări de învățare supravegheată

Începând cu munca lui Turney, mulți cercetători au abordat extragerea frazelor cheie ca pe o problemă de învățare automată supravegheată. Având în vedere un document, construim un exemplu pentru fiecare unigramă, bigramă și trigramă găsită în text (deși sunt posibile și alte unități de text, așa cum se discută mai jos). Apoi calculăm diferite caracteristici care descriu fiecare exemplu (de exemplu, expresia începe cu o literă majusculă?). Presupunem că există expresii cheie cunoscute disponibile pentru un set de documente de instruire. Folosind frazele cheie cunoscute, putem atribui exemplelor etichete pozitive sau negative. Apoi învățăm un clasificator care poate face distincția între exemplele pozitive și cele negative în funcție de caracteristici. Unii clasificatori fac o clasificare binară pentru un exemplu de testare, în timp ce alții atribuie o probabilitate de a exista o expresie cheie. De exemplu, în textul de mai sus, s-ar putea să învățăm o regulă care spune că expresiile cu majuscule inițiale pot fi expresii cheie. După instruirea unui cursant, putem selecta expresii cheie pentru documentele de testare în felul următor. Aplicăm aceeași strategie de generare de exemple documentelor de testare, apoi rulăm fiecare exemplu prin cursant. Putem determina expresiile cheie analizând deciziile de clasificare binară sau probabilitățile returnate din modelul nostru învățat. Dacă sunt date probabilități, se folosește un prag pentru a selecta frazele cheie. Extractoarele de fraze cheie sunt, în general, evaluate folosind precizia și reamintirea. Precizia (P) măsoară câte dintre frazele cheie propuse sunt de fapt corecte. Reamintirea (R) măsoară câte dintre adevăratele fraze-cheie le-a propus sistemul dvs. Cele două măsuri pot fi combinate într-un scor F, care este media armonică a celor două (F = 2PR/(P + R) ). Potrivirile dintre expresiile cheie propuse și expresiile cheie cunoscute pot fi verificate după ce ați terminat sau aplicați o altă normalizare a textului.

Proiectarea unui sistem supravegheat de extragere a frazelor cheie implică decizia asupra mai multor alegeri (unele dintre acestea se aplică și celor nesupravegheate). Prima alegere este exact cum se generează exemple. Turney și alții au folosit toate unigramele, bigramele și trigramele posibile fără semne de punctuație și după eliminarea cuvintelor de oprire. Hulth a arătat că puteți obține unele îmbunătățiri selectând exemple care să fie secvențe de jetoane care se potrivesc cu anumite modele de etichete parțial de vorbire. În mod ideal, mecanismul de generare a exemplelor produce toate expresiile cheie cunoscute etichetate drept candidați, deși adesea nu este cazul. De exemplu, dacă folosim numai unigrame, bigrame și trigrame, atunci nu vom putea extrage niciodată o expresie cheie cunoscută care conține patru cuvinte. Astfel, reamintirea poate avea de suferit. Cu toate acestea, generarea prea multor exemple poate duce și la o precizie scăzută.

De asemenea, trebuie să creăm caracteristici care să descrie exemplele și să fie suficient de informative pentru a permite unui algoritm de învățare să discrimineze expresiile cheie de cele care nu sunt cheie. De obicei, caracteristicile implică diverse frecvențe de termeni (de câte ori apare o frază în textul curent sau într-un corpus mai mare), lungimea exemplului, poziția relativă a primei apariții, diverse caracteristici sintactice booleene (de exemplu, conține toate majusculele) etc. Lucrarea lui Turney a folosit aproximativ 12 astfel de caracteristici. Hulth folosește un set redus de funcții, care au fost găsite cu cel mai mare succes în lucrarea KEA (Algoritmul de extracție a frazelor cheie) derivată din lucrarea fundamentală a lui Turney.

În cele din urmă, sistemul va trebui să returneze o listă de fraze cheie pentru un document de testare, așa că trebuie să avem o modalitate de a limita numărul. Metodele de ansamblu (adică, utilizarea voturilor de la mai multe clasificatoare) au fost folosite pentru a produce scoruri numerice care pot fi limitate pentru a oferi un număr de fraze cheie furnizate de utilizator. Aceasta este tehnica folosită de Turney cu arbori de decizie C4.5. Hulth a folosit un singur clasificator binar, astfel încât algoritmul de învățare determină implicit numărul corespunzător.

Odată ce exemplele și caracteristicile sunt create, avem nevoie de o modalitate de a învăța să prezicem expresiile cheie. Ar putea fi utilizat aproape orice algoritm de învățare supravegheată, cum ar fi arbori de decizie, Bayes naiv și inducerea regulilor. În cazul algoritmului GenEx al lui Turney, un algoritm genetic este utilizat pentru a învăța parametrii pentru un algoritm de extracție a frazei cheie specifice unui domeniu. Extractorul urmează o serie de euristici pentru a identifica expresiile cheie. Algoritmul genetic optimizează parametrii pentru aceste euristici în ceea ce privește performanța pe documentele de instruire cu fraze cheie cunoscute.

Sursa: Drew Bentley, Business Intelligence and Analytics. © 2017 Library Press, Licență CC BY-SA 4.0. Traducere și adaptare: Nicolae Sfetcu

Introducere în inteligența artificială
Introducere în inteligența artificială

Inteligența artificială s-a dezvoltat exploziv în ultimii ani, facilitând luarea deciziilor inteligente și automate în cadrul scenariilor de implementare. Inteligența artificială se referă la un ecosistem de modele și tehnologii pentru percepție, raționament, interacțiune și învățare.  Asistăm la o convergență … Citeşte mai mult

Nu a fost votat $2.99$5.24 Selectează opțiunile
Etica Big Data în cercetare
Etica Big Data în cercetare

Principalele probleme cu care se confruntă oamenii de știință în lucrul cu seturile mari de date (Big Data), evidențiind principale aspecte etice, luând în considerare inclusiv legislația din Uniunea Europeană. După o scurtă Introducere despre Big Data, secțiunea Tehnologia prezintă … Citeşte mai mult

Nu a fost votat $0.00$2.35 Selectează opțiunile
Analitica rețelelor sociale
Analitica rețelelor sociale

Analitica rețelelor sociale este un domeniu nou și emergent, pregătit pentru a permite companiilor să își îmbunătățească inițiativele de gestionare a performanței în diferite funcții de afaceri. Indiferent dacă este vorba de măsurarea eficienței campaniilor promoționale, colectarea de informații despre … Citeşte mai mult

Nu a fost votat $3.99 Selectează opțiunile

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *