Un alt algoritm de extragere a frazelor cheie este TextRank. În timp ce metodele supravegheate au câteva proprietăți frumoase, cum ar fi capacitatea de a produce reguli interpretabile pentru caracteristicile care caracterizează o expresie cheie, ele necesită, de asemenea, o cantitate mare de date de antrenament. Sunt necesare multe documente cu expresii cheie cunoscute. În plus, antrenamentul pe un anumit domeniu tinde să personalizeze procesul de extracție la acel domeniu, astfel încât clasificatorul rezultat nu este neapărat portabil, așa cum demonstrează unele dintre rezultatele lui Turney. Extragerea nesupravegheată a frazelor cheie elimină nevoia de date de antrenament. Ea abordează problema dintr-un unghi diferit. În loc să încerce să învețe caracteristici explicite care caracterizează expresiile cheie, algoritmul TextRank exploatează structura textului în sine pentru a determina expresiile cheie care apar „centrale” pentru text, în același mod în care PageRank selectează paginile web importante. Amintiți-vă că acest lucru se bazează pe noțiunea de „prestigiu” sau „recomandare” din rețelele sociale. În acest fel, TextRank nu se bazează deloc pe date de antrenament anterioare, ci mai degrabă poate fi rulat pe orice bucată de text arbitrară și poate produce rezultate pur și simplu pe baza proprietăților intrinseci ale textului. Astfel algoritmul este ușor de portat în noi domenii și limbaje.
TextRank este un algoritm de clasare bazat pe grafice de uz general pentru NLP. În esență, rulează PageRank pe un grafic special conceput pentru o anumită sarcină NLP. Pentru extragerea frazelor cheie, construiește un grafic folosind un set de unități de text ca noduri. Muchiile se bazează pe o anumită măsură a asemănării semantice sau lexicale între nodurile unității de text. Spre deosebire de PageRank, marginile sunt de obicei nedirecționate și pot fi ponderate pentru a reflecta un grad de similitudine. Odată construit graficul, acesta este folosit pentru a forma o matrice stocastică, combinată cu un factor de amortizare (ca în „modelul de surfer aleatoriu”), iar clasificarea peste noduri este obținută prin găsirea vectorului propriu corespunzător valorii proprii 1 (adică, distribuţia staţionară a mersului aleator pe grafic).
Nodurile ar trebui să corespundă cu ceea ce vrem să clasăm. Potențial, am putea face ceva similar cu metodele supravegheate și am crea un nod pentru fiecare unigramă, bigramă, trigramă etc. Cu toate acestea, pentru a menține graficul mic, autorii decid să clasifice unigramele individuale într-un prim pas, apoi să includă un al doilea pas care îmbină unigramele adiacente bine clasate pentru a forma expresii cu mai multe cuvinte. Acest lucru are un efect secundar frumos de a ne permite să producem fraze cheie de lungime arbitrară. De exemplu, dacă clasificăm unigramele și constatăm că „procesare” „avansat”, „limbaj” și „natural” obțin toate ranguri înalte, atunci ne-am uita la textul original și vom vedea că aceste cuvinte apar consecutiv și creează în final expresia cheie folosind toate patru împreună. Rețineți că unigramele plasate în grafic pot fi filtrate printr-o parte a vorbirii. Autorii au descoperit că adjectivele și substantivele sunt cele mai bune de inclus. Astfel, unele cunoștințe lingvistice intră în joc în acest pas.
Marginile sunt create pe baza apariției simultane a cuvintelor în această aplicație a TextRank. Două noduri sunt conectate printr-o muchie dacă unigramele apar într-o fereastră de dimensiune N în textul original. N este de obicei în jur de 2-10. Astfel, „natural” și „limbaj” ar putea fi legate într-un text despre NLP. „Natural” și „procesare” ar fi, de asemenea, conectate, deoarece ambele ar apărea în același șir de N cuvinte. Aceste margini se bazează pe noțiunea de „coeziune a textului” și pe ideea că cuvintele care apar unul lângă altul sunt probabil legate într-un mod semnificativ și se „recomandă” reciproc cititorului.
Deoarece această metodă clasifică pur și simplu nodurile individuale, avem nevoie de o modalitate de a limita sau de a produce un număr limitat de fraze cheie. Tehnica aleasă este să setați un număr T să fie o fracțiune specificată de utilizator din numărul total de noduri din grafic. Apoi, nodurile/unigramele de sus T sunt selectate pe baza probabilităților lor staționare. Se aplică apoi un pas de postprocesare pentru a îmbina instanțele adiacente ale acestor unigrame T. Ca rezultat, vor fi produse mai multe sau mai puține expresii cheie finale, dar numărul ar trebui să fie aproximativ proporțional cu lungimea textului original.
Inițial, nu este clar de ce aplicarea PageRank unui grafic de co-ocurență ar produce expresii cheie utile. O modalitate de a gândi la asta este următoarea. Un cuvânt care apare de mai multe ori într-un text poate avea mai mulți vecini concomitenți. De exemplu, într-un text despre învățarea automată, unigrama „învățare” poate apărea împreună cu „mașină”, „supravegheată”, „nesupravegheată” și „semi-supravegheată” în patru propoziții diferite. Astfel, nodul „învățare” ar fi un „hub” central care se conectează la aceste alte cuvinte modificatoare. Rularea PageRank/TextRank pe grafic are probabil ca „învățare” să se claseze foarte bine. În mod similar, dacă textul conține expresia „clasificare supravegheată”, atunci ar exista o margine între „supravegheat” și „clasificare”. Dacă „clasificarea” apare mai multe alte locuri și, prin urmare, are mulți vecini, importanța sa ar contribui la importanța „supravegheată”. Dacă ajunge la un rang înalt, va fi selectat ca una dintre primele T unigrame, împreună cu „învățare” și probabil „clasificare”. În pasul final de post-procesare, vom ajunge apoi cu expresii cheie „învățare supravegheată” și „clasificare supravegheată”.
Pe scurt, graficul de co-ocurență va conține regiuni dens conectate pentru termeni care apar des și în contexte diferite. O plimbare aleatorie pe acest grafic va avea o distribuție staționară care atribuie probabilități mari termenilor din centrele clusterelor. Acest lucru este similar cu paginile web dens conectate care sunt clasate foarte bine de PageRank. Această abordare a fost utilizată și în rezumarea documentelor, analizată mai jos.
Rezumarea documentelor
La fel ca extragerea frazelor cheie, rezumarea documentelor are ca scop identificarea esenței unui text. Singura diferență reală este că acum avem de-a face cu unități de text mai mari – propoziții întregi în loc de cuvinte și expresii.
Înainte de a intra în detaliile unor metode de rezumare, vom menționa cum sunt evaluate de obicei sistemele de rezumare. Cea mai comună metodă este utilizarea așa-numitei măsurători ROUGE (Recall-Oriented Understudy for Gisting Evaluation). Aceasta este o măsură bazată pe reamintire care determină cât de bine un rezumat generat de sistem acoperă conținutul prezent într-unul sau mai multe rezumate model generate de oameni, cunoscute sub numele de referințe. Se bazează pe reamintire pentru a încuraja sistemele să includă toate subiectele importante în text. Retragerea poate fi calculată în funcție de potrivirea unigramă, bigramă, trigramă sau patrigramă. De exemplu, ROUGE-1 este calculat ca diviziune a numărului de unigrame în referință care apar în sistem și numărul de unigrame în rezumatul referințelor.
Dacă există mai multe referințe, scorurile ROUGE-1 sunt mediate. Deoarece ROUGE se bazează numai pe suprapunerea conținutului, poate determina dacă aceleași concepte generale sunt discutate între un rezumat automat și un rezumat de referință, dar nu poate determina dacă rezultatul este coerent sau propozițiile se confundă într-un mod sensibil. Măsurile ROUGE de ordin înalt n-grame încearcă să judece fluența într-o anumită măsură. Rețineți că ROUGE este similar cu măsura BLEU pentru traducerea automată, dar BLEU se bazează pe precizie, deoarece sistemele de traducere favorizează acuratețea.
O linie promițătoare în rezumarea documentelor este rezumarea adaptativă document/text. Ideea de rezumare adaptivă presupune recunoașterea prealabilă a genului de document/text și aplicarea ulterioară a algoritmilor de rezumare optimizați pentru acest gen. Au fost create primele rezumate care efectuează rezumat adaptiv.
Abordări de învățare supravegheată
Rezumarea supervizată a textului seamănă foarte mult cu extragerea supravegheată a frazelor cheie. Practic, dacă aveți o colecție de documente și rezumate generate de oameni pentru acestea, puteți afla caracteristici ale propozițiilor care le fac candidați buni pentru includerea în rezumat. Caracteristicile ar putea include poziția în document (adică primele câteva propoziții sunt probabil importante), numărul de cuvinte din propoziție etc. Principala dificultate în rezumarea extractivă supravegheată este că rezumatele cunoscute trebuie create manual prin extragerea propozițiilor, astfel încât propozițiile dintr-un document de instruire original pot fi etichetate ca „în rezumat” sau „nu în rezumat”. Acesta nu este, de obicei, modul în care oamenii creează rezumate, așa că simpla folosire a rezumatelor de jurnal sau a rezumatelor existente nu este de obicei suficientă. Propozițiile din aceste rezumate nu se potrivesc neapărat cu propozițiile din textul original, așa că ar fi dificil să atribui etichete exemplelor pentru instruire. Rețineți, totuși, că aceste rezumate naturale pot fi folosite în continuare în scopuri de evaluare, deoarece lui ROUGE-1 îi pasă doar de unigrame.
Rezumare bazată pe entropie maximă
În cadrul atelierelor de evaluare DUC 2001 și 2002, TNO a dezvoltat un sistem de extragere a propozițiilor pentru rezumarea mai multor documente în domeniul știrilor. Sistemul s-a bazat pe un sistem hibrid folosind un clasificator Bayes naiv și modele de limbaj statistic pentru modelarea proeminenței. Deși sistemul a prezentat rezultate bune, cercetătorii au vrut să exploreze eficiența unui clasificator de entropie maximă (ME) pentru sarcina de rezumare a întâlnirilor, deoarece ME este cunoscut a fi robust împotriva dependențelor caracteristicilor. Entropia maximă a fost aplicată cu succes și pentru rezumat în domeniul știrilor difuzate.
TextRank și LexRank
Abordarea nesupravegheată a rezumatului este, de asemenea, destul de asemănătoare în spirit cu extragerea nesupravegheată a frazelor cheie și ocolește problema datelor costisitoare de antrenament. Unele abordări de rezumare nesupravegheate se bazează pe găsirea unei propoziții „centroid”, care este vectorul cuvântului mediu al tuturor propozițiilor din document. Apoi propozițiile pot fi clasificate în funcție de asemănarea lor cu această propoziție centroid.
O modalitate mai bazată pe principii de a estima importanța propoziției este utilizarea mersurilor aleatorii și a centralității vectorului propriu. LexRank este un algoritm în esență identic cu TextRank și ambii folosesc această abordare pentru rezumarea documentelor. Cele două metode au fost dezvoltate de grupuri diferite în același timp, iar LexRank s-a concentrat pur și simplu pe rezumat, dar puteau fi la fel de ușor utilizate pentru extragerea expresiilor cheie sau orice altă sarcină de clasare NLP.
Atât în LexRank, cât și în TextRank, un grafic este construit prin crearea unui nod pentru fiecare propoziție din document.
Marginile dintre propoziții se bazează pe o formă de similitudine semantică sau de suprapunere a conținutului. În timp ce LexRank folosește asemănarea cosinus a vectorilor TF-IDF, TextRank folosește o măsură foarte similară, bazată pe numărul de cuvinte pe care două propoziții le au în comun (normalizate de lungimea propozițiilor). Lucrarea LexRank a explorat utilizarea marginilor neponderate după aplicarea unui prag valorilor cosinus, dar a experimentat și utilizarea marginilor cu ponderi egale cu scorul de similaritate. TextRank folosește scoruri de similaritate continue ca ponderi.
În ambii algoritmi, propozițiile sunt ordonate prin aplicarea PageRank la graficul rezultat. Un rezumat se formează prin combinarea propozițiilor de top, folosind un prag sau o lungime limită pentru a limita dimensiunea rezumatului.
Merită remarcat faptul că TextRank a fost aplicat rezumatului exact așa cum este descris aici, în timp ce LexRank a fost folosit ca parte a unui sistem de sumarizare mai mare (MEAD) care combină scorul LexRank (probabilitate staționară) cu alte caracteristici precum poziția și lungimea propoziției folosind o combinație liniară cu greutăți specificate de utilizator sau reglate automată. În acest caz, ar putea fi necesare unele documente de instruire, deși rezultatele TextRank arată că funcțiile suplimentare nu sunt absolut necesare.
O altă distincție importantă este că TextRank a fost folosit pentru rezumarea unui singur document, în timp ce LexRank a fost aplicat pentru rezumarea mai multor documente. Sarcina rămâne aceeași în ambele cazuri – doar numărul de propoziții din care să alegeți a crescut. Cu toate acestea, când rezumați mai multe documente, există un risc mai mare de a selecta propoziții duplicat sau extrem de redundante pentru a le plasa în același rezumat. Imaginați-vă că aveți un grup de articole de știri despre un anumit eveniment și doriți să realizați un rezumat. Este posibil ca fiecare articol să aibă multe propoziții similare și ați dori să includeți numai idei distincte în rezumat. Pentru a rezolva această problemă, LexRank aplică o etapă de post-procesare euristică, care creează un rezumat adăugând propoziții în ordinea clasamentului, dar renunță la orice propoziții care sunt prea asemănătoare cu cele deja plasate în rezumat. Metoda utilizată se numește Cross-Sentence Information Subsumption (CSIS).
Aceste metode funcționează pe baza ideii că propozițiile „recomandă” cititorului alte propoziții similare. Astfel, dacă o propoziție este foarte asemănătoare cu multe altele, va fi probabil o propoziție de mare importanță. Importanța acestei propoziții provine și din importanța propozițiilor care o „recomandă”. Astfel, pentru a obține o poziție superioară și plasată într-un rezumat, o propoziție trebuie să fie similară cu multe propoziții care sunt, la rândul lor, similare cu multe alte propoziții. Acest lucru are sens intuitiv și permite aplicarea algoritmilor oricărui text nou arbitrar. Metodele sunt independente de domeniu și ușor de portat. Ne-am putea imagina caracteristicile care indică propoziții importante în domeniul știrilor putând varia considerabil față de domeniul biomedical. Cu toate acestea, abordarea nesupravegheată bazată pe „recomandări” se aplică oricărui domeniu.
Sursa: Drew Bentley, Business Intelligence and Analytics. © 2017 Library Press, Licență CC BY-SA 4.0. Traducere și adaptare: Nicolae Sfetcu
Lasă un răspuns