Extragerea informațiilor (EI) este sarcina de a extrage automat informații structurate din documente nestructurate și / sau semi-structurate care pot fi citite automat și din alte surse reprezentate electronic. În majoritatea cazurilor, această activitate se referă la procesarea textelor în limbaj uman prin intermediul procesării limbajului natural (natural language processing, NLP). Activitățile recente în procesarea documentelor multimedia, cum ar fi adnotarea automată și extragerea conținutului din imagini / audio / video / documente, ar putea fi văzute ca extragere a informațiilor
Datorită dificultății problemei, abordările actuale ale EI se concentrează pe domenii restrânse. Un exemplu este extragerea din rapoartele agențiilor de știri a fuziunilor corporative, cum ar fi cea denotată de relația formală:
MergerBetween(company1, company2, date)
dintr-o propoziție de știri online, cum ar fi:
„Ieri, Foo Inc. din New York a anunțat achiziționarea Bar Corp.”
Un obiectiv larg al EI este de a permite efectuarea calculelor pe datele nestructurate anterior. Un scop mai specific este acela de a permite raționamentului logic să facă inferențe pe baza conținutului logic al datelor de intrare. Datele structurate sunt date semantic bine definite dintr-un domeniu țintă ales, interpretate în funcție de categorie și context.
Extragerea informațiilor face parte dintr-un puzzle mai mare care se ocupă de problema elaborării metodelor automate de gestionare a textului, dincolo de transmiterea, stocarea și afișarea acestuia. Disciplina de recuperare a informațiilor (RI) a dezvoltat metode automate, de obicei cu o aromă statistică, pentru indexarea colecțiilor mari de documente și clasificarea documentelor. O altă abordare complementară este cea a procesării limbajului natural (NLP), care a rezolvat problema modelării procesării limbajului uman cu un succes considerabil, luând în considerare amploarea sarcinii. În ceea ce privește atât dificultatea, cât și accentul, EI se ocupă de sarcini între RI și NLP. În ceea ce privește intrarea, EI presupune existența unui set de documente în care fiecare document urmează un șablon, adică descrie una sau mai multe entități sau evenimente într-un mod similar cu cel din alte documente, dar diferit în detalii. Un exemplu, ia în considerare un grup de articole de știri despre terorismul din America Latină, fiecare articol presupus a fi bazat pe unul sau mai multe acte teroriste. De asemenea, definim pentru orice sarcină EI dată un șablon, care este un (sau un set de) cadre de caz pentru a deține informațiile conținute într-un singur document. Pentru exemplul terorismului, un șablon ar avea sloturi corespunzătoare făptuitorului, victimei și armei actului terorist și data la care s-a întâmplat evenimentul. Un sistem EI pentru această problemă este necesar pentru a „înțelege” un articol de atac doar suficient pentru a găsi date corespunzătoare sloturilor din acest șablon.
Istorie
Extragerea informațiilor datează de la sfârșitul anilor 1970, în primele zile ale NLP. Un sistem comercial timpuriu de la mijlocul anilor 1980 a fost construit de JASPER pentru Reuters de către Carnegie Group Inc cu scopul de a oferi știri financiare în timp real comercianților financiari.
Începând cu 1987, EI a fost stimulat de o serie de conferințe de înțelegere a mesajelor. MUC este o conferință bazată pe competiție care s-a axat pe următoarele domenii:
- MUC-1 (1987), MUC-2 (1989): Mesaje de operațiuni navale.
- MUC-3 (1991), MUC-4 (1992): Terorismul în țările din America Latină.
- MUC-5 (1993): Domeniul întreprinderilor mixte și microelectronică.
- MUC-6 (1995): Articole de știri despre schimbările de management.
- MUC-7 (1998): Rapoarte de lansare prin satelit.
Un sprijin considerabil a venit de la Agenția SUA pentru Proiecte de Cercetare Avansată (DARPA), care a dorit să automatizeze sarcinile banale îndeplinite de analiștii guvernamentali, cum ar fi scanarea ziarelor pentru posibile legături cu terorismul.
Semnificația actuală
Semnificația actuală a EI se referă la cantitatea tot mai mare de informații disponibile sub formă nestructurată. Tim Berners-Lee, inventatorul rețelei web mondiale, se referă la internetul existent drept rețeaua de documente și susține ca mai mult din conținut să fie pus la dispoziție ca rețea de date. Până când acest lucru nu se va întâmpla, web-ul constă în mare parte din documente nestructurate lipsite de metadate semantice. Cunoștințele conținute în aceste documente pot fi făcute mai accesibile pentru procesarea mașinilor prin transformarea în formă relațională sau prin marcarea cu etichete XML. Un agent inteligent care monitorizează un flux de date de știri necesită ca IE să transforme datele nestructurate în ceva care poate fi motivat. O aplicație tipică a IE este scanarea unui set de documente scrise într-un limbaj natural și completarea unei baze de date cu informațiile extrase.
Include texte traduse din Wikipedia
Lasă un răspuns