Cea mai mare parte a informațiilor conținute în documentele de afaceri (circa 80%) este codificată în limbaj natural și, prin urmare, nestructurate. Deoarece datele nestructurate sunt mai degrabă o provocare pentru extragerea cunoștințelor, sunt necesare metode mai sofisticate, care, în general, au tendința de a furniza rezultate mai proaste comparativ cu datele structurate. Potențialul pentru o achiziție masivă a cunoștințelor extrase, cu toate acestea, ar trebui să compenseze creșterea complexității și scăderea calității extracției. În cele ce urmează, sursele naturale de limbă sunt înțelese ca surse de informații, unde datele sunt oferite într-o manieră nestructurată ca text simplu. Dacă textul dat este încorporat suplimentar într-un document de marcare (de ex., document HTML), sistemele menționate în mod normal elimină automat elementele de marcare.
Extracție de informații (EI) tradițională
Extragerea de informații tradițională este o tehnologie de procesare a limbajului natural, care extrage informații din texte de limbaj și structurile acestora în mod tipic naturale, într-un mod adecvat. Tipurile de informații care urmează să fie identificate trebuie să fie specificate într-un model înainte de a începe procesul, acesta fiind motivul pentru care întregul proces de extragere a informațiilor tradițională este dependentă de domeniu. EI este împărțită în următoarele cinci sarcini secundare.
- Recunoașterea entități numite (REN)
- Rezoluția coreferenței (CO)
- Construcția elementului șablon (ES)
- Construcția relației șablon (RS)
- Producția scenariu șablon (SS)
Sarcina de recunoaștere a entității numite este de a recunoaște și de a clasifica toate entitățile numite conținute într-un text (atribuirea unei entități numite într-o categorie predefinită). Aceasta funcționează prin aplicarea unor metode bazate pe gramatică sau modele statistice.
Rezoluția coreferenței identifică entități echivalente, care au fost recunoscute de către REN, într-un text. Există două tipuri relevante de relație de echivalență. Prima dintre ele se referă la relația dintre două entități diferite reprezentate (de exemplu, IBM Europa și IBM), iar al doilea la relația dintre o entitate și referințele anaforice ale acesteia. Ambele tipuri pot fi recunoscute prin rezoluția coreferenței.
În timpul construcției elementului șablon sistemul EI identifică proprietățile descriptive ale entităților, recunoscute de REN și CO. Aceste proprietăți corespund calităților obișnuite cum ar fi roșu sau mare.
Construcție relației șablon identifică relațiile care există între elementele șablon. Aceste relații pot fi de mai multe feluri, cum ar fi lucrul-pentru sau localizat-în, cu restricția că atât domeniu cât și intervalul corespund entităților.
În evenimentele de producția scenariu șablon, care sunt descrise în text, vor fi identificate și structurate în funcție de entități, recunoscute de REN și CO și relații, identificate prin RS.
Extracția de informații bazată pe ontologie (EIBO)
Extracția de informații bazată pe ontologie este un subdomeniu de extragere a informației, în care cel puțin o ontologie este utilizată pentru a ghida procesul de extragere a informației din textul din limbajul natural. Sistemul OBIE utilizează metode de extragere a informației tradiționale pentru a identifica concepte, cazuri și relațiile ontologiilor utilizate în text, care vor fi structurate într-o ontologie după proces. Astfel, intrarea ontologiilor constituie modelul de informații care trebuie extrase.
Învățarea ontologiei
Învățarea ontologiei constă în crearea automată sau semi-automată a ontologiilor, inclusiv extragerea termenilor de domeniu corespunzători din textul în limbajul natural. Întrucât construcția manuală a ontologiilor este extrem de laborioasă și consumatoare de timp, există o mare motivație pentru a automatiza procesul.
Adnotare semantică
În timpul adnotării semantice, textul limbajului natural este completat cu metadate (adesea reprezentate în RDFa), care ar trebui să facă inteligibilă semantica mașini termenii. În acest proces, care este în general semi-automat, cunoștințele sunt extrase în sensul că este stabilită o legătură între termenii lexicali și, de exemplu, concepte din ontologii. Astfel, cunoașterea este dobândită, ce semnificație a unui termen, în contextul prelucrat s-a dorit și, prin urmare, semnificația textului este implementată în date care pot fi citite de mașină cu posibilitatea de a trage concluzii. Adnotarea semantică este de obicei împărțită în următoarele două sarcinile secundare.
- Extracția terminologiei
- Corelarea entității
La nivelul de extracție a terminologiei, sunt extrași termenii lexicali din text. În acest scop, un proces de marcare și clasificare determină la început limitele de cuvinte și rezolvă abrevierile. După aceea, termenii din text care corespund unui concept sunt extrași cu ajutorul unui lexic specifice unui domeniu pentru a-i lega la entitate.
În entitatea care se leagă se stabilește o legătură între termenii lexicali extrași din textul sursă și conceptele dintr-o bază de ontologie sau cunoștințe, cum ar fi stabilit DBpedia. Pentru aceasta, conceptele candidate sunt detectate în mod adecvat la mai multe sensuri ale unui termen cu ajutorul unui lexicon. În cele din urmă, contextul termenilor este analizat pentru a determina dezambiguizarea cea mai potrivită și pentru a atribui termenul unui conceptul corect.
Instrumente
Următoarele criterii pot fi utilizate pentru a clasifica instrumentele care extrag cunoștințe din textul în limbaj natural.
- Sursa >>> Ce formate de intrare pot fi procesate de către instrument (de exemplu, text simplu, HTML sau PDF)?
- Paradigma de acces >>> Poate instrumentul să interogheze sursa de date sau să necesite un întreg depozit pentru procesul de extracție?
- Sincronizarea datelor >>> Este rezultatul procesului de extracție sincronizat cu sursa?
- Utilizarea ontologiei de ieșire >>> Leagă instrumentul rezultatul cu o ontologie?
- Automatizarea mapării >>> Cum este procesul de extracție automatizat (manuală, semi-automtic sau automat)?
- Necesitatea ontologiei >>> Are instrumentul nevoie de o ontologie pentru extracție?
- Utilizarea GUI >>> Oferă instrumentul o interfață grafică cu utilizatorul?
- Abordare >>> Care abordare (IE, OBIE, OL sau SA) este utilizată de instrument?
- Entități extrase >>> Ce tipuri de entități (de exemplu, entități numite, concepte sau relații) pot fi extrase de instrument?
- Tehnici aplicate >>> Ce tehnici sunt aplicate (de exemplu, NLP, metode statistice, gruparea sau mașina de învățare)?
- Model de ieșire >>> Ce model este utilizat pentru a reprezenta rezultatul instrumentului (de ex., RDF sau OWL)?
- Domenii acceptate >>> Ce domenii sunt suportate (de exemplu, economie sau biologie)?
- Limbi suportate >>> Ce limbi pot fi prelucrate (de exemplu, limba engleză sau germană)?
Tabelul de mai jos caracterizează unele instrumente pentru extracție din surse naturale de limbaj.
Nume | Sursa | Paradigma acces | Sincronizare date | Ontologia ieșire utilizatori | Automatizzarea mapării | Necesită ontologie | GUI utilizatori | Abordare | Entități extrase | Tehnici utilizate | Model ieșire | Domenii suportate | Limbi suportate |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
AeroText | text simplu, HTML, XML, SGML | dump | nu | da | automat | da | da | IE | entități numite, relații, evenimente | nurme lingvistice | proprietar | independent de domeniu | engleză, spaniolă, arabă, chineză, indoneziană |
AlchemyAPI | text simplu, HTML | automat | da | SA | multilingual | ||||||||
ANNIE | text simplu | dump | da | da | IE | stări finite de algoritmi | multilingual | ||||||
ASIUM | text simplu | dump | semi-automat | da | OL | concepte, ierarhizarea conceptelor | NLP, grupare | ||||||
Attensity Exhaustive Extraction | automat | IE | entități numite, relații, evenimente | NLP | |||||||||
Dandelion API | text simplu, HTML, URL | REST | nu | nu | automat | nu | da | SA | entități numite, concepte | metode statistice | JSON | independent de domeniu | multilingual |
DBpedia Spotlight | text simplu, HTML | dump, SPARQL | da | da | automat | nu | da | SA | adnotare la fiecare cuvânt, adnotare la cuvinte nefiltrate | NLP, metode statistice, învățare mașină | RDFa | independent de domeniu | engleză |
EntityClassifier.eu | text simplu, HTML | dump | da | da | automat | nu | da | IE, OL, SA | adnotare la fiecare cuvânt, adnotare la cuvinte nefiltrate | gramatica bazată pe reguli | XML | independent de domeniu | engleză, germană, olandeză |
FRED | text simplu, PDF și Word via Sheldon | dump, REST | da | automat | nu | da | OL+IE+SA | concepte, ierarhizarea conceptelor, cadre, evenimente, relații, entitati numite, negație, modalitate, încordare, entitate care leagă, alinierea schemei, sentiment (prin Sentilo) | NLP, SPARQL, reguli euristice, modele de design ontologii | RDF-OWL, Turtle, NT, JSON-LD, DAG, diagrame | independent de domeniu | engleză, multilingual input | |
K-Extractor | text simplu, HTML, XML, PDF, MS Office, e-mail | dump, SPARQL | da | da | automat | nu | da | IE, OL, SA | concepte, entități numite, instanțe, ierarhie concept, relații generice, relații definite de utilizator, evenimente, modalitate, tensionare, entitate care leagă, eveniment care leagă, sentiment | NLP, învățare mașină, reguli euristice | RDF, OWL, XML proprietar | independent de domeniu | engleză, spaniolă |
iDocument | HTML, PDF, DOC | SPARQL | da | da | OBIE | instances, property values | NLP | personal, afaceri | |||||
NetOwl Extractor | text simplu, HTML, XML, SGML, PDF, MS Office | dump | Nu | Da | Automat | da | Da | IE | entități numite, relații, evenimente | NLP | XML, JSON, RDF-OWL, others | domenii multiple | engleză, arabă chineză (simplificată și tradițională), franceză, coreeană, persană (Farsi și Dari), rusă, spaniolă |
OntoGen | semi-automat | da | OL | concepte, ierarhizarea conceptelor, nun-taxonumic relations, instances | NLP, învățare mașină, grupare | ||||||||
OntoLearn | text simplu, HTML | dump | nu | da | automat | da | nu | OL | concepte, ierarhizarea conceptelor, instances | NLP, metode statistice | proprietary | independent de domeniu | engleză |
OntoLearn Reloaded | text simplu, HTML | dump | nu | da | automat | da | nu | OL | concepte, ierarhizarea conceptelor, instances | NLP, metode statistice | proprietary | independent de domeniu | engleză |
OntoSyphon | HTML, PDF, DOC | dump, interogări motoare de căutare | nu | da | automat | da | nu | OBIE | concepte, relații, instanțe | NLP, metode statistice | RDF | independent de domeniu | engleză |
ontoX | text simplu | dump | nu | da | semi-automat | da | nu | OBIE | instanțe, valori de proprietate tip date | metode euristice | proprietary | independent de domeniu | independent de limbă |
OpenCalais | text simplu, HTML, XML | dump | nu | da | automat | da | nu | SA | adnotare la entități, adnotare la evenimente, adnotare la fapte | NLP, învățare mașină | RDF | independent de domeniu | engleză, franceză, spaniolă |
PoolParty Extractor | text simplu, HTML, DOC, ODT | dump | nu | da | automat | da | da | OBIE | entități numite, concepte, relații, concepte care clasifică textul, îmbogățiri | NLP, învățare mașină, metode statistice | RDF, OWL | independent de domeniu | engleză, germană, spaniolă, franceză |
Rosoka | text simplu, HTML, XML, SGML, PDF, MS Office | dump | Da | Da | automat | nu | Da | IE | entități numite, relații, atribute, concepte | NLP | XML, JSON, RDF, others | domenii multiple | Multilingv (230) |
SCOOBIE | text simplu, HTML | dump | nu | da | automat | nu | nu | OBIE | instanțe, valori de proprietate, tipuri de RDFs | NLP, învățare mașină | RDF, RDFa | independent de domeniu | engleză, germană |
SemTag | HTML | dump | nu | da | automat | da | nu | SA | învățare mașină | database record | independent de domeniu | independent de limbă | |
smart FIX | text simplu, HTML, PDF, DOC, e-Mail | dump | da | nu | automat | nu | da | OBIE | entități numite | NLP, învățare mașină | proprietary | independent de domeniu | engleză, germană, franceză, olandeză, polish |
Text2Onto | text simplu, HTML, PDF | dump | da | nu | semi-automat | da | da | OL | concepte, ierarhizarea conceptelor, relații nun-taxonumice, instanțe, axiome | NLP, metode statistice, învățare mașină, metode bazate pe reguli | OWL | independent de domeniu | engleză, germană, spaniolă |
Text-To-Onto | text simplu, HTML, PDF, PostScript | dump | semi-automat | da | da | OL | concepte, ierarhizarea conceptelor, relațiile nun-taxonumice, entitățile lexicale care se referă la concepte, entități lexicale referindu-se la relații | NLP, învățare mașină, grupare, metode statistice | germană | ||||
ThatNeedle | text simplu | dump | automat | nu | concepte, relații, ierarhie | NLP, proprietar | JSON | domenii multiple | engleză | ||||
The Wiki Machine | text simplu, HTML, PDF, DOC | dump | nu | da | automat | da | da | SA | adnotare la substantive proprii, adnotare a în substantive comune | învățare mașină | RDFa | independent de domeniu | engleză, germană, spaniolă, franceză, portugheză, italiană, rusă |
ThingFinder | IE | entități numite, relații, evenimente | multilingv |
Descoperirea de cunoștințe
Descoperirea cunoștințelor descrie procesul de căutare în mod automat în volume mari de date pentru modele care pot fi considerate cunoștințe despre datele. Aceasta este adesea descris ca derivând cunoștințele din datele de intrare. Descoperirea de cunoștințe s-a dezvoltat din domeniul minieritului de date, și este strâns legată de aceasta, atât în ceea ce privește metodologia cât și terminologia.
Cea mai binecunoscută ramură a mineritului de dater este descoperirea de cunoștințe, de asemenea cunoscută sub numele de descoperirea de cunoștințe în bazele de date. La fel ca și multe alte forme de descoperire de cunoștințe aceasta creează abstracții ale datelor de intrare. Cunoștințele obținute prin proces pot deveni date suplimentare care pot fi utilizate pentru utilizarea ulterioară și descoperire. De multe ori rezultatele din descoperirea de cunoștințe nu sunt acționabile, descoperire de cunoștințe acționabile, de asemenea cunoscută sub numele de mineritul datelor bazat pe domeniu, propunându-și să descopere și să livreze cunoștințe și date concrete.
O altă aplicație promițătoare de descoperire de cunoștințe este în domeniul modernizării software-ului, descoperirea slăbiciunilor și conformitatea, care implică înțelegerea artefactelor software existente. Acest proces este legat de un concept de inginerie inversă. De obicei, cunoștințele obținute din software-ul existent este prezentat sub formă de modele la care pot fi făcute atunci când este necesar interogări specifice. O relație de entitate este un format frecvent de de reprezentare a cunoștințelor obținute din software-ul existent. Object Management Group (OMG) a dezvoltat Knowledge Discovery Metamodel (KDM), care definește o ontologie pentru activele software și relațiile lor cu scopul de a efectua descoperirea cunoașterii codului existent. Descoperirea de cunoștințe din sistemele informatice existente, de asemenea cunoscută sub numele de minerit de software, este strâns legată de mineritul de date, întrucât artefactele software existente conțin o valoare enormă pentru managementul riscului și valoarea afacerii, cheie pentru evaluarea și evoluția sistemelor informatice. În loc de exploatarea de seturi de date individuale, minieritul de software se concentrează pe metadate, cum ar fi fluxurile de proces (de exemplu, fluxuri de date, fluxuri de control, si hărți de apel), arhitectura, scheme de baze de date, și reguli/termeni/procese de afaceri.
Lasă un răspuns