Home » Articole » RO » Societate » Societatea Informaţională » Informaţii » Provocări în colectarea informațiilor (1)

Provocări în colectarea informațiilor (1)

postat în: Informaţii 0

Motoarele de căutare precum Google reprezintă o tehnologie impresionantă, iar importanța sa ca ajutor pentru găsirea documentelor și informațiilor relevante poate fi cu greu supraevaluată. Ar trebui să recunoaștem că atât colectarea informațiilor în general, cât și motoarele de căutare precum Google, au schimbat, în multe privințe, convingerile adânc înrădăcinate în bibliotecă și știința informației și au răsturnat ideile despre organizarea cunoașterii. Cu toate acestea, totul are limitările sale și este sarcina cercetării să sugereze noi căi de avansare. În acest sens, este important să se ia în considerare scopurile căutării. Probabil că majoritatea utilizatorilor nu sunt interesați de căutări exhaustive, ci de precizie ridicată, iar acesta ar putea fi unul dintre motivele popularității Google. Cu toate acestea, în anumite scopuri, în special în scopuri academice, căutările exhaustive sunt adesea necesare și este important ca instrumente să fie disponibile în astfel de scopuri, iar acesta poate fi unul dintre punctele slabe ale lui Google și a sistemelor conexe.

Când căutați într-un sistem precum Google, de obicei introduceți câteva cuvinte și studiați prima parte a listei de rezultate (nu vom lua în considerare aici, de exemplu, recuperarea imaginilor sau a muzicii, dar considerăm că principiile fundamentale sunt aceleași) . Acest principiu, că sistemul ca răspuns la o intrare preia un set de documente, a fost denumit de [13] „transformare a interogării” și a fost opus unui principiu care este mult mai vechi, dar mai puțin influent astăzi, pe care l-a numit „puterea selectării”, care se referă la capacitatea utilizatorului de a face distincții relevante în timpul unei căutări (aceste principii sunt discutate în continuare în [14]). Principiul transformării interogărilor implică faptul că, de obicei, trebuie să cunoașteți cuvintele (sau alte simboluri) care corespund cuvintelor (simbolurilor) din documentele pe care doriți să le colectați. Acest lucru ridică o problemă teoretică, deoarece pare imposibil să selectați termeni din documente pe care nu le cunoașteți (deoarece, conform lui Socrate [15], dacă i-ați cunoaște deja, nu ați face o căutare pentru ei). Acest lucru a fost interpretat ca o afirmație cu privire la imposibilitatea principală de a căuta în general. În bibliologie și în știința informației, distincția dintre „căutarea unui articol cunoscut” și „căutarea subiectului” este bine stabilită. Argumentul lui Socrate/Platon nu se referă în mod clar la căutarea unor elemente cunoscute, ceea ce, evident, nu este problematic. În ceea ce privește căutarea pe subiecte, acest lucru pare să nu fie, de asemenea, problematic, deoarece toată lumea face asta pe Google în fiecare zi. Există însă un punct important. Este posibil ca documentele necunoscute relevante pentru o anumită anchetă să fie căutate într-un context și cu concepte, precum și sisteme simbolice necunoscute pentru căutare. Acesta este în special cazul dacă au existat schimbări de paradigmă în domeniul anchetei. Don Swanson este poate singurul om de știință din domeniul informațiilor care a exprimat vreodată profunzimea acestei probleme. El a concluzionat [16] (p. 114): „Orice funcție de căutare nu este în mod necesar decât o presupunere și trebuie să rămână așa pentru totdeauna”.) Problema cunoașterii termenilor de căutare relevanți este, desigur, redusă, deoarece o căutare inițială poate oferi idei despre alte cuvinte potențiale de căutat (legate de tehnologiile cunoscute sub numele de „extindere a interogărilor”, care adesea depinde parțial de organizările cunoașterii pentru identificarea sinonimelor, a termenilor mai restrânși etc.). Aceasta înseamnă că prin căutările iterative se remediază parțial problema identificării termenilor de căutare relevanți. Cu toate acestea, conceptualizarea inițială a subiectului căutării este importantă. Principala diferență în ceea ce privește căutările bazate pe organizarea cunoașterii este că aceasta din urmă oferă structuri conceptuale pentru a ajuta la navigare și, prin urmare, la identificarea termenilor, simbolurilor și conceptelor relevanți.

O organizare a cunoașterii poate fi, de exemplu, o clasificare a orașelor în funcție de geografie, așa cum se face, de exemplu, pe o hartă sau într-un sistem de clasificare geografică (un dicţionar geografic), în care sunteți informat despre o structură conceptuală și puteți face selecții adecvate pe măsură ce avansați. Dacă sunteți interesat de informații despre, de exemplu, orașe suedeze (inclusiv, poate, orașe, sate și alte așezări clasificate ca atare), acest lucru poate fi efectuat despre Suedia în general sau despre o regiune a Suediei; nu trebuie să le cunoașteți numele în prealabil, dar puteți utiliza doar clasificarea.

Aceasta este probabil diferența de bază dintre colectările informațiilor și organizările cunoașterii principale. În colectarea informațiilor, de obicei depindeți de o potrivire între un termen de căutare și documentele care conțin acest termen (în titlu, rezumat, text complet etc. colectarea informațiilor poate aplica, desigur, și informații precum descriptori, coduri de clasificare etc., de la organizarea cunoașterii, dar principalele abordări în colectarea informațiilor se referă la informațiile din document în sine, nu despre informații cu valoare adăugată. Utilizarea listelor de referințe în documente pentru colectarea informațiilor face în mare parte parte din domeniul bibliometriei, mai degrabă decât din domeniul principale al colectării informațiilor (vezi [17,18] ). Studiul modului în care diferitele părți ale documentelor în sine și informațiile adăugate în înregistrările bibliografice contribuie ca „puncte de acces la subiecte” pentru colectarea informațiilor este discutat de [19]). În contrast cu colectarea informațiilor, organizarea cunoașterii, de obicei, conține relații semantice între concepte și oferă, de exemplu o listă completă de orașe dintr-o anumită parte a Suediei. În colectarea informațiilor, există o tehnică cunoscută sub denumirea de „feedback de relevanță” în care utilizatorii pot indica dacă un articol găsit este relevant sau nu, iar sistemul își poate schimba căutarea prin includerea cuvintelor din elementele pe care utilizatorul le-a marcat ca fiind relevante (o tehnică posibilă pentru „extindere interogare”). De asemenea, căutarea poate elimina cuvintele din elementele marcate ca nerelevante și, astfel, crește precizia căutării. Această tehnică presupune totuși că cel care caută să știe ce cuvinte sunt relevante. În exemplul nostru geografic, dacă un utilizator nu știe dacă un anumit nume de oraș sugerat de sistem este despre un oraș suedez sau norvegian, este posibil să nu poată oferi feedback util, iar feedbackul poate să fie dăunător, făcând ca sistemul să sugereze orașe norvegiene mai degrabă decât suedeze. Dacă un utilizator caută un oraș suedez, atunci „Stockholm” este un hit relevant, în timp ce „Oslo” este un hit incorect. Prin urmare, criteriile pentru ceea ce ar trebui găsit (adică, ceea ce este relevant) nu pot fi găsite în credința celui care caută (sau în studiile psihologice sau studiile psihologice așa cum sugerează o școală influentă în știința informației). Criteriile pentru ceea ce ar trebui să fie găsite trebuie să se bazeze pe organizarea cunoașterii care conține cele mai bune descrieri existente ale realităților, deseori derivate din studii științifice și academice. Recunoaștem că obiectivitatea științei este o problemă dezbătută în studiile științifice. Totuși, acest lucru nu face o viziune la fel de bună ca oricare alta, iar exemplul nostru geografic demonstrează un caz relativ necontroversat.

Privind principiul care stă la baza motorului de căutare Google, constatăm că patru principii principale sunt (a) „potrivire exactă”, (b) „potrivire cea mai bună”, (c) măsuri de popularitate și (d) personalizare (nu vom lua în considerare alte probleme). cum ar fi conținutul bazei de date și influența publicității, care sunt întrebări separate, mai puțin legate de teoria de bază a colectării informațiilor și organizării cunoașterii).

(a) Dacă introduceți o propoziție, cum ar fi: „Fraudarea identității ca amenințare în manipularea megadatelor (Big Data)”, Google va prelua singurul articol (și posibilele sale copii și versiuni) care conține exact această propoziție. Această potrivire exactă se obține deoarece căutarea aplică operatori de proximitate și, prin urmare, poate prelua documente identice cu interogarea. Acest lucru nu este, totuși, ceea ce se înțelege în general prin tehnicile de „potrivire exactă” (sau „set-recuperare”), care au fost definite de [20] (p. 284):

„Modelele de colectare cu potrivire exactă folosesc funcții de potrivire care, având în vedere o interogare, împart colecția de documente în două seturi, cele care se potrivesc cu interogarea și cele care nu se potrivesc. Documentele din setul de potrivire nu sunt, în general, clasificate (deși pot fi ordonate după dată, alfabetic sau un alt criteriu). Modelele cu potrivire exactă sunt, în general, simple și eficiente și formează baza majorității pachetelor comerciale de recuperare [în 1992, nu în 2021]. De departe, cel mai comun model de potrivire exactă este modelul boolean”. (Nu mai este adevărat că seturile preluate nu sunt clasate. În 2019, „cea mai bună potrivire” a înlocuit „cea mai recentă” ca ordine de sortare implicită pentru rezultatele căutării în PubMed, vezi [21,22]).

Tehnicile de potrivire exactă permit utilizatorilor să utilizeze o „strategie de căutare a elementelor de bază”, în care seturi de căutare bine definite sunt construite și combinate de către utilizator (a se vedea [23], p. 242). Sistemele de potrivire exactă pot fi sau nu combinate cu una sau mai multe organizări ale cunoașterii, dar principiile care stau la baza potrivirii exacte ar trebui luate în considerare separat de principiile organizării cunoașterii.

Un dezavantaj al tehnicilor de căutare cu potrivire exactă — dacă nu sunt combinate cu unul sau mai multe organizări ale cunoașterii, așa cum sunt de obicei în „bazele de date clasice” — este, după cum am văzut, ideea conform căreia căutarea este vulnerabilă în ceea ce privește utilizatorii care cunosc termenii potriviți, de ce căutarea s-ar putea să nu fie eficientă în termeni de reamintire și precizie. „Bazele de date clasice”, cum ar fi MEDLINE, se bazează pe tehnici de potrivire exactă, iar acest lucru pare important pentru căutări serioase, în care reamintirea ridicată este importantă (de exemplu, în medicina bazată pe dovezi, vezi [14]). (Ref. [24] a constatat că „principala problemă a căutării booleene nu este performanța acesteia. Pentru mulți utilizatori, principalul obstacol este posibilitatea de a folosi logica booleană în mod eficient pentru a formula interogări în modul în care un sistem comercial de recuperare o cere”.)

(b) Dacă introduceți o serie de termeni, cum ar fi „amenințare”, „manipulare” și „big data” din exemplul de la litera (a), Google va efectua o așa-numită căutare cu „cea mai bună potrivire” (numită și ” potrivire parțială”, „clasare prin relevanță” sau „preluare ponderată”) și veți regăsi milioane de documente într-o ordine clasificată conform unor principii, care sunt mai mult sau mai puțin secrete interne.

Într-o mare măsură, principiile utilizate sunt principii bine stabilite din cercetarea colectării informațiilor (vezi, de exemplu, [25-27]). Aceste principii se bazează în principal pe frecvența relativă a termenilor din întreaga bază de date sau colecție, în documentele unice și în interogări, pe lângă aspecte precum lungimea documentelor și proximitatea termenilor de interogare într-un document. Exemple binecunoscute de cele mai bune tehnologii de potrivire sunt „spațiul vectorial” [28] și modelele „probabilistice” [29]. În plus, sunt folosite tipuri de inteligență artificială (tehnici de învățare automată), în care algoritmii învață să distingă documentele relevante și să le clasifice în consecință (a se vedea, de exemplu, [21]). Astfel de tehnologii sunt considerate superioare în informatică. După cum a scris [30]: „abordările statistice au câștigat, pur și simplu. Au avut succes în o majoritate covârșitoare [comparativ cu alte abordări, cum ar fi tezaururile]”.

Dezavantajele celor mai bune tehnologii de potrivire sunt

(1) că cel care caută nu are control total asupra procesului de cercetare (dar economisește timp dacă alege să aibă încredere în algoritmi) și
(2) că sistemul clasifică documentele în funcție de „relevanță”, ca și cum relevanța ar fi un concept obiectiv, ceea ce este în mod clar o presupunere problematică, deoarece diferite perspective și paradigme științifice au criterii diferite de relevanță (vezi [11,31]).

Tehnicile de potrivire optimă se bazează adesea pe măsuri de similitudine, dar „similar” este un concept relativ: orice este similar cu orice alt lucru, în funcție de criterii, și este ușor să demonstrezi că asemănarea pe baza cuvintelor poate fi problematică, deoarece asta înseamnă că un text dat nu va fi considerat, după acest criteriu, similar cu traducerea sa; (3) tehnicile lucrează pe cuvinte sau structuri de simbol (spre deosebire de concepte), care sunt asociate cu semnificații diferite în contexte diferite. Cu toate acestea, găsirea de documente despre un anumit subiect este diferită de găsirea de documente care conțin cuvinte date și chiar care conțin concepte date (consultați [32] Secțiunea 3). În plus, deoarece principiile din spatele celei mai bune potriviri sunt statistice, există un element de măsurare a popularității în acest sens. Dacă un anumit termen este asociat cu un anumit sens într-un anumit context, acel sens nu poate fi identificat separat; în schimb, semnificația dominantă influențează ceea ce se găsește. Cu alte cuvinte, principiul ignoră înțelegerea lui Kuhn că termenii își schimbă sensul după revoluțiile științifice sau, spus altfel, într-un mod, consideră semnele ca fiind independente de context, ceea ce este o presupunere problematică.

Referințe

  • 13.    Warner, J. Human Information Retrieval; The MIT Press: Cambridge, MA, USA, 2010.
  • 14.    Hj0rland, B. Classical Databases and Knowledge Organization: A Case for Boolean Retrieval and Human Decision-making During Searches. J. Assoc. Inf. Sci. Technol. 2015, 66,1559-1575.
  • 15.    Plato. 380 B.C.E. Meno. Translated by Benjamin Jowett.
  • 16.    Swanson, D.R. Undiscovered Public Knowledge. Libr. Q. 1986, 56,103-118.
  • 17.    Hj0rland, B. Citation analysis: A social and dynamic approach to knowledge organization. Inf. Process. Manag. 2013, 49, 1313-1325.
  • 18. Araujo, P.C.D.; Castanha, R.C.G.; Hjurland, B. Citation Indexing and Indexes. Knowl. Organ. 2021, 48, 58-87.
  • 19.    Hjurland, B.; Nielsen, L.K. Subject Access Points in Electronic Retrieval. Annu. Rev. Inf. Sci. Technol. 2001, 35, 249-298.
  • 20.    Turtle, H.R.; Croft, W.B. A Comparison of Text Retrieval Models. Comput. J. 1992, 35, 279-290.
  • 21.    Fiorini, N.; Canese, K.; Starchenko, G.; Kireev, E.; Kim, W.; Miller, V.; Osipov, M.; Kholodov, M.; Ismagilov, R.; Mohan, S.; et al. Best Match: New relevance search for PubMed. PLoS Biol. 2018,16, e2005343.
  • 22.    Sampson, M.; Nama, N.; O’Hearn, K.; Murto, K.; Nasr, A.; Katz, S.L.; Macartney, G.; Momoli, F.; McNally, J.D. Creating enriched training sets of eligible studies for large systematic reviews: The utility of PubMed’s Best Match algorithm. Int. J. Technol. Assess. Health Care 2021, 37,1-6.
  • 23.    Harter, S.P. Online Information Retrieval: Concepts, Principles, and Techniques; Academic Press: New York, NY, USA, 1986.
  • 24.    Frei, H.-P.; Qiu, Y. Effectiveness of Weighted Searching in an Operational IR Environment. In Information Retrieval ’93, von der Modellierung zur Anwendung; Proceedings der 1. Tagung Information Retrieval ’93; Universitat Verlag Konstanz: Konstanz, Germany, 1993; pp. 41-54.
  • 25.    Baeza-Yates, R.; Ribeiro-Neto, B. Modern Information Retrieval: The Concepts and Technology behind Search, 2nd ed.; Addison Wesley: New York, NY, USA, 2011.
  • 26.    Manning, C.D.; Raghavan, P.; Schutze, H. An Introduction to Information Retrieval; Cambridge University Press: Cambridge, UK, 2009.
  • 27.    Roelleke, T. Information Retrieval Models: Foundations and Relationships. Synth. Lect. Inf. Concepts Retr. Serv. 2013, 5,1-163.
  • 28.    Salton, G.; Wong, A.; Yang, C.-S. A vector space model for automatic indexing. Commun. ACM 1975,18, 613-620.
  • 29.    Robertson, S.E.; Jones, K.S. Relevance weighting of search terms. J. Am. Soc. Inf. Sci. 1976, 27,129-146.
  • 30.    Robertson, S.E. The State of Information Retrieval. ISKO-UK. 2008.
  • 31.    Hj0rland, B. Epistemology and the socio-cognitive perspective in information science. J. Am. Soc. Inf. Sci. Technol. 2002, 53, 257-270.
  • 32.    Hjorland, B. Subject (of Documents). Knowl. Organ. 2017, 44, 55-64.

Sursa: Hjørland, B. Information Retrieval and Knowledge Organization: A Perspective from the Philosophy of Science. Information 2021, 12, 135. https://doi.org/10.3390/info12030135, sub licența CC BY 4.0. Traducere și adaptare: Nicolae Sfetcu

© 2021 MultiMedia Publishing, Informații, Volumul 1

Epistemologia serviciilor de informaţii
Epistemologia serviciilor de informaţii

Despre analogia existentă între aspectele epistemologice şi metodologice ale activităţii serviciilor de informaţii şi unele discipline ştiinţifice, pledând pentru o abordare mai ştiinţifică a procesului de culegere şi analiză de informaţii din cadrul ciclului de informaţii. Afirm că în prezent aspectele teoretice, … Citeşte mai mult

Nu a fost votat $0,00$3,66 Selectează opțiunile
Cunoaștere și Informații
Cunoaștere și Informații

Autor: Nicolae Sfetcu Ediția a doua Cunoașterea și informațiile (abordate în ansamblu sau în componentele lor distincte) sunt o preocupare majoră pentru tehnologia informației, sisteme de informații, știința informației și activitatea de informații în general. Procesul obţinerii, prelucrării şi analizei … Citeşte mai mult

Nu a fost votat $5,99$59,99 Selectează opțiunile
Management, analize, planuri și strategii de afaceri
Management, analize, planuri și strategii de afaceri

Cartea prezintă modele de afaceri, management, analize și strategii care ajută la dezvoltarea și punerea în valoare a unei organizații, în contexte specifice economice, sociale, culturale sau de altă natură, prin elaborarea și implementarea unor planuri personalizate. Capacitatea unei organizații … Citeşte mai mult

Nu a fost votat $4,99$7,80 Selectează opțiunile

Lasă un răspuns

Adresa ta de email nu va fi publicată.