Astăzi, tehnicile de cea mai bună potrivire reprezintă paradigma colectării informațiilor (information retrieval, IR) dominantă, așa cum este aplicată în motoarele de căutare. Contestă tehnicile aplicate în „bazele de date clasice”, cum ar fi MEDLINE. (Ref. [33] a scris: „Așadar, rezultatele acestui studiu susțin concluzia lui Robertson și Thompson [34] că există o mică diferență în nivelurile de eficiență între mecanismele de recuperare ponderate și booleene, dar contrazic direct afirmațiile făcute de Belkin. și Croft (1987) [35] și Turtle și Croft (1992) [20] despre performanța superioară a tehnicilor de potrivire parțială față de tehnicile de potrivire exactă. Aceste rezultate nu dovedesc în niciun fel superioritatea tehnicilor de potrivire exactă față de tehnicile de potrivire parțială, dar sugerează că diferitele interogări necesită mecanisme de regăsire diferite. Sunt necesare studii și analize suplimentare pentru a determina ce elemente ale unei interogări o fac cel mai potrivită pentru regăsirea potrivirii parțiale sau exacte.”). În medicina bazată pe dovezi (EBM), utilizarea bazelor de date clasice reprezintă încă abordarea dominantă, dar este din ce în ce mai contestată de tehnicile de cea mai bună potrivire. [14] prezintă argumente pentru tehnici bazate pe set în scopuri pentru care este importantă o reapel ridicat (cum ar fi EBM).
Schimbarea paradigmei dominante de căutare de la puterea de selecție la transformarea interogărilor a implicat o decalificare a căutărilor profesioniști (specialiști în informații) și a utilizatorilor competenți. Este caracteristic pentru cercetătorii profesioniști că stăpânesc o gamă largă de strategii pentru a crește reapelarea (găsirea mai multor documente relevante), precum și pentru a crește precizia (evitând mai multe documente nerelevante). [36] (pag. 4-5; cursive în original) a subliniat, totuși, că, cu tehnologiile de cea mai bună potrivire utilizate de motoarele de căutare, nu numai că această stăpânire a dispărut, dar chiar și conceptele și-au pierdut sensul:
„Pentru a face o declarație mai directă: conceptul de dispozitiv de îmbunătățire a preciziei are o semnificație în contextul regăsirii bazate pe set și o altă semnificație, destul de diferită, în contextul regăsirii rezultatelor clasate. Același dispozitiv (cum ar fi „folosind expresii”) ar putea fi foarte bine un dispozitiv de precizie într-un context și nu în celălalt. Termenul de dispozitiv de precizie în sine a fost inventat în primul context: dacă este un concept valid pentru cel din urmă, nu este evident. Pentru a spune și mai direct, în conformitate cu statutul de IR de modă veche, pe care presupun că premiul Salton înseamnă că trebuie să-l fi dobândit: dispozitivele de precizie nu mai sunt ce au fost înainte! „Același este cazul dispozitivelor de reapelare (p. 5) „Doar pentru a continua aceeași linie de argumentare un pic mai departe, dispozitivele de reapelare sunt, de asemenea, problematice, în ciuda statutului lor logic (mai degrabă decât statistic) în contextul regăsirii seturilor. Din nou, în tradiția TREC, avem tendința de a măsura reapelarea la o limită mare arbitrară (să zicem 1000 de documente). Acest lucru distruge imediat orice revendicare a stării logice pentru un dispozitiv de îmbunătățire a reapelării. Chiar dacă facem ceva care (în mod logic vorbind) poate doar să mărească dimensiunea setului preluat, cum ar fi extinderea interogării cu o mulțime de sinonime, s-ar putea totuși să reducă colectarea la 1000 de documente”.
Se pare că noi, în noul context, nu doar că am pierdut capacitatea profesională de a face căutări calificate, dar chiar și în cercetarea noastră am pierdut concepte importante și, prin urmare, o parte din capacitatea de a înțelege ce se întâmplă în ceea ce privește optimizarea IR.
(c) Este bine cunoscut faptul că Google folosește și un fel de măsură a popularității; cu cât un anumit document are mai multe linkuri, cu atât este mai mare ponderea acestuia și cu atât este mai mare în ordinea clasată afișată utilizatorului. Acest lucru funcționează adesea, dacă nu în majoritatea cazurilor, foarte bine, deoarece oamenii își doresc adesea același lucru ca majoritatea. Cu toate acestea, în căutarea bolilor rare, de exemplu, acest lucru s-a dovedit a fi un principiu prost, deoarece bolile rare nu sunt, prin definiție, o problemă majoritară (pentru demonstrarea empirică a eșecului acestui principiu pentru IR despre bolile rare, vezi [37,38). ].
(d) Al patrulea principiu major din motoarele de căutare este personalizarea; Google poate identifica adresa IP a utilizatorilor și, prin urmare, locația lor fizică, precum și istoricul căutărilor lor pe Google și poate adapta nu doar reclamele, ci și așa-numitele „rezultate organice” din lista clasată prezentată utilizatorului. Acest lucru oferă un element de subiectivitate și aleatoriu în căutare și dăunează capacității de a elabora strategii de căutare conștiente. Este, de asemenea, o sabie cu două tăișuri; uneori, funcționează bine, dar alteori, s-ar putea să doriți să eliminați acest element, s-ar putea să doriți căutări mai obiective, s-ar putea să vă fi schimbat interesele sau s-ar putea să căutați în numele altora. Acesta este motivul pentru care accentul pe interesele de căutare anterioare poate fi mai degrabă dăunător decât fructuos.
Note
- Belkin, N.J.; Croft, W.C. Retrieval Techniques. Annu. Rev. Inf. Sci. Technol. 1987, 22,109-145.
- Dragusin, R.; Petcu, P.; Lioma, C.; Larsen, B.; Jorgensen, H.L.; Cox, I.J.; Hansen, L.K.; Ingwersen, P.; Winther, O. FindZebra: A search engine for rare diseases. Int. J. Med Inform. 2013, 82, 528-538.
- Dragusin, R.; Petcu, P; Lioma, C.; Larsen, B.; Jorgensen, H.L.; Cox, I.J.; Hansen, L.K.; Ingwersen, P; Winther, O. Specialized tools are needed when searching the web for rare disease diagnoses. Rare Dis. (AustinTex.) 2013,1, e25001.
- Hj0rland, B. Classical Databases and Knowledge Organization: A Case for Boolean Retrieval and Human Decision-making During Searches. J. Assoc. Inf. Sci. Technol. 2015, 66,1559-1575.
- Paris, L.A.H.; Tibbo, H.R. Freestyle vs. Boolean: A Comparison of Partial and Exact Match Retrieval Systems. Inf. Process. Manag. 1998, 34, 175–190.
- Robertson, S.E.; Thompson, C.L. Weighted Searching: The CIRT Experiment. In Lnformatics 10: Prospects for Intelligent Retrieval, Proceedings of the Conference Jointly Sponsored by Aslib, the Aslib Informatics Group and the Information Retrieval Specialist Group of the British Computer Society, King’s College, Cambridge, UK, 21-23 March 1989; Karen, S.J., Ed.; Aslib: London, UK, 1990; pp. 153-165.
- Robertson, S.E. Salton Award Lecture on theoretical argument in information retrieval. ACM Sigir Forum 2000,34,1-10.
- Turtle, H.R.; Croft, W.B. A Comparison of Text Retrieval Models. Comput. J. 1992, 35, 279-290.
Sursa: Hjørland, B. Information Retrieval and Knowledge Organization: A Perspective from the Philosophy of Science. Information 2021, 12, 135. https://doi.org/10.3390/info12030135, sub licența CC BY 4.0. Traducere și adaptare: Nicolae Sfetcu
© 2021 MultiMedia Publishing, Informații, Volumul 1
Lasă un răspuns