O problemă majoră în principiile Google este că criteriile științifice și academice sunt absente în cele patru principii prezentate anterior (1, 2). În exemplul nostru anterior, am luat în considerare o căutare pentru toate orașele suedeze dintr-o anumită regiune a Suediei. Având în vedere o hartă de calitate sau un catalog, la o astfel de interogare se poate răspunde pe baza cartografiei sau a cercetării geografice. Acesta este doar un exemplu simplu al punctului de vedere principal prezentat în acest articol, că ceea ce ar trebui să fie găsit de colectarea informațiilor (information retrieval, IR) și ce ar trebui să fie reprezentat în sistemele de organizare a cunoașterii (knowledge organization systems, KOS), este ceea ce este considerat cunoștințe adevărate conform celor mai bune cercetări și teorii științifice ale noastre despre conținut sau subiect. Deși alte exemple pot fi mai dificile decât cel geografic, acest lucru nu invalidează principiul, ci ridică problema filozofică despre modul în care știința și studiile obțin cunoștințe, cât de robuste sunt aceste cunoștințe și dacă reflectă o realitate obiectivă. Principiul conform căruia IR ar trebui să găsească documente în funcție de credibilitatea lor științifică (mai degrabă decât, de exemplu, în funcție de ipoteza celui care caută ce cuvinte trebuie să conțină documentele relevante sau în funcție de măsurile de popularitate) pare a fi o cerere evidentă și este surprinzător că în această privință linia sau cercetarea în IR și KO pare să fie aproape în întregime absentă. Desigur, calitatea academică și încrederea pot fi corelate, de exemplu, cu măsurile de popularitate și factorii de impact ale jurnalelor, dar aceștia sunt doar indirect asociați cu calitatea, iar astfel de corelații trebuie investigate înainte de a se baza pe ele.
Deocamdată, lăsăm deoparte întrebarea cu privire la modul în care știința și studiile descoperă sau interpretează cunoștințele, dar vom lua în considerare modul în care calitatea științifică și academică a rezultatelor căutării ar putea fi luată în considerare în IR. Există diferite strategii pentru a face acest lucru, inclusiv:
- crearea motoarelor de căutare specializate mai degrabă decât a celor generale (de ex., [37,38]).
- selectarea surselor de înaltă calitate (de exemplu, reviste cu factori de impact mari); (Consultați [18], Secțiunea 6 despre calitatea documentelor indexate. Unii indexuri de citare, cum ar fi Web of Science, acoperă cantități mai limitate de surse indexate (pe baza factorilor de impact a revistei), în comparație cu, de exemplu, Google Academic, și folosesc aceasta pentru a argumenta pentru o calitate mai ridicată a documentelor preluate. Aceasta este, totuși, o ipoteză deschisă, care pare să fi fost contestată de [39], care a constatat că lucrările importante sunt din ce în ce mai publicate în reviste non-elite. Pentru critica factorului de impact al revistelor, vezi, de exemplu, [40]).
- selectarea documentelor pe baza principiilor utilizate în așa-numita cercetare bazată pe dovezi (de exemplu, studii bazate pe studii clinice dublu-orb); În medicina bazată pe dovezi (sau practica bazată pe dovezi în general, EBP), credibilitatea afirmațiilor cu privire la eficacitatea unui anumit tratament este clasificată în funcție de calitatea metodelor de cercetare utilizate. Ar trebui făcute norme explicite pentru investigațiile care sunt cele mai relevante și ar trebui făcută o ierarhie a valorii diferitelor tipuri de metode de cercetare ca dovezi (unde studiile controlate randomizate sunt considerate a fi un nivel ridicat de dovezi, în timp ce, de exemplu, dovezile din rapoartele comitetelor de experți este considerat a fi un nivel scăzut de dovezi). Au existat critici la adresa unor astfel de opinii și există un exemplu de două revizuiri sistematice diferite bazate pe această procedură care furnizează concluzii foarte diferite (cf., [41]). În ceea ce privește IR, modelul EBP oferă criterii clare pentru prioritizarea surselor de informații, deși, așa cum s-a spus deja, acestea nu sunt necontroversate.
- Selectarea documentelor pe baza măsurilor de influență ale acestora, de exemplu, numărul lor de citări, în general sau în cadrul unor specificații (de exemplu, lucrări foarte citate în reviste de renume în domeniu).
Aceste posibilități sunt tratate aici doar foarte scurt, în timp ce acest articol se concentrează pe:
- IR pe baza KOS de calitate (cum ar fi experimentul nostru de gândire cu orașele suedeze). Pe lângă astfel de KOS, este necesar ca fiecare document să fie alocat celor mai relevante clase din KOS, ceea ce nu este o problemă banală, dar depinde atât de calificările specifice ale indexatorului, cât și de filosofia de indexare utilizată de sistem, de exemplu, operaționalizarea conceptului „subiect” (cf., [32]). (Ref. [42] Secțiunea 5.2, a prezentat ipoteza că indexarea făcută de MEDLINE, una dintre cele mai importante baze de date bibliografice din lume, se poate baza pe principii care sunt prea mecanice.)
Pentru a încheia această secțiune, ipoteza de lucru din spatele acestei lucrări este că abordările dominante ale informaticii se concentrează în principal pe relațiile statistice dintre termenii din documente unice, termenii din colecții de documente și termenii din interogări, pe lângă aspecte precum lungimea documentelor și proximitatea termenilor de interogare într-un document. De exemplu, un document în care toți termenii de interogare apar de mai multe ori ar fi afișat primul, urmat de alte documente în care termenii de interogare apar mai puțin. În plus, tipurile de IR sunt folosite pentru a identifica documente „relevante”, adesea pe baza unor măsuri de similaritate. Deși până acum aceste abordări au avut un succes extrem, există o nevoie de alternative bazate pe cunoașterea documentației și comunicări academice, inclusiv concepții, tradiții și „paradigme” academice și baza în filosofia științei. Aceasta implică o abordare mai generală, de sus în jos, a IR. O astfel de abordare se referă, printre altele, la construcția KOS, care este un domeniu interdisciplinar în care este activă și informatica, dar care pare să intre în conflict cu abordările dominante ale motoarelor de căutare.
Referințe
- 18 Araujo, P.C.D.; Castanha, R.C.G.; Hjurland, B. Citation Indexing and Indexes. Knowl. Organ. 2021, 48, 58-87.
- 32 Hjorland, B. Subject (of Documents). Knowl. Organ. 2017, 44, 55-64.
- 37 Dragusin, R.; Petcu, P.; Lioma, C.; Larsen, B.; Jorgensen, H.L.; Cox, I.J.; Hansen, L.K.; Ingwersen, P.; Winther, O. FindZebra: A search engine for rare diseases. Int. J. Med Inform. 2013, 82, 528-538.
- 38. Dragusin, R.; Petcu, P; Lioma, C.; Larsen, B.; Jorgensen, H.L.; Cox, I.J.; Hansen, L.K.; Ingwersen, P; Winther, O. Specialized tools are needed when searching the web for rare disease diagnoses. Rare Dis. (AustinTex.) 2013,1, e25001.
- 39. Acharya, A.; Verstak, A.; Suzuki, H.; Henderson, S.; Iakhiaev, M.; Lin, C.C.Y.; Shetty, N. Rise of the Rest: The Growing Impact of Non-Elite Journals. arXiv 2014.
- 40. Picard, C.-F.; Durocher, S.; Gendron, Y. Desingularization and Dequalification: A Foray Into Ranking Production and Utilization Processes. Eur. Acc. Rev. 2019, 28, 737-765.
- 41. Hjorland, B. Evidence-based practice: An analysis based on the philosophy of science. J. Am. Soc. Inf. Sci. Technol. 2011, 62, 1301-1310.
- 42. Lardera, M.; Hjorland, B. Keyword. In ISKO Encyclopedia of Knowledge Organization; Hjorland, B., Gnoli, C., Eds.; International Organization of Knowledge Organization (ISKO): Toronto, ON, Canada, 2020.
Sursa: Hjørland, B. Information Retrieval and Knowledge Organization: A Perspective from the Philosophy of Science. Information 2021, 12, 135. https://doi.org/10.3390/info12030135, sub licența CC BY 4.0. Traducere și adaptare: Nicolae Sfetcu
© 2021 MultiMedia Publishing, Informații, Volumul 1
Lasă un răspuns