Home » Articole » Articole » Calculatoare » Dezvoltarea web » Corelarea site-urilor web

Corelarea site-urilor web

websites

Corelarea, sau potrivirea site-ului, este un proces folosit pentru a identifica site-uri web care sunt similare sau conexe. Site-urile sunt în mod inerent ușor de duplicat. Acest lucru a dus la proliferarea de site-uri identice sau site-uri foarte similare pentru scopuri variind de la traducere la marketing pe Internet (mai ales marketing prin afiliere) sau chiar pentru fraude pe Internet. Localizarea site-urilor similare este în mod inerent problematică, deoarece acestea pot fi în diferite limbi, pe servere diferite, în țări diferite (diferite domenii top-level).

Utilizări

Corelarea site-ului este utilizată în:

  • investigații pe Internet pentru a determina domeniul de aplicare general al unei anchete
  • cercetare de piață pentru a localiza concurenții, sau determina studiile de piață ale companiilor concurente, sau pentru prelevarea de probe de grup
  • sisteme de filtrare Web pentru a se asigura că toate site-urile de un anumit tip sunt blocate pentru vizualizare
  • sisteme de culegere de date pentru a maximiza datele de intrare sau de ieșire
  • programe de gestionare a riscurilor pentru a ase sigura că site-urile sunt monitorizate pentru probleme care implică risc fiscal
  • monitorizarea conformității ca parte a unui program sau a unei politici de conformitate și etică pentru a se asigura că site-urile urmează liniile directoare stabilite.

Tipuri de corelare

Există mai multe tipuri cunoscute de corelare, fiecare cu diferite puncte forte și puncte slabe. Un procedeu practic de corelare a unui site poate necesita combinarea a două sau mai multe dintre aceste metode.

Structură similară

Pentru a economisi timp și efort, proprietarii site-ului copiază porțiuni importante din codul site-ului în multe domenii. Similitudinea structurii codului poate furniza informații suficiente pentru corelare. Organizaţiile cunoscute a avea o bază de date publică în care se poate căuta acest tip de corelare includ:

Atenţie: Site-urile web pot utiliza, uneori, aceeaşi structură, dar să nu aibă nicio relație între ele (ca atunci când site-urile web utilizează din coincidență același sistem de management al conținutului).

Același server sau reţea

Aceasta este de asemenea cunoscută sub numele de corelarea DNS inversă. Paginile web pot fi servite de la același server, pe una sau mai multe adrese IP, pe una sau mai multe subneturi. Mai multe organizații păstrează arhive de date cu adresa IP și corelează datele. de exemplu:

Atenţie: Corelarea prin această metodă poate fi înșelătoare, deoarece există frecvent site-uri pe același server (shared hosting)  care nu au nici o relație între ele.

Același proprietar

Paginile web pot fi scris de aceeași persoană sau organizație. Proprietarii de site-uri sunt obligate să furnizeze informații de contact unui registrator pentru a obține un nume de domeniu. Proprietarul domeniului poate fi determinat prin protocolul WHOIS, care prevede un mecanism de căutare sau corelarea proprietăţii. Mai multe organizații păstrează arhive de informații WHOIS și oferă servicii de cautare şi de corelare. Exemple includ:

Atenţie: Informațiile despre proprietarul site-ului web pot fi falsificate, depășite, sau private. Corelarea site-ului prin această metodă poate fi exactă, înșelătoare, sau imposibilă în funcție de informațiile conținute în înregistrările WHOIS.

Conţinut similar

Motoarele de căutare oferă baze de date de căutare a conținutului indexat al site-urilor. Motoarele de căutare listează rezultatele corelate prin similitudine de conținut.

Google

  • pe Google.com scrieţi „related: situl_web_cautat.ro” pentru a găsi site-uri asemănătoare prin nume sau fraze cu situl_web_cautat.ro
  • găsiţi o expresie unică pe site apoi utilizaţi motorul de căutare pentru a o localiza pe alte site-uri
    • în caseta de căutare, scrieţi expresia între ghilimele pentru o căutare a expresiei exacte

Atenţie: Această metodă de corelare este în mod inerent lentă, deoarece trebuie să se ghicească ce expresii trebuiesc căutate. De asemenea, site-urile corelate s-ar putea să nu aibă un conținut literalmente similar (ca de exemplu atunci când un site este tradus în altă limbă).

Din aceeaşi categorie

Site-urile sunt adesea clasificate sau etichetate în mod similar prin mijloace automate sau manuale. Exemple de baze de date cu clasificări ale site-urilor accesibile public includ:

Atenţie: Categorizarea și etichetarea (metadata) manuală sunt metode în mod inerent subiective. Clasificarea și etichetarea automată au în mod inerent puncte slabe si puncte forte diferite în funcţie de algoritmii de clasificare care stau la baza lor.

Acelaşi ID de urmărire

ID-urile de urmărire, utilizate pentru analiză sau identificarea afiliaţilor, sunt frecvent incluse în codul site-ului. Aceste ID-uri pot fi folosite pentru corespondență, deoarece acestea implică o gestionare comună de site-uri web. Site-uri disponibile public pentru corelarea cu codul de urmărire includ:

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *