Come funziona un motore di ricerca? |
Come funziona un motore di ricerca?
C'è una risposta molto lunga a questa domanda, quella breve è: In sostanza, un motore di ricerca collega le parole che voi inserite (le queries, i quesiti) con un database di pagine Web (un indice) che ha creato in precedenza. Poi genera una lista di indirizzi web (con una sintesi del contenuto) che ritiene più rilevanti rispetto alla vostra richiesta. |
Premessa |
Premessa
Google è un software effettivamente interattivo: è il primo robot con cui vale la pena parlare. È una “macchina di Turing” che risponde.
Nel contempo Google sa di “non sapere”, visto che le informazioni sono solo negli indirizzi che fornisce. Eppure fornendo indirizzi riesce a sapere delle cose di noi “umani”, che solo lui conosce. Il motore – che riceve 70 milioni di domande al giorno – è in grado di valutare la curiosità dell’uomo, la sua voglia di sapere.
Google galleggia su un lago infinito di informazioni. Le correnti – il suo algoritmo di valutazione – portano l’acqua accanto a questa piattaforma galleggiante. Google ha dieci lati – dieci indirizzi – su ogni lato c’è un secchio. Basta chinarsi per raccogliere secchiate di notizie, utili per lavarsi/levarsi un dubbio, per scegliere un viaggio, o per individuare la libreria on line da cui farsi spedire un volume. |
Google mette ordine nel Web |
Google mette ordine nel Web
Google è stato progettato per mettere ordine nel caos delle informazioni.
Google visualizza solo i risultati che corrispondono a tutti i termini ricercati, contenuti sia nel testo della pagina o nei collegamenti associati alla stessa.
Google valuta la vicinanza dei termini ricercati all'interno della pagina. Google assegna una priorità ai risultati a seconda della "vicinanza" dei termini ricercati. In altre parole, Google dà la precedenza alle parole vicine.
Google visualizza l'anteprima di ciascun risultato. Estrapola alcune righe di testo che corrispondano alla ricerca visualizzandole insieme ai risultati della ricerca stessa. |
Come si comporta Googleboot nella sua ricerca di informazioni |
Come si comporta Googleboot nella sua ricerca di informazioni?
Google ha un software – di nome Googleboot – che cerca informazioni sulla rete. In alcuni siti passa una volta a settimana, in molti altri venti volte al giorno, dipende da quanto il motore di ricerca stima quel sito, e quanto spesso lo spazio web è aggiornato.
Un robot può analizzare così tante pagine perché, di solito, il suo server supporta l'intestazione HTTP “If-Modified-Since”. Questa funzione consente al server di comunicare a Google se qualcosa è stata modificata, dall'ultima volta che è stata eseguita la scansione del sito.
Nella sua visita/tipo Google si limita a chiedere al server qual è l’ultima pagina che è stata inserita o aggiornata in quel determinato sito. Se non ci sono state novità negli ultimi minuti, Google passa oltre. Se invece delle pagine sono state aggiornate o inserite, ecco che il motore ne tiene nota.
Facciamo un esempio: Lapo Elkann. La notizia del ricovero in ospedale viene data la mattina alla radio. Alle 10 uno smanettone – un esperto informatico o comunque uno che gestisce un sito, un forum o un blog - l’ascolta e comincia a dire la sua, commentando l’evento, scrivendo sul web la sua opinione o creandoci sopra una barzelletta.
Alle 11.00 l’informatico mette on line una nuova pagina sul suo sito www.pippo1.it.
Alle 11,05 qualcun altro mette on line la sua personale versione su Pippo2.it, un terzo fa lo stesso su Pippo3.it.
Il “robot-indagatore” di Google – del tutto in automatico – sta visionando siti. Nella rassegna delle novità trova più pagine nuove in cui la frequenza di una certa parola: “Lapo Elkann” è insolitamente alta, mentre prima era normalmente bassa.
Nel frattempo il Computer di Google – chiamiamolo il “robot-risponditore” - soddisfa le domande degli utenti e stila le sue personali classifiche dei quesiti più frequenti di quella domenica. Oltre alle classiche richieste che soddisfa tutti i giorni (orario treni, sesso, chi era Napoleone, offerte lavoro Milano, ecc.), nota un insolito concentrarsi di domande con due parole, “Lapo Elkann”, un numero di richieste molto alto, insolitamente alto, e il “robot-risponditore” si allerta.
Riformula le sue classifiche sulle due parole, privilegiando la data di aggiornamento delle pagine, dando ampio spazio a siti che contengono Lapo Elkann, e che abbiano messo on line nuove versioni delle pagine proprio quella domenica.
Risultato: nel giro di poco più di tre ore il “robot-risponditore” di Google è in grado di soddisfare la richiesta d’informazioni con commenti e notizie fresche, appena sfornate dai vari siti.
L’esempio sopra è calzante per quel che riguarda l’attualità. Per parole come “Agriturismo marche”, questo criterio di «pagine aggiornate recentemente» conta, ma non così tanto. |
Lo spider di Google e una pagina con Giulio Cesare |
Lo spider di Google e una pagina con Giulio Cesare
Lo spider di Google quando analizza i siti come procede?
Come primo criterio vede la frequenza di parole significative. Scarta le “non stop words” – tipo: “il”, “lo”, “la”, “e”, “con”, “fra”, ecc.. Dei restanti termini redige una classifica di frequenza.
Supponiamo che stia analizzando la pagina nuova di un tizio, che ha messo on line tutto il “De bello gallico - la guerra di Gallia” scritto da Giulio Cesare e tradotto in italiano sul suo sito www.cesare.it.
La pagina inizia con il titolo su citato scritto in caratteri grandi, e prosegue con una notevole quantità di parole. Il robot trova “grano” 88 volte, “salmerie” 37 volte, “viveri” 22, “rifornimenti” 13, “raccolto” 10 volte. Trova inoltre che anche “Cesare” ha un’alta frequenza, mentre Giulio ne ha una minore, perché spesso nelle pagine si può leggere “…e Cesare manda in avanti una legione…”, mentre la dizione “Giulio Cesare” è più rara.
Inizia pertanto a ritenere che la pagina in questione si occupi di grano, salmerie, viveri, rifornimenti, raccolto, cesare.
Inoltre nota che alcuni termini: bello gallico guerra Gallia Giulio Cesare sono scritti all’inizio della pagina e in un corpo tipografico – tipico dei titoli – maggiore che nel resto del testo. Deduce che quelle parole siano particolarmente importanti per la pagina in questione, gli conferisce un “perso” più alto. Naturalmente non capisce il significato semantico dei termini. Noi capiamo che la parola “bello” in questo caso è un termine latino, ma per Google è l’equivalente di “bello” come aggettivo italiano. Senza una adeguata conoscenza semantica gli è impossibile distinguere tra i due termini.
Tralasciando l’analisi di “bello”, concentriamoci sugli altri termini del titolo. Google è molto incuriosito dalle parole nuove che non ha mai prima analizzato, anche refusi come “trenno” invece di “treno”, o “tataruga”, o “pseudotemplari”. In subordine apprezza termini di cui sul web ha trovato poche occorrenze (cioè poche pagine in cui sono presenti). Ecco quindi che apprezza “gallico” molto più che “guerra”, e “salmerie” più di “grano”.
Dopo questa visita Google deduce che, in quanto a pertinenza, per il termine “gallico” il sito www.cesare.it meriti il posto n.1;
per “salmerie” il sito meriti il posto n.100;
mentre per “guerra”, che ha una concorrenza molto più numerosa, il sito cesare.it meriti il posto n. 1.000.
Noi stiamo semplificando fin troppo. Oltre a “Frequenza/occorrenza del termine” e “presenza nel titolo”, Google segue un altro centinaio di criteri tra positivi (che ti fanno andar su nelle classifiche) e negativi (che ti abbassano il rango). Su questi criteri si basa il ranking che incide sulle classifiche finali. |
Come funziona il “ranking” |
Come funziona il “ranking”
L'algoritmo di Google è una formula che assegna un punteggio ad ogni pagina (ranking). In base al punteggio ottenuto, ciascuna pagina ottiene una posizione differente nei risultati delle ricerche effettuate sul motore.
Il “ranking” è l’ordinamento per importanza dei risultati. Google è comodo ed insostituibile perché fa un doppio lavoro. Non solo trova le pagine che contengono l’informazione cercata, ma le ordina secondo AUTOREVOLEZZA e MASSIMA RILEVANZA - detta anche PERTINENZA - delle pagine stesse.
Attraverso una selezione della pertinenza, Google - che può restituire come risultato della ricerca anche centinaia di migliaia di pagine - cerca di limitare, per quanto possibile, la fatica di selezionare i risultati più rilevanti, mostrandoli per primi.
Per determinare l'importanza di una pagina, Google usa degli algoritmi, delle formule:
“se nella pagina c’è questo: + 5 punti, se c’è quest’altro: + 7 punti, se manca questo: –14 punti.
Punteggio finale per quella certa domanda (ad esempio « Cesare guerra gallica ») sito www.cesare.it: 999 punti.
Google esegue un confronto con tutte le altre pagine dei vari siti potenzialmente pertinenti per quesito. Il motore scopre che esiste una pagina su www.giulio.it che merita 1.000 punti. Quest’ultima è catalogata al primo posto, e l’altra appena esaminata diventa seconda, fino ad una nuova elaborazione delle classifiche tra un mese.
Gli algoritmi di Google utilizzano un insieme piuttosto complesso di fattori. È molto sensibile a certi campi: ad esempio, se i termini da noi ricercati sono nel titolo di una pagina, o nelle sue aree attive , cioè quelle scritte in blu sottolienato e cliccabili (in gergo del web marketing: nelle “etichette”), Google ne fa salire il ranking. |
fare da tappo della classifica |
Fare da tappo della classifica
I siti di alto livello, tendono a fare da tappo della classifica. Se il motore premiasse sempre “i primi della classe”, un novellino, uno con un sito nato di recente, o di scarsa autorevolezza (Pagerank), non verrebbe mai offerto ai visitatori del motore. Google ne ha tenuto conto e ha fatto in modo che “cinque minuti di celebrità” – cioè una momentanea presenza tra i primi dieci risultati - spettino a tutti, anche se in maniera casuale. Il sito che finisce per un attimo sotto i riflettori, estratto in maniera random dal computer di Google, ha la sua occasione d’oro. Inoltre questo sistema permette a Google di presentare sempre siti nuovi. L’utente che il giorno dopo riformula la stessa domanda di ieri, ha diritto a vedere una diversa classifica, almeno per quel che riguarda una o due presenze che prima non c’erano. Il web così appare in tutta la sua ricchezza, senza “siti di riferimento” ad occupare sempre la copertina. |
Se avete richieste di chiarimenti oppure informazioni da aggiungere, potete scrivermi:
Francesco Cascioli |