Settembre è il compleanno di Google: cosa c’è dietro il PageRank?

Questo mese di settembre 2024, Google festeggia il suo 26° compleanno, celebrando un viaggio straordinario iniziato nel 1998, quando Larry Page e Sergey Brin, due studenti dell’Università di Stanford, hanno lanciato un piccolo progetto di ricerca nel garage di Menlo Park, in California. Da un’idea semplice è nato uno dei giganti tecnologici più influenti al mondo, con un impatto senza precedenti sulla nostra vita quotidiana. Una delle chiavi del successo iniziale di Google è stato il PageRank, l’algoritmo che ha rivoluzionato il modo di cercare informazioni online. Ma cosa c’è dietro il PageRank e come ha influenzato il mondo del web?

L’idea rivoluzionaria del PageRank

Il PageRank è stato sviluppato per risolvere un problema fondamentale del web negli anni ’90: come ordinare i risultati di ricerca in modo che i più rilevanti emergano in cima? All’epoca, i motori di ricerca si basavano principalmente sulla frequenza delle parole chiave all’interno di una pagina. Questo metodo si è rivelato facilmente manipolabile, poiché i webmaster riempivano le loro pagine con parole chiave irrilevanti per scalare i risultati di ricerca.

Larry Page e Sergey Brin, ispirandosi alla teoria delle citazioni scientifiche, hanno sviluppato il concetto di PageRank, un sistema che considera non solo il contenuto della pagina, ma anche i link che riceve da altre pagine. In modo simile a come una pubblicazione scientifica è considerata importante se è citata frequentemente da altri articoli autorevoli, una pagina web è vista come più autorevole se è collegata da altre pagine rilevanti. Questa idea semplice ma efficace ha cambiato le regole del gioco per i motori di ricerca.

Come funziona il PageRank

Il principio base del PageRank è che ogni link che una pagina riceve è come un “voto di fiducia”. Tuttavia, non tutti i voti sono uguali: se una pagina molto importante (cioè con un alto PageRank) linka a un’altra pagina, il suo voto ha più peso rispetto a quello di una pagina poco rilevante. In altre parole, i link provenienti da pagine autorevoli contano di più.

Il PageRank tiene conto anche del numero di link in uscita di una pagina. Se una pagina molto autorevole ha molti link in uscita, il valore del suo “voto” per ciascuna delle pagine collegate viene distribuito tra tutti i link. Questo fa sì che i collegamenti da pagine con pochi link in uscita siano più preziosi rispetto a quelli da pagine che collegano a molte altre.

Il sistema è iterativo: inizia con l’attribuzione di un punteggio uguale a tutte le pagine e, attraverso vari cicli di calcolo, aggiorna i punteggi in base ai link ricevuti fino a raggiungere un equilibrio. Alla fine, le pagine più linkate da altre pagine autorevoli guadagnano i punteggi più alti e appaiono più in alto nei risultati di ricerca.

Il fattore di smorzamento: il damping factor

Uno degli aspetti fondamentali del PageRank è il damping factor, un concetto che cerca di modellare il comportamento reale degli utenti sul web. In pratica, si presume che ogni utente, mentre naviga, possa decidere a un certo punto di interrompere la ricerca e digitare un nuovo URL o eseguire una nuova query. Questo viene rappresentato matematicamente dal damping factor, che viene solitamente impostato su un valore di 0,85. Ciò significa che, in ogni iterazione, l’85% del PageRank di una pagina viene distribuito tramite i link, mentre il restante 15% è attribuito uniformemente a tutte le pagine, simulando il comportamento casuale degli utenti.

L’evoluzione del PageRank

Sebbene il PageRank sia stato una delle principali innovazioni che hanno permesso a Google di distinguersi dalla concorrenza, nel corso degli anni l’algoritmo si è evoluto significativamente. Oggi, il PageRank è solo uno dei tanti fattori che Google utilizza per determinare la rilevanza di una pagina web. L’algoritmo di Google attualmente prende in considerazione centinaia di altri segnali, tra cui la qualità del contenuto, l’esperienza utente, la velocità di caricamento della pagina, la compatibilità mobile e la sicurezza del sito.

Tuttavia, il concetto di base del PageRank rimane centrale: i link continuano a giocare un ruolo chiave nel determinare l’autorità di una pagina. Infatti, nel corso degli anni, Google ha combattuto molte pratiche scorrette legate ai backlink, come l’acquisto di link o lo scambio di link con l’unico scopo di manipolare il PageRank.

Il declino della visibilità del PageRank

In passato, era possibile vedere il valore di PageRank di una pagina tramite una toolbar fornita da Google, ma nel 2014 l’azienda ha deciso di rimuovere questa funzionalità. Questo ha avuto lo scopo di ridurre il mercato nero dei backlink, in cui le pagine web vendevano link per aumentare artificialmente il PageRank di altre pagine. Oggi, il PageRank continua a essere utilizzato internamente da Google, ma i suoi valori non sono più accessibili al pubblico.

Perché il PageRank è ancora rilevante?

Nonostante non sia più visibile pubblicamente, il concetto di PageRank continua a influenzare profondamente il mondo della SEO (Search Engine Optimization). La qualità dei link in entrata è ancora uno dei fattori più importanti per determinare il successo di una pagina nei risultati di ricerca di Google. Tuttavia, oggi è essenziale che i link siano naturali e provenienti da fonti autorevoli e rilevanti per il contenuto della pagina.

L’importanza del PageRank risiede anche nel suo contributo all’evoluzione del web stesso. Con l’introduzione del concetto di link popularity, Google ha spinto i webmaster a creare contenuti di qualità, incentivando una rete di collegamenti tra pagine web che aggiunge valore all’esperienza dell’utente.

Il PageRank può essere spiegato anche in termini di matrici, rendendolo più chiaro dal punto di vista matematico. La formula principale che esprime il PageRank per una pagina

Il PageRank può essere spiegato anche in termini di matrici, rendendolo più chiaro dal punto di vista matematico. La formula principale che esprime il PageRank per una pagina Aè:

Qui, PR(A) rappresenta il punteggio di PageRank della pagina A, mentre T1,T2,.,Tn sono le pagine che collegano a A. Il valore C(Ti) è il numero di link in uscita dalla pagina Ti, e il fattore di smorzamento d (solitamente impostato a 0,85) rappresenta la probabilità che un utente continui a navigare attraverso i link, invece di fermarsi.

Per calcolare il PageRank di un’intera rete di pagine web, possiamo usare la notazione matriciale. Si costruisce una matrice di collegamento M, dove ogni elemento M[i,j] rappresenta la probabilità di passare dalla pagina iii alla pagina jjj tramite un link. La formula del PageRank diventa allora:

In questo contesto:

  • PR è il vettore che contiene i punteggi di PageRank di tutte le pagine.
  • M è la matrice di transizione che descrive i collegamenti tra le pagine.
  • v è un vettore di teletrasporto che distribuisce uniformemente una piccola quantità di PageRank tra tutte le pagine, garantendo che anche le pagine isolate ricevano un minimo di punteggio.

Il PageRank è ottenuto risolvendo questa equazione tramite metodi iterativi, che aggiornano il punteggio di ogni pagina in base ai link ricevuti finché i valori non convergono a un risultato stabile.

Conclusione

Il PageRank è stato uno degli elementi chiave che ha trasformato Google da un progetto universitario a una delle aziende più potenti del mondo. Anche se oggi fa parte di un sistema molto più complesso di algoritmi, il suo concetto fondamentale rimane alla base del modo in cui Google organizza e ordina le informazioni sul web. E mentre Google festeggia il suo 25° compleanno, il PageRank continua a rappresentare uno dei momenti rivoluzionari che hanno cambiato per sempre la nostra interazione con il mondo online​(Wikipedia, l’enciclopedia libera)​(Andrea Minini)​(My Social Web).