Algoritmo del PageRank

martes, 26 de mayo de 2009

El algoritmo inicial del PageRank lo podemos encontrar en el documento original donde sus creadores presentaron el prototipo de Google “The Anatomy of a Large-Scale Hypertextual Web Search Engine":

PR(A) = (1-d) + d  * ( {PR(T1)\over C(T1)} + ... + {PR(Tn) \over C(Tn)} )

Donde:

  • PR(A) es el PageRank de la página A
  • PR(Ti) es el PageRank de las páginas Ti que enlazan a A,
  • C(Ti) es el número de enlaces salientes de la página Ti;
  • d es un factor de amortiguación que tiene un valor entre 0 y 1.


Algunos expertos aseguran que el valor de la variable d suele ser 0,85. Representa la probabilidad de que un navegante continúe pulsando links al navegar por Internet en vez de escribir una url directamente en la barra de direcciones o pulsar uno de sus marcadores. Por lo tanto, la probabilidad de que el usuario deje de pulsar links y navegue directamente a otra web aleatoria es 1-d. La introducción del factor de amortiguación en la fórmula resta algo de peso a todas las páginas de Internet y consigue que las páginas que no tienen enlaces a ninguna otra página no salgan especialmente beneficiadas. Si un usuario aterriza en una página sin enlaces, lo que hará será navegar a cualquier otra página aleatoriamente, lo que equivale a asumir que una página sin enlaces salientes tiene enlaces a todas las páginas de Internet.

El peso o importancia de una página es el resultado de una "votación" entre todas las demás páginas de la WWW acerca del nivel de importancia que tiene esa página. Un hiperenlace a una página cuenta como un voto de apoyo. El PageRank de una página se define recursivamente y depende del número y PageRank de todas las páginas que la enlazan. Una página que está enlazada por muchas páginas con un PageRank alto consigue también un PageRank alto. Si no hay enlaces a una página web, no hay apoyo a esa página específica. El PageRank de la barra de Google va de 0 a 10. Diez es el máximo PageRank posible y son muy pocos los sitios que gozan de esta calificación, 1 es la calificación mínima que recibe un sitio normal, y cero significa que el sitio ha sido penalizado o aún no ha recibido una calificación de PageRank. Parece ser una escala logarítmica. Los detalles exactos de esta escala son desconocidos.

Una alternativa al algoritmo PageRank propuesto por Jon Kleinberg, es el algoritmo HITS.

0 comentarios: