projet conseil version haut débit (flash) Accueil contact plan du site Accueil  
   
 

Introduction

Le PageRank est un sujet de discussion courant pour les experts du référencement. Au coeur du PageRank se trouve une formule mathématique pouvant apparaître effrayante de prime abord mais qui se révèle simple à comprendre.

En montrant comment calculer correctement le PageRank, vous allez comprendre :
-  comment le PageRank est calculé.
-  comment réaliser le design de vos sites (organisation de la navigation).
-  comment optimiser la navigation pour privilégier le référencement du site

N'importe quel créateur de site devrait prendre le temps de pleinement comprendre comment le PageRank fonctionne, sous peine d'avoir des problèmes lors du référencement du site.

Mais qu'est donc ce PageRank ?

Il s'agit tout simplement du classement d'une page sur le moteur de recherche Google. Certaines personnes parlent par extension du PageRank d'un site, ce qui est faux. Dans ce cas, on parlera plutôt de PageRank de la page d'accueil. Il est également noté PR, et c'est la notation utilisée dans la suite de ce document.

Le PageRank (ou PR) se fonde sur un concept très simple : un lien émis par une page A vers une page B correspond à un vote de A pour B. Plus une page reçoit de votes, plus elle est considérée comme importante par Google et plus son PR est élevé. Ensuite, il faut savoir que chaque page votant pour une autre dispose aussi de son importance propre. Son vote sera donc pondéré d'un coefficient en fonction de son importance. C'est pourquoi un lien à partir d'un site majeur (le monde, wanadoo, ...) sera plus important qu'un lien à partir du site personnel de votre voisin.

Le PageRank est défini comme cela par Google :

Nous admettons qu'une page A est pointée par les pages T1, T2, ... Tn. Le paramètre d est un facteur d'amortissement variable de 0 à 1 mais il est normalement fixé à 0,85. Par ailleurs, C(A) est défini comme le nombre de liens partant de la page A. Le PageRank de A est alors défini comme suit :

Formule du PageRank - 1 ko

Notez qu'il s'agit ici d'une probabilité distribuée sur toutes les pages web, donc la somme de tous les PageRank sera égale à 1.

Le PageRank (ou PR(A)) peut être calculé en utilisant un simple algorithme itératif, et correspond au secteur propre principal de la matrice normalisée des liens du web.

Cela peut paraître compliqué de prime abord, mais sachez qu'il n'en est rien. Pour vous le prouver, on va commencer par distinguer l'équation du dessus. On a donc :

PR(A)le PageRank de A
PR(Tn) le PageRank de la page Tn
C(Tn) le nombre de liens émis sur la page Tn
d tous les votes sont additionnés, mais pour en limiter l'importance, le total est multiplié par un coefficient d'amortissement (O,85).
1-d il s'agit un peu de magie probabiliste qui permet de garantir que la moyenne des PageRank sera toujours égale à 1.

En regardant de plus près cette formule, on constate qu'un page n'ayant aucun lien entrant aura un PageRank de 0,15 soit (1 - 0,85) + 0,85 x (0) = 0,15.

On remarque ici que l'on parle systématiquement de vote d'une page pour une autre mais pas de site. En effet, le PageRank s'applique à une page et non à un site complet. Lorsque l'on parle du PageRank d'un site, il s'agit d'un abus de langage pour désigner la PageRank de la page d'accueil de ce site.

Et où est la pertinence de l'information dans ce cas ?

La notion de qualité du contenu de la page ou de pertinence de l'information est totalement absente dans la formule du PageRank. Par contre, ces notions interviennent lors du résultat de la recherche. En effet, personne ne fera de liens vers votre page si celle ci est sans intérêt...

Comment le PageRank est-il calculé ?

Là, les choses se compliquent un peu.

On a vu que le PageRank d'une page dépend du PageRank des pages pointant celle-ci. Malheureusement, on ne connaîtra pas le PageRank de ces pages tant que le PageRank des pages pointant sur ces dernières ne soit calculé et ainsi de suite. Lorsqu'on considère que les liens inter-pages peuvent faire une boucle, cela semble impossible à calculer.

Remémorons-nous la publication de Google décrivant le PageRank.

Le PageRank peut être calculé en utilisant un simple algorithme itératif, et correspond au vecteur propre principal de la matrice normalisée des liens du web.

Cela veut dire qu'en fait le PageRank peut être calculé sans connaître le PageRank final des pages émettant un lien vers elles. Cela peut sembler étrange, mais chaque itération fait converger les résultats vers une valeur proche de la valeur finale. Par conséquent, tout ce que nous avons à faire est de se souvenir de chaque valeur calculée et répéter ceci jusqu'à ce que le résultat varie peu d'une fois sur l'autre.

Vous n'avez toujours pas compris ? Comme un dessin vaut mille mots, nous allons illustrer cela.

Simplifions le web pour simplifier l'explication.

Note :

Vous disposez d'une calculatrice de PageRank sur cette page. Pour y accéder, il vous suffit de cliquer ici où sur le lien dans la colonne de droite.

Prenons l'exemple le plus simple : 2 pages web reliées entre elles : exemple simple avec 2 pages - 1.6 ko Chaque page à donc un lien sortant donc C(A) = 1 et C(B) = 1.

-  Premier essai On ne connaît pas le PageRank à utiliser pour commencer. On va donc le fixer arbitrairement à 1 pour commencer et calculons :

Ce qui nous donne :

PR(A) = 0,15 + 0,85 x 1 = 1

PR(B) = 0,15 + 0,85 x 1 = 1

Bon, les valeurs ne changent absolument pas.

-  Deuxième essai :

On a dû avoir de la chance avec notre premier essai. On va essayer avec un autre nombre au hasard : 0 et calculons une première fois :

PR(A) = 0,15 + 0,85 x 0 = 0,15

PR(B) = 0,15 + 0,85 x 0,15 = 0,2775

et une deuxième :

PR(A) = 0,15 + 0,85 x 0,2775 = 0,385875

PR(B) = 0,15 + 0,85 x 0,385875 = 0,47799375

et un troisième :

PR(A) = 0,15 + 0,85 x 0,47799375 = 0,5562946875

PR(B) = 0,15 + 0,85 x 0,5562946875 = 0,62850484375

et ainsi de suite. Les valeurs augmentent à chaque itération pour se stabiliser autour de 1 après un certain temps.

Cela est logique car la formule indique que le PageRank moyen de toutes les pages du web est égal à 1. Mais vérifions tout de même par la pratique et attribuons un PageRank initial de 40 aux deux pages.

1er calcul

PR(A) = 0,15 + 0,85 x 40 = 34,15

PR(B) = 0,15 + 0,85 x 34,15 = 29,1775

2ème calcul

PR(A) = 0,15 + 0,85 x 29,1775 = 24,950875

PR(B) = 0,15 + 0,85 x 24,950875 = 21,35824375

et ainsi de suite en tendant vers 1. D'ailleurs on s'y attendait un peu.

Principe :

Quelle que soit la valeur des PageRank de départ, la moyenne normalisée tendra toujours vers 1.

Obtenir la réponse plus vite

L'exemple précédent représente tout de même l'internet simplifié au maximum. L'internet actuel compte plus de 6 Milliards de pages. Combien de fois devrait-on répéter ces calculs pour obtenir notre moyenne de 1 ?

C'est ici que l'on va voir l'intérêt du facteur d'amortissement. Il faut le choisir judicieusement, car s'il est trop élevé, le calcul demandera un nombre d'itération énorme, alors que s'il est trop bas, le résultat oscillera comme un pendule autour de la valeur théorique vraie.

Avec un facteur d'amortissement de 0,85 il faut entre 20 et 40 itérations pour obtenir le résultat.

Deuxième exemple : 4 pages liées

exemple avec 4 pages liées - 4.7 ko Dans cet exemple, nous avons un site basique comprenant 4 pages dont une ne recevant aucun lien. On remarque que l'on retrouve bien les 0,15 minimum que chaque page a à partager pour la page D. Mais dans la pratique, vu qu'aucune page n'a un lien vers la page D, Google effacera assez rapidement cette page de son index.

Troisième exemple : site simple avec une page de liens

exemple de site hiérarchique avec page de liens - 6.7 ko Comme l'on pouvait s'y attendre, la page d'accueil a le PageRank le plus élevé, après tout, c'est elle qui reçoit le plus de liens. Mais par contre que se passe-t-il ? En fait, rassurez-vous, les calculs sont justes. Le problème se situe en fait au niveau de la page des liens. Les liens externes ne renvoient pas de liens vers le site. Leur PageRank potentiel est donc gâché.

On constate donc que l'intérêt d'une simple page de lien est plutôt faible. Essayons donc d'obtenir un lien en retour de ces sites externes sur notre page :

exemple de site hiérarchique avec page de liens et backlinks - 8.3 ko

Ici le PageRank moyen est bien de 1. On voit donc qu'il est très intéressant d'obtenir un lien en retour à partir des sites "amis" auxquels on a mis un lien.

Organisation du site en fonction de la concentration de PageRank

Pour des questions de référencement, il peut être intéressant d'organiser le site en fonction des pages que l'on veut optimiser.

Optimisation de la page d'accueil : structure hiérarchique :

Structure hiérarchique - 3.5 ko

On voit que la structure hiérarchique est utile pour référencer principalement les pages d'accueil de votre site.

Organisation en cercle :

Structure en cercle - 4.1 ko

Cette technique est utilisée pour référencer des sites ayant des traits communs en général. On voit fréquemment des liens pour ce que l'on appelle des "webring" sur un thème (le php, les sixties, ...). Chaque site rejoignant l'anneau bénéficie donc d'une plus large couverture mais son PageRank reste inchangé.

Complètement ficelé :

Structure ficelée - 5.5 ko

Dans un site, on peut ne pas accorder d'importance particulière à une page et relier toutes les pages entres elles. Le résultat est un PageRank constant sur toutes les pages du site.

Plus le site comporte de pages, plus cette organisation devient complexe. Ceci n'est donc intéressant que pour de petits sites.

Évolution du PageRank en fonction des liens externes

Sur internet votre site cohabite avec de nombreux autres sites. Il serait donc intéressant d'étudier le résultat de liens externes sur votre schéma de site.

Structure hiérarchique :

Reprenons le schéma précédent et rajoutons un lien avec un PageRank de 1 vers votre page d'accueil :

Structure hiérarchique avec un lien entrant - 4.1 ko

On considère que le webmaster nous aime beaucoup et qu'un seul lien part de sa page pour pointer sur notre page d'accueil, même si ceci a peu de chance de se produire dans la réalité.

Le bénéfice pour la page d'accueil hérite donc de 0,85 point de PageRank à partir du site externe. Ce qui est intéressant c'est que cet accroissement se répercute vers les autres pages du site qui en retour le répercutent à nouveau sur la page d'accueil. On gagne donc 3,06 points de PageRank avec cette seule page sur notre page d'accueil.

Note :

Les valeurs de PageRank ici indiqué sont valables pour l'exercice. Le web comporte beaucoup plus de pages et un lien avec un PageRank de 1 ne permettra pas d'obtenir un PageRank de 4 dans la barre d'outils de Google.

En effet, le PageRank affiché par la barre d'outils de Google correspond à une échelle logarithmique. Si on prend par exemple une échelle logarithmique de base 10, on obtiendrait le tableau suivant :

PageRank affiché PageRank réel
(log base 10) (calculé)
PR0 0<=PR<=1
PR1 1<=PR<=10
PR2 10<=PR<=100
PR3 100<=PR<=1000
PR4 1000<=PR<=10000
PR5 10000<=PR<=100000

Ceci explique qu'il est beaucoup plus dur de passer d'un PageRank de 2 à 3 que de 3 à 4.

L'échelle logarithmique évolue au rythme des pages indexées par Google ce qui explique que le PageRank de certaines pages baisse au fil du temps alors que le nombre de liens pointant vers elles reste stable.

La base 10 choisie pour cet exemple est donc bien évidemment fictive.

En gardant cette structure hiérarchique, on sait que ceci est peu réaliste et que vous pouvez avoir une de vos pages ayant un lien vers un site externe. Étudions dès lors la modification du PageRank des différentes pages :

Structure hiérarchique avec un lien entrant et sortant - 4.3 ko

Gasp ! Le simple fait d'avoir mis un lien sur un site externe a provoqué la chute du PageRank sur l'ensemble du site.

Je crois que là, certaines personnes vont revoir l'organisation de leur site !

La seule cause de la chute du PageRank est le lien vers un site externe à partir de notre page "produits" (le constructeur par exemple). La page "produits" renvoie alors la moitié de son PageRank à la page d'accueil et l'autre moitié à ce site externe. Google ne fait pas la différence entre les liens internes ou externes à notre site, seul les liens comptent et ici nous n'avons pas de lien retour.

Assurons-nous du lien retour à partir de cette page et observons :

Structure hiérarchique avec un lien entrant, sortant et backlink - 4.9 ko

Grâce à ce lien retour, le PageRank de toutes nos pages est augmenté.

Note :

Google ne fait pas de distinction entre les pages internes ou externes.

L'avantage des pages internes est le contrôle aisé de leur organisation pour la redistribution du PageRank, mais sachez que le capital de PageRank global d'un site est égal à son nombre de pages. Seules les pages extérieures au site peuvent augmenter le capital de PageRank global.

Principe d'organisation interne d'un site

Une chose très importante est que l'on constate que l'on peut minimiser la perte de point de PageRank lorsque l'on fait des liens externes en augmentant les liens internes.

Ensuite, en fonction de l'organisation du site, on peut favoriser certaines pages.

Si une page est particulièrement importante, l'utilisation d'une structure hiérarchique avec cette page à son sommet la favorisera.

Lorsqu'un groupe de page contient de nombreux liens sortant, l'augmentation du lien entre ces pages permet de garder un maximum de points de PageRank à l'intérieur de notre site.

L'utilité du plan d'un site.

Le plan d'un site est utile dans au moins 2 cas :

-  lorsqu'un utilisateur tape une mauvaise adresse, le plan s'affiche en lieu et place de l'habituelle page d'erreur 404 en lui montrant que son adresse est erronée.

-  lier le plan du site à chaque page augmente le nombre de liens internes au site, ce qui limite la perte de points de PageRank lors de liens externes.

Et maintenant passons à ce qui vous intéresse tous ;

Comment obtenir un PageRank élevé ?

D'après la formule utilisée, on sait que la moyenne des PageRank des pages du site est 1. La conclusion évidente est donc que le PageRank global de notre site sera égal au nombre de pages de ce dernier lorsque le PageRank est efficacement redistribué sur le site.

La tentation est alors forte de créer de nombreuses pages ayant comme seul but d'accroître le PageRank d'une ou deux de nos pages. Dans le schéma ci-dessous, on suppose la création de 1000 pages :

Organisation spam - 4.4 ko

Ces pages sont totalement inutiles mais on obtient une page mise en valeur avec un PageRank = 331.

Cette technique est utilisée par des sites ayant en général mauvaise réputation (principalement des sites spécialisés réservés au plus de 18 ans) mais on ne peut cautionner cela. Par ailleurs si Google trouve que vous réalisez ce type de pratique, votre site a de bonnes chances d'être banni de Google.

Voyons maintenant les bonnes méthodes.

Premièrement, on peut se fonder sur la méthode précédente mais en ayant des pages ayant un contenu réel. C'est ce que l'on appelle un méga-site tel Le monde.fr, Libération.fr, Cnn.com, ... qui ont des dizaines de rédacteurs écrivant de nouvelles pages chaque jour. Chaque page créée possède un lien vers la rubrique dont elle dépend ou la page d'accueil du site, ce qui concentre le PageRank sur ces pages. Ces méga-sites sont donc souvent abonnés aux PageRank élevés pour leur page d'accueil à cause de cette organisation hiérarchique.

Malheureusement, peu de sites disposent d'une telle équipe éditoriale. La seule autre méthode est donc d'obtenir des liens de sites externes.

Comment gagner ces liens vers votre site ?

Tout d'abord, on peut pratiquer l'échange de liens avec des sites amis ou ayant le même type de contenu. Cette technique n'est malheureusement pas la plus rentable car le lien vers votre site se trouvera en général sur une page de liens, donc son PageRank sera divisé par le nombre de liens présents sur cette page. Le gain de poins de PageRank sera donc faible. Par ailleurs, les webmasters ayant intégré le fonctionnement de l'algorithme du PageRank ne feront que peu d'effort pour valoriser cette page.

La manière la plus efficace dépend en fait de vous. Il faut donner envie aux webmasters de faire un lien vers votre site. Pour ce faire, une seule méthode, avoir un contenu attractif.

Il faut bien penser que le contenu est roi, car c'est la meilleure méthode pour obtenir des liens spontanés.

Il existe aussi une variante de cette méthode. Il s'agit d'offrir un programme ayant un lien vers votre site. De cette manière, tous les utilisateurs de ce programme feront votre publicité. C'est par exemple ce qu'il se passe avec le site du forum phpbb.com. Toutes les pages créées par ce forum ont un lien vers la page d'accueil du site ce qui provoque un nombre important de liens unidirectionnels vers la page d'accueil de phpbb.com. Mais il est évident que tout le monde n'a pas la capacité de créer un tel programme, ce qui limite un peu la portée de cette méthode.

Comment ne pas perdre (trop) de points de PageRank ?

Tous les liens externes vous font perdre des points de PageRank. Maintenant qu'on en est sûr, voyons comment en perdre le moins.

Comme précédemment, il existe une bonne et une mauvaise méthode et on va commencer par la mauvaise.

On sait que les moteurs de recherches effectuent une analyse un peu limitée des pages web. Par exemple ils n'arrivent pas à interpréter le javascript ou le flash. Il peut donc être tentant de faire tous ses liens sortant en javascript. De cette manière Google ne verrait aucun de ces liens. On peut utiliser une variante en utilisant des boutons flash. Ceci est une mauvaise idée pour plusieurs raisons.

-  ces langages finiront bien par être interprétés. C'est d'ailleurs déjà plus ou moins le cas pour le flash.
-  les webmasters des sites externes pourraient vous en vouloir de ne pas partager votre PageRank alors qu'eux le font bien avec vous.
-  il n'est pas vraiment normal qu'un site ne possède aucun lien externe. Cela pourrait sembler étrange et vous pourriez vous retrouver banni de Google.
-  c'est quand même un peu contraire à "l'esprit du web" qui est plutôt communautaire.

Incohérence entre la formule et la pratique

Si l'on se fie à la formule, un site ayant plus de liens externes que de liens pointant vers lui devrait avoir un PageRank relativement faible sur ses pages. C'est le cas des annuaires et autres moteurs de recherches. Pourtant Yahoo.com possède un PageRank de 10, dmoz.org un PageRank de 9, altavista.com un PageRank de 9, ... (données vérifiées à la date d'aujourd'hui). On peut donc penser que Google classe ces sites différemment ou les considère de manière spéciale.

Conclusion

Le PageRank est en fait quelque chose de simple (mis à part une horrible formule de maths idéale pour la fête d'halloween). Mais si ce simple calcul est effectué des milliards de fois, cela peut sembler compliqué.

Le PageRank est seulement une partie (même s'il s'agit d'une grosse partie) de la méthodologie de classement des pages de Google. Par exemple, il existe des preuves suggérant que Google fait attention aux textes présents dans les liens des ancres présentes sur la page ciblée.

Pour finir, même si la notion de PageRank n'est qu'une partie de la conception d'un site, cela vaut la peine pour un webdesigner de prendre le temps de bien comprendre cette notion.

Référencement sur Google
separation

 
 

Calculatrice PageRank

Article inspiré par Ian Rogers et son document "The Google Pagerank Algorithm and How It Works"



[17 commentaires] commentaires