SlideShare uma empresa Scribd logo
1 de 90
Ecole Supérieur de Génie Informatique
5ième année spécialité Architecture Logicielle
Le référencement naturel : comment bien référencer et
positionner son site internet aujourd’hui ?
Mémoire préparé sous la direction de M. RUBERTE Michel
Présenté par DEMANGEL Jérôme et SOUCIET Alexy
Année 2008/2009
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 2 sur 90
Sommaire
Remerciements...........................................................................................................................4
Introduction................................................................................................................................5
1. Etat de l’art..........................................................................................................................8
1.1. Les outils de recherche................................................................................................8
1.1.1. La nécessité des outils de recherche....................................................................8
1.1.2. Fonctionnement des annuaires............................................................................9
1.1.3. Fonctionnement des moteurs de recherche......................................................10
1.1.4. Ou se référencer et ou se positionner ...............................................................13
1.2. Comment intégrer les index des outils de recherche................................................16
1.2.1. Comment soumettre son site aux annuaires.....................................................16
1.2.2. Comment soumettre son site aux moteurs de recherche .................................16
1.3. La démarche globale..................................................................................................20
1.3.1. Choisir son nom de domaine..............................................................................21
1.3.2. La recherche de mots clés..................................................................................22
1.3.2.1. Le choix des « bons » mots clés......................................................................22
1.3.2.2. Ou les trouver ? ..............................................................................................23
1.3.2.3. Les outils pour les trouver ..............................................................................24
1.3.3. Techniques d’optimisations ...............................................................................26
1.4. Les obstacles et les freins au référencement naturel ...............................................42
1.4.1. Les framesets......................................................................................................42
1.4.2. Le Flash et JavaScript..........................................................................................44
1.4.3. Code source contenant du JavaScript et du style CSS........................................45
1.4.4. Les sites à contenu dynamique ..........................................................................46
1.4.5. Les url « exotiques »...........................................................................................47
1.4.6. Les redirections ..................................................................................................50
1.4.7. Identifiants de session........................................................................................52
1.4.8. Les cookies..........................................................................................................53
1.4.9. Les accès par mot de passe................................................................................55
1.4.10. Les sites multilingues......................................................................................55
1.5. Comment ne pas être référencé................................................................................57
1.5.1. Le fichier robots.txt ............................................................................................57
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 3 sur 90
1.5.2. La balise meta robots .........................................................................................60
1.5.3. Répertoire protégé par mot de passe................................................................61
1.5.4. Demande urgente de suppression de contenu à Google...................................62
1.6. Les techniques pénalisées par les moteurs ...............................................................63
1.6.1. Spam...................................................................................................................63
1.6.5. Les pénalités appliquées par les moteurs ..........................................................64
1.7. Le suivi .......................................................................................................................66
1.7.1. Les outils.............................................................................................................66
2. Prospective........................................................................................................................69
2.1. Les nouveautés ..........................................................................................................69
2.2. Vers le mobile............................................................................................................70
2.3. Vers la recherche temps réel.....................................................................................71
2.4. Vers le web sémantique ............................................................................................72
2.5. SMO (Social Media Optimization) .............................................................................73
2.6. Une recherche universelle de plus en plus ancrée....................................................74
2.7. La recherche personnalisée.......................................................................................76
2.8. La géo localisation des résultats................................................................................78
Conclusion ................................................................................................................................79
Les références...........................................................................................................................80
Les sociétés...........................................................................................................................80
Bibliographie.........................................................................................................................80
Webographie ........................................................................................................................81
Annexes ....................................................................................................................................85
Annexe 1 : Générateur de mots clés Google........................................................................85
Annexe 2 : Google Insights Search........................................................................................85
Annexe 3 : Exemple de la page d’accueil de l’ESGI vue par un robot ..................................85
Annexe 4 : Soumission des fichiers sitemap.xml..................................................................85
Annexe 5 : Page « Recherche universelle »..........................................................................85
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 4 sur 90
Remerciements
Nous remercions Monsieur le professeur Michel RUBERTE responsable des cours de
Systèmes d’informations à l’ESGI, de nous avoir fait l’honneur de présider le jury.
De même, nous souhaitons remercier tout particulièrement l’équipe d’expert SEO de Takezo
et la cellule R&D de Brioude Internet Référencement pour nous avoir guidés et conseillés
tout au long de ce mémoire.
Nous présentons également nos remerciements à tous les acteurs SEO du Web qui nous ont
fourni de précieuses informations.
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 5 sur 90
Introduction
Aujourd’hui Internet représente un enjeu et un marché indispensable pour toutes
entreprises et particuliers, il est devenu un support publicitaire majeur au même titre que la
télévision ou la radio.
Comme nous pouvons le voir sur la figure ci-dessous, en juin 2009, 34 244 000 français âgés
de 11 ans et plus, soit 64,1 % de la population âgés de 11 ans et plus, se sont connectés à
Internet au cours du mois. La population internaute a donc progressé de 6 % en un an entre
juin 2008 et juin 2009.
Figure : Audience internet en France
Source : Médiamétrie – L’Observatoire des usages internet – Juin 2009
Il va sans dire que si le nombre d’internautes est toujours en évolution, le nombre de pages
internet a fait de même. C’est pourquoi il est de plus en plus difficile, pour un site internet,
d’être visible et de ressortir correctement sur les outils de recherche.
C’est là qu’intervient le référencement naturel appelé SEO (Search Engine Optimization) ou
encore référencement organique qui désigne un ensemble d’actions visant à indexer et
optimiser le positionnement d’un site dans les pages de résultats des outils de recherche.
A ne pas confondre avec le référencement payant appelé SEA (Search Engine Advertising) ou
encore liens sponsorisés, qui est quant à lui un système payant qui permet de positionner un
site dans les pages de résultats d’un outil de recherche.
Le principe étant de faire apparaître un certain nombre d’annonceurs, ayant acheté la
requête saisie par l’internaute, sur les zones prévues dans les outils de recherche et de les
classer en fonction de différents critères.
Pour éviter toute confusion, nous avons délimité les zones réservées à chaque système dans
un outil de recherche (voir figure ci-dessous).
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 6 sur 90
Figure : Page de résultats sur Google
Source : DEMANGEL Jérôme et SOUCIET Alexy – Juillet 2009
Au cours de ce mémoire, nous allons fréquemment utiliser des termes dont il est essentiel
de bien comprendre le sens.
Commençons par le terme de « référencement ». Être référencer, quand on parle d’un site
internet, signifie que l’on est présent dans les bases de données des outils de recherche.
L’action qui vise à être référencer est l’indexation.
Bien qu’à une époque il suffisait simplement de se faire référencer auprès des outils de
recherche pour être facilement visible sur la toile, il en est autrement aujourd’hui avec la
foultitude de pages internet disponibles. Le but reste bien évidemment d'être référencé le
plus possible et sur le plus de supports possibles, mais l’accent est surtout porté sur le
positionnement.
Le positionnement est une notion qui intervient une fois que l’on est référencé. En effet il
faut se positionner au mieux dans les pages de résultats des outils de recherche à la suite
d’une requête mot clé. Cela sous entend que l'on est en concurrence avec d’autres sites qui
ne sont en autre que des concurrents direct mais aussi syntaxiques (ciblant les mêmes mots
clés que nous).
Nous avons employé un terme précédemment : la visibilité d'un site. Cela fait plus référence
à la stratégie qui sera mise en place pour promouvoir un site en vue de cibler un marché. La
visibilité ayant pour objectifs de générer plus de trafic et par conséquent d’attirer, fidéliser
les internautes et de se distinguer des concurrents.
Référencement naturel
Référencement payant
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 7 sur 90
Tous ces termes peuvent être expliqués à travers une analogie avec la grande distribution.
Dans les rayons des supermarchés, on y voit un certain nombre de produits, on dit qu’ils sont
référencés. Mais ça ne suffit pas pour qu’ils soient achetés, car ils sont placés dans les rayons
parmi beaucoup d’autres. Pour que certains produits soient mis en évidence on les place en
tête de gondole, attirant plus souvent l’œil du consommateur. Ils sont ainsi bien positionnés.
Si l’on revient à notre problématique, il convient donc d’optimiser son site en suivant
exactement ce qu’attendent les outils de recherche, en prenant toujours en compte qu’un
site doit être conçu pour les internautes et pas uniquement pour les outils de recherche.
Maintenant que nous avons posé les bases du sujet exploré (définitions et enjeux de notre
problématique), nous allons vous présenter le plan de notre mémoire de recherche.
La première partie est consacrée à l’état de l’art. Elle se compose d’une succession de
chapitres répondant clairement à notre problématique.
Le premier chapitre est focalisé sur les outils de recherche et leur fonctionnement afin de
cibler correctement les supports sur lesquels nous allons travailler dans le cadre d’un
référencement naturel.
Le deuxième chapitre traite de la méthodologie de référencement sur les annuaires et les
moteurs de recherches qui correspond à la phase d’indexation.
Le troisième chapitre décrit l’optimisation d’un site en vue de son référencement. Cette
partie comporte tous les critères « On Page » et « Off Page » sur lesquels on peut agir. Elle
fournit un certain nombre d’indications sur les différentes actions à mener afin de rendre un
site le plus réactif possible par rapport aux critères de pertinence des moteurs de recherche.
Le chapitre suivant présente tous les freins et les obstacles que l’on peut rencontrer dans un
référencement naturel.
À l’inverse du référencement, nous réservons un chapitre sur comment ne pas être
référencé dans les moteurs de recherche. Cette partie est justifiée dans le sens où certaines
parties d’un site ne doivent pas être visible sur les moteurs de recherche.
Le sixième chapitre répertorie les techniques frauduleuses aux yeux des moteurs de
recherche qu’il est préférable d’éviter ainsi que les pénalités qu’ils peuvent infliger à un site.
Le chapitre qui suit aborde la partie de la gestion du suivi du référencement naturel pour un
site ainsi que les outils qui sont disponibles pour nous aider.
Enfin le dernier chapitre est centré sur l’intérêt de laisser le référencement naturel d’un site
à des spécialistes ou plutôt de l’internaliser.
Dans la seconde partie, réservée à la prospective, nous essaierons de balayer toutes les
évolutions futures du référencement naturel notamment, au niveau des outils de recherche
et du changement de comportements des internautes.
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 8 sur 90
Enfin pour conclure, nous verrons les avantages du référencement naturel ainsi que ses
limites et donc ses inconvénients. Nous en profiterons pour exprimer nos sentiments sur le
future de ce levier de l’e-marketing.
1. Etat de l’art
1.1.Les outils de recherche
1.1.1. La nécessité des outils de recherche
Quand un internaute cherche une information il ne sait pas toujours sur quel site la trouver.
Les outils de recherche s’avèrent donc très utiles à tous les internautes, pour trouver les
pages Web contenant les informations désirées.
La recherche d’informations sur Internet (90,9%) constitue avec les E-mails (87,0%) le service
le plus utilisé par les internautes. Ceux-ci passent beaucoup de leur temps de connexion à
chercher ce qui les intéresse sur la toile.
Figure 1-1-1 : L’usage d’Internet
Source : Médiamétrie - 1T 2009 Base internautes DM (33,1 millions d’individus) - DM =
dernier mois
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 9 sur 90
Ce que l'on définit comme « outils de recherche » correspond à deux éléments :
les moteurs de recherche qui sont des outils entièrement automatiques qui indexent
les sites selon des algorithmes.
les annuaires qui font office de base de données de liens. Ils sont mis à jour et gérés
par une personne physique qui se charge d'indexer les sites qui le souhaitent et cela
sur des critères plus subjectifs.
Une étude [URL:XIT] montre que les moteurs de recherche sont la principale source de trafic
pour un site ayant déclaré des campagnes de marketing online. Nous pouvons interpréter les
33,6% des visites via les résultats naturels des moteurs de recherche comme un minimum
pour tous les sites. Il n’est pas rare de voir s’envoler ce pourcentage aux alentours de 70-
80% pour les sites n’ayant pas de campagne de marketing online (liens sponsorisés, e-
mailing, affiliation, etc.).
Les deux autres sources principales de trafic sont les accès directs et les liens depuis des sites
référents. Au-delà de l’importance du trafic généré par les moteurs, la qualité des visiteurs
apportés est une donnée complémentaire qui vient apporter un poids supplémentaire au
rôle majeur joué par les moteurs de recherche. Les internautes en provenance des moteurs
de recherche consultent plus de pages et restent plus longtemps sur un site selon [URL:XIT].
1.1.2. Fonctionnement des annuaires
Les annuaires proposent des fiches descriptives de sites classés par catégories. Ils sont
généralement utilisés pour trouver un site spécifique correspondant à un thème précis.
Globalement, l’annuaire ne dispose que de très peu d’informations sur le site qu’il
référence :
Son titre
Son adresse (url)
Un court descriptif de son activité
Les catégories dans lesquelles il est inscrit
Ils sont maintenus par des documentalistes qui prennent le temps de vérifier les
informations que nous leur soumettons. Ils n’ont pas vocation de proposer une liste
exhaustive de tous les sites d’une catégorie puisque c’est le possesseur d’un site internet qui
va chercher à intégrer l’annuaire.
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 10 sur 90
La recherche s’effectue soit en naviguant dans l’arborescence des rubriques (indice 2 sur la
figure 1-1-2) en descendant une hiérarchie qui balaie des thèmes allant du plus général au
plus précis soit en questionnant un moteur interne sur une expression (indice 1 sur la figure
1-1-2).
Figure 1-1-2 : Exemple d’un annuaire (DMOZ)
Source : DEMANGEL Jérôme et SOUCIET Alexy – Juillet 2009
Le résultat, dans les 2 cas, est une liste de liens classés qui proviennent de la base de
données de l’annuaire.
1.1.3. Fonctionnement des moteurs de recherche
A la différence des annuaires, les moteurs de recherches sont automatisés par des robots,
systèmes d’indexation, algorithmes de pertinences. Ils indexent le contenu textuel des pages
alors que les annuaires indexent des fiches descriptives de sites [AND 08]. A l’inverse de
l’annuaire, le moteur de recherche a pour ambition d’être le plus exhaustif possible au
niveau de son index de pages web.
Alors comment un moteur de recherche peut avoir une telle ambition ?
1
2
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 11 sur 90
Le moteur combine de très nombreux critères : c'est l'algorithme du moteur, jamais figée,
toujours en évolution. Quand il répond à une partie importante de ces critères, le site se voit
attribuer des «points» par le moteur (c’est la notion de scoring), qui améliore en
conséquence son positionnement (c’est la notion de ranking), dans les SERP (Search Engine
Result Page) soit les pages de résultats du moteur de recherche (figure 1-1-3).
Figure 1-1-3 : Principe de fonctionnement d’un moteur
Source : [AND 08]
Il y a 3 étapes qui sont indispensables à son fonctionnement :
L’exploration ou crawl qui grâce à des robots appelés spiders, crawlers ou users agents vont
collecter les informations.
Parmi les user agent les plus importants, citons notamment :
Pour Google :
o Googlebot
o Googlebot-Image
Pour Yahoo :
o Slurp
Pour Microsoft Live Search :
o Msnbot
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 12 sur 90
La seconde étape est l’indexation : Les moteurs de recherche utilisent des robots pour
explorer le web et détecter de nouveaux sites qu’ils ne connaissent pas ou les nouvelles
pages de sites déjà connus. Lorsqu’un robot découvre un nouveau site (ou une nouvelle
page) il va l’indexer, c'est-à-dire l’intégrer dans sa base de données pour en analyser le
contenu.
La troisième étape est le positionnement des pages. Elle a lieu après son indexation. Les
robots des moteurs de recherche analysent le texte visible contenu dans le code HTML afin
de calculer l'indice de densité des mots clés dans chaque page du site. Ils suivent aussi les
liens hypertextes pour accéder aux différentes pages du site.
Le moteur d'interrogation est l'interface frontale proposée aux utilisateurs. A chaque
question, une requête est générée dans la base de données et une page web dynamique
restitue les résultats généralement sous forme de liste de résultats (figure 1-1-4).
Figure 1-1-4 : Page de résultats de recherche (SERP)
Source : DEMANGEL Jérôme et SOUCIET Alexy – Juillet 2009
Barre de
Titr
Cache link
Snippet
Pages similaires
Url
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 13 sur 90
1.1.4. Ou se référencer et ou se positionner
Du côté des annuaires, il faut privilégier l'Open Directory Project (DMOZ) qui est
incontournable. C'est le plus grand et le plus complet des annuaires du web, il est édité,
développé et tenu à jour par une communauté mondiale d'éditeurs bénévoles.
Il existe des milliers d’autres annuaires allant du généraliste au spécialisé qui proposent les
mêmes services cependant le trafic généré par ces derniers est très faible. Il est aujourd’hui
majoritairement issu des moteurs de recherche [URL:XIT].
La figure 1-1-4 ci-dessous qui nous présente le top 30 des sites les plus consultés, nous
permet d’appréhender l’importance du référencement sur les moteurs de recherche. Tous
les internautes ont pris l’habitude de faire des recherches sur les principaux moteurs de
recherche afin de trouver l’information qu’ils désirent.
Figure 1-1-4 : Top 30 des sites les plus visités en France
Source : Médiamétrie/NetRatings –Tous lieux de connexion – Juin 2009
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 14 sur 90
Parmi les nombreux moteurs de recherche, quelques uns dominent le marché. Le leader
Google avec 89,83% des parts de visites suivi de Live Search (2,90%) et Yahoo (2,48%).
Figure 1-1-5 : Top 5 et Top 10 des moteurs de recherche en parts de visites
Source : AT Internet Institute – Avril 2009
Les parts de marché considérables de Google, indiquent clairement, que l’on est obligé de
référencer son site sur ce moteur de recherche si l’on souhaite que nos pages web soient
trouvées et fréquentées. Mais bien qu’il soit le plus important, il ne faut pas négliger sa
visibilité dans les autres moteurs notamment Live Search et Yahoo.
Maintenant que nous avons répondu à la première question (ou se référencer ?), nous allons
voir ou faut t’il se positionner.
On serait tenté de dire qu’il faut essayer d’attraper les meilleures places, c'est-à-dire les
positions qui rapporteraient le plus de visibilité donc le plus de trafic.
Pour y voir plus claire une étude de [URL:JDN] et une étude d’oculométrie (Eye Tracking)
[URL:MIR] nous donne des précieux renseignements sur le comportement des yeux des
internautes face aux pages de résultats des moteurs de recherche. Nous nous focalisons
uniquement sur les données récoltées concernant les résultats naturels.
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 15 sur 90
Les différents points que l’on retient de ces analyses:
La lecture est linéaire : les internautes commencent par le premier lien et termine par
celui qui est le plus bas. Les premiers résultats captent le plus l'attention de
l'internaute avec une différence de 90% du premier résultat par rapport au dernier.
La position conditionne le taux de clics : plus un résultat sera bas dans la page, moins
il a de chance d'être vu et cliqué.
La position influence surtout les recherches d'informations : un internaute n’ayant
pas trouvé le bon résultat va cliquer sur le premier d'entre eux. Un résultat non vu
car situé trop bas dans la page va inciter l’internaute à cliquer sur le premier, y
compris si celui-ci n'est pas le bon.
La confiance explique la prime au premier résultat : la visibilité du résultat constitue
un premier élément de réponse, mais cette explication n’est pas suffisante, un autre
mécanisme entre alors en ligne de compte. Celui-ci repose sur la confiance que les
internautes ont dans la pertinence du classement effectué par les moteurs de
recherche.
Cette étude nous montre que plus un résultat est positionné bas dans la page, moins les
internautes y consacreront du temps et de l'attention, les premières positions (1 à 3)
apparaissent essentielles pour avoir une visibilité optimale et drainer le maximum de trafic
vers son site.
Néanmoins il est tout de même intéressant de se placer dans les positions suivantes sans
dépasser le seuil de la position 30 qui correspond à la 3ème
page de résultats. Après ceseuil, il
n’y a aucun intérêt puisque la visibilité est quasi nulle.
En résumé, selon l’ambition du site, il faudra essayer de se positionner pour les mots clés
stratégiques (du plus simple au plus complexe) :
Dans les 3 premières pages de résultats (top 30)
Dans la première page de résultat (top 10)
Dans les résultats affichés au dessus de la ligne de flottaison (résultats affichés par le
navigateur sans utiliser la scroll bar pour descendre dans la page)
Dans le « triangle d’or » (top 3)
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 16 sur 90
1.2.Comment intégrer les index des outils de recherche
1.2.1. Comment soumettre son site aux annuaires
Lors de la création d’un site internet, il n’est inscrit dans aucun annuaire par défaut. Pour
être référencé, il faut soumettre une demande à chaque annuaire pour que notre demande
soit prise en compte en sachant que l’inscription de notre site peut être refusée si l’on ne
respecte pas certaines conditions propre à l’annuaire.
Figure 1-2-1 : Soumission d’un site sur
DMOZ
Source : DEMANGEL Jérôme et SOUCIET Alexy – Juillet 2009
Pour inscrire son site sur un annuaire, il faut parcourir les catégories et choisir celle où l’on
veut être répertoriée, dans notre cas, "Conception de sites" (figure 1-2-1) et cliquer sur un
lien de type « Proposer un site » ou « Soumettre un site ».
1.2.2. Comment soumettre son site aux moteurs de recherche
Après les annuaires, voyons donc les différentes voies qui nous sont proposées pour faire en
sorte que notre site soit rapidement dans les index des moteurs de recherche.
1.2.2.1. Le formulaire de soumission
Difficile de ne pas signaler cette voie officielle puisque les principaux moteurs proposent, via
un formulaire de soumission d’un site, de leur signaler l’existence de celui-ci.
Voici les adresses de ces formulaires pour les principaux moteurs :
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 17 sur 90
Pour Google : http://www.google.fr/addurl/
Pour Yahoo : http://siteexplorer.search.yahoo.com/fr/free/submit
Pour Microsoft : http://www.bing.com/docs/submit.aspx
La procédure est simple, il suffit de remplir un formulaire en indiquant l’adresse de la page
d’accueil de son site.
Cette voie est loin d’être la plus efficace et la plus rapide pour que les robots des moteurs de
recherche viennent visiter la page d’accueil et ainsi suivre tous les liens pour en indexer les
pages internes.
1.2.2.2. Le fichier « sitemap.xml »
Le fichier « sitemap.xml » est destiné aux robots des moteurs de recherche qui visitent notre
site internet. On peut l’illustrer par analogie avec une autoroute. C’est ce fichier qui va aider
les robots à parcourir les pages de son site (figure 1-2-2).
Figure 1-2-2 : Procédure de soumission du fichier sitemap aux moteurs
Source : Elliance (traduite pour une meilleure compréhension) – 2009
En effet, ce dernier énumère toutes les url des pages d’un site internet présentes dans le
fichier et évite donc de laisser de côté certaines pages pour les robots.
Le fichier sitemap est construit d'après le langage XML. Il s'agit d'un simple fichier texte, que
l’on peut créer dans n’importe quel éditeur texte.
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 18 sur 90
Seules les url des pages que l’on souhaite référencer doivent figurer dans ce fichier.
Cependant, plusieurs paramètres existent mais ne sont pas obligatoires. Ils vont par exemple
permettre de spécifier la priorité d’une page, de spécifier une fréquence de mise à jour des
pages concernées ainsi qu'une date de dernière mise à jour.
Exemple de fichier sitemap.xml :
Quelques règles pour ce fichier :
Le champ « loc » représente l’adresse de la page. Ce champ commence par "http://"
puisque l’adresse doit être indiquée de façon absolue et non pas relative.
Le champ « lastmod » est la date de dernière modification du fichier, elle doit
respecter le format YYYY-MM-DD.
Le champ « changefreq » représente la fréquence de mise à jour de la page. Elle est
peu importante et l’on doit choisir entre les possibilités suivantes : always, hourly,
daily, weekly, yearly, never.
Le champ « priority » indique l’importance que l’on donne à la page à l’intérieur du
site. La valeur est comprise de 0 à 1. La priorité par défaut est fixée à 0.5.
Le fichier doit être placé dans le répertoire ou se trouve les pages indiquées dans
celui-ci. L’emplacement le plus logique est le niveau le plus haut de l’arborescence
d’un site soit à la racine du site.
Exemple « http://www.nom-de-domaine.fr/sitemap.xml ».
Les principaux moteurs de recherche se sont mis d’accord sur une version commune du
fichier « sitemap.xml ». C’est la version 0.9 à spécifier dans le fichier par :
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
La procédure de déclaration du fichier doit se faire via une interface Webmaster Tools
propre à chaque moteur :
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://www.nom-de-domaine.fr</loc>
<lastmod>2009-01-24</lastmod>
<changefreq>monthly</changefreq>
<priority>1.0</priority>
</url>
<url>
<loc>http:// www.nom-de-domaine.fr /page1.php</loc>
<lastmod>2009-01-24</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
</urlset>
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 19 sur 90
Pour chacun des Webmaster Tools (Google, Yahoo, Microsoft) il est nécessaire de disposer
d’un compte. Voir l’annexe 4
1.2.2.3. Le lien depuis une page déjà indexée
La voie que nous allons voir est certainement la meilleur solution aujourd’hui pour indexer
un site.
Le principe réside dans le fait qu’un lien venant d’une page déjà indexée doit pointer sur une
page de son site, l’idéal étant que la page pointée soit la page d’accueil (figure 1-2-3).
Figure 1-2-3 : Mécanisme d’indexation par les liens
Tous les éléments sont requis dans cet exemple pour que les robots suivent le lien depuis le
site qu’il a déjà dans son index et indexe quasi immédiatement la page cible.
La seule difficulté de cette solution, est de trouver une page qui réponde à ces critères, mais
au final c’est la solution à privilégier car elle est de loin la plus rapide et la plus fiable.
-Page indexée
-Page populaire
-Page
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 20 sur 90
1.3.La démarche globale
Chaque moteur a son propre algorithme [URL:WYS] et il n'est pas possible d'énumérer tous
les critères universels et permanents surtout que ceux-ci varient en fonction de l’évolution
des usages.
Figure 1-3-1 : Les nombreux critères possibles de l’algorithme d’un moteur de recherche
Source : Elliance – 2008
La figure 1-3-1 montre une liste non exhaustive des critères qui serviraient aux algorithmes
des moteurs de recherche. Même si l’on ne connaît pas exactement les algorithmes, on peut
considérer que les critères se combinent pour constituer trois grands ensembles étroitement
liés : la technique, le contenu et les liens.
La technique concerne l'architecture et le code du site. Il faut s’assurer que
l’intégralité du site est techniquement accessible aux moteurs de recherche et que le
code source permet une bonne prise en compte du contenu.
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 21 sur 90
Le contenu comprend tous les textes visibles sur votre site. Certains textes ne sont
pas considérés comme visible aux yeux des moteurs de recherche, nous verrons par
la suite pourquoi.
La popularité d’un site est calculée par la mesure de la quantité et de la qualité des
liens pointant vers lui.
1.3.1. Choisir son nom de domaine
Le nom de domaine est le premier choix que l’on doit faire quand on souhaite optimiser son
site. En se basant sur l’étude [AFA 07] et [AND 08], les principales préoccupations quant à ce
choix doivent être :
La cible
La stratégie de communication
La cible détermine quelle extension choisir à savoir :
Si la cible est française il faudra opter pour une extension en .fr ou autre.
Un site ayant une cible américaine optera plutôt pour un .com, de façon logique.
Un site à vocation internationale pourra de façon habile être accessible selon
plusieurs adresses : le .fr pour la version française, le .com pour la version en langue
anglaise, etc.
Il est ici plus une question de stratégie personnelle et de logique que d’optimisation puisque
les moteurs n’accordent pas d’importance à l’extension du domaine dans leurs algorithmes
de pertinence.
La stratégie de communication va déterminer les mots clés. 2 choix sont alors possibles
entre choisir le nom de sa marque/entreprise : "nom-de-marque.fr" ou un descriptif de
l’activité du site : " votre-activité.fr"
Cependant dans les 2 cas, le nom à choisir doit rester court sous peine d’être considéré
comme du spam.
Un nom de domaine contenant plusieurs mots clés importants pour l’activité du site est
préférable pour les moteurs de recherche mais le choix du nom de la marque est plus
logique dans le cadre d'une stratégie globale de communication sur le web.
Néanmoins si l’on choisit de placer des mots clés importants il est préférable de les séparer
par un tiret "-". Le site sera plus réactif sur les mots séparés que sur le seul mot attaché.
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 22 sur 90
Exemple :
www.voyagesmondeentier.fr et www.voyages-monde-entier.fr
Dans le premier cas le moteur ne comprendra que "voyagesmondeentier" et dans le second
le site sera réactif sur "voyages", "monde entier ", "voyages monde ", "voyages monde
entier". Ce qui est nettement plus intéressant.
Au final, nous ne pouvons pas choisir un nom de domaine en prenant en compte
uniquement la vision du référencement naturel. Même si l’on choisit un nom de domaine
non optimisé aux yeux des moteurs, l’utilisation d’url optimisés avec des mots clés
importants compense amplement cette situation.
D’après [URL:SER] et [AND 08], l’ancienneté du nom de domaine est un critère important.
Ceci n’est valable que pour les noms de domaines déjà indexés.
L’optimisation qui rentre dans le cadre du nom de domaine est la préférence pour la
création de plusieurs petits sites, avec un contenu propre à chacun, plutôt qu’un gros car
cela permet de se faire un réseau de sites avec la possibilité de faire des liens entre eux ce
qui accroitra leur visibilité.
1.3.2. La recherche de mots clés
En reprenant l’analogie de la grande distribution, un produit placé en tête de gondole n’est
pas forcément le produit le plus vendu. D’autres facteurs interviennent, la qualité du
produit, l’endroit où se trouve la gondole, le nombre de personnes susceptibles de passer
devant, etc. En d’autres termes, il ne sert à rien d’être bien positionné sur des mots clés dont
le volume de requêtes est extrêmement faible.
Cette phase consiste à choisir les « bons » mots clés pour positionner les pages d’un site
dans les SERP.
1.3.2.1. Le choix des « bons » mots clés
Mais alors comment distinguer un « bon » mot clé d’un « mauvais » ?
Pour répondre à cette question il est important que les mots clés qu’on aura à choisir
répondent à 2 critères essentiels :
L’intérêt
La faisabilité
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 23 sur 90
Ces 2 notions sont essentielles en partant du principe que les mots clés choisis devront
décrire l’activité et le contenu de chaque page.
L’intérêt d’un bon mot clé réside dans son volume de recherches. Il doit être le plus possible
requeté par les internautes dans les moteurs de recherche.
Sa faisabilité doit être calculée en prenant en compte le nombre de résultats quand il est
requeté dans un moteur de recherche. Il doit être techniquement possible de positionner sa
page web dans les premiers résultats. Si le nombre de résultats est trop important, il
vaudrait mieux se rabattre sur un mot clé comprenant plus de mots dans le but d’être moins
générique.
Exemple pour la requête mot clé "rachat de crédit" :
Cette requête affiche 875 000 résultats, ce qui est beaucoup. Il sera très difficile de se
positionner dessus à moins d’avoir un site avec un contenu riche sur cette thématique.
Pour conclure bien choisir ses mots clés consiste à trouver un arbitrage entre le potentiel des
expressions mots clés choisies et la faisabilité de positionnement sur ceux-ci.
1.3.2.2. Ou les trouver ?
On trouve ces mots clés en opérant de la sorte :
En analysant le site lui-même s’il est déjà créé, ou du projet de site s’il ne l’est pas, en
s’efforçant de faire ressortir l’objectif réel du site (informer, vendre, etc.), c'est-à dire
en essayant de savoir pourquoi nous voulons que les internautes viennent sur ce site
en particulier.
En analysant les sites des concurrents (benchmarking), de leurs positionnements sur
les moteurs, des mots-clés sur lesquels ils se sont basés. Cette analyse permet un
gain de temps énorme, puisque si l’un des concurrents a déjà optimisé les pages de
son site web, il nous sera possible de repérer une liste d’expression stratégique.
En analysant les comportements des internautes sur les moteurs de recherche, par
rapport aux mots-clés dégagés à la suite des deux premières analyses.
Nombre de résultats
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 24 sur 90
On peut agrémenter cette liste en faisant par exemple un sondage interne, en étudiant les
expressions connexes, et les synonymes.
1.3.2.3. Les outils pour les trouver
Pour dégager les mots clés d’une page web, il existe plusieurs outils en ligne qui calculent la
densité de mots clés dans celle-ci. Ils peuvent permettre d’extraire rapidement les
principaux mots clés d'une page (exemple sur la figure 1-3-2).
Figure 1-3-2 : Exemple d’extraction de mots clés importants d’une page basé sur leur
densité, avec KGen (un plugin Firefox)
Source : DEMANGEL Jérôme et SOUCIET Alexy – Juillet 2009
Dans la catégorie des outils qui aident à la génération de mots clés, nous pouvons citer
Google Keyword Generator, qui permet d’avoir pour une thématique donnée, l’ensemble
des requêtes et synonymes associés avec le potentiel de trafic qu’elles représentent sur ce
moteur (Annexe 1).
A la base cet outil sert principalement pour son programme de liens sponsorisés Adwords
mais il est fort utile dans le domaine du référencement naturel.
Il est intéressant de souligner que l’on peut procéder à des analyses sur les mots clés qui
sont employés par les sites des concurrents grâce à la fonctionnalité « Contenu d’un site
Web ».
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 25 sur 90
D’autres outils dans la même lignée permettent de connaître les expressions qui sont
requêtées par les internautes.
Google Suggest par exemple est une fonctionnalité active à partir de la page d'accueil de
Google qui permet de mettre en évidence les expressions les plus courantes. Cet outil
dynamique montre les recherches les plus populaires, en rapport avec un terme donné, de
façon purement algorithmique (figure 1-3-3).
Figure 1-3-3 : Google Suggest
Source : DEMANGEL Jérôme et SOUCIET Alexy – Juillet 2009
Google Insights Search (Annexe 2) est un autre outil de Google, à la base en anglais, qui
récemment [URL:GIS] a été décliné dans la version française. Il donne les tendances des
recherches de mots clés, en comparant les tendances des volumes de recherche par région,
catégorie et par saison sur le moteur de recherche Google.
Grâce à l’outil de prévision de trafic embarqué, on peut estimer l'intérêt suscité par un
terme donné dans le futur.
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 26 sur 90
1.3.3. Techniques d’optimisations
Bien qu’une page internet puisse être écrite dans différents langages, ils se reposent tous sur
le langage de base : le HTML. Il n’est pas directement lisible par l’internaute lors d’une visite
d’une page web, contrairement aux robots qui eux le visualisent. Un robot ne voit pas une
page comme un internaute, il la voit en mode texte (Annexe 3).
C’est à travers le code HTML en partie que l’on peut optimiser une page. Dans la partie
précédente nous avons défini les mots clés pour positionner nos pages web, maintenant il
nous faut les placer dans les zones les plus réactives par rapport aux critères de pertinence
des moteurs. Les critères « On-page » sont tous les critères relatifs au contenu de la page
alors que les critères « Off-page » concernent les facteurs extérieurs à la page.
1.3.3.1. Critères On-page
1.3.3.1.1. Balise TITLE
Dans sa norme, HTML a prévu une balise spéciale pour le titre d’une page : la balise titre
"TITLE". Cette balise est l’élément le plus important sur le plan éditorial pour informer
l’utilisateur et le moteur sur le contenu de la page mais aussi l’un des facteurs les plus
importants pour le positionnement d’une page [URL:SRF].
La lecture du titre se faisant de gauche à droite, l’importance du premier mot clé serait bien
plus conséquente que le dernier.
Exemple d’un titre qui est affiché dans les pages de résultats :
Figure 1-3-4 : Balise Title
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 27 sur 90
Source : DEMANGEL Jérôme et SOUCIET Alexy – Aout 2009
Voici les règles pour nommer les titres des pages d’un site selon [HPH 08], [GDO 08] et [BIR
09] :
dans le code HTML, le titre doit être placé le plus haut possible (le plus proche
possible de l’ouverture de la balise <head>)
le titre de la page peut contenir entre 50 et 100 caractères
il doit contenir les mots ou expressions les plus représentatifs du contenu de la page
(les mots clés utilisés sont normalement ceux pour lesquels la page apparaîtra dans
les résultats des moteurs)
il faut éviter les listes de mots-clés séparés par des virgules
ne pas répéter 2 fois les mêmes mots
1.3.3.1.2. Url des pages
Dans la mesure du possible, le nommage des pages et des répertoires doit se faire en y
insérant les mots clés importants, c'est-à-dire les mots issus de la thématique de la page sur
lesquels ont souhait se positionner.
En effet, les mots clés présents dans l'adresse d’une page sont le plus souvent pris en
compte par les moteurs dans leurs classements de pertinence [URL:SRF].
Une adresse telle que : « http://www.monsite.fr/voyages/excursion-japon.html » propose 4
mots clés intéressants : "voyages", "excursion", "japon", "excursion-japon".
Tandis que cette adresse : « http://www.monsite.fr/voya/page1.html » ne propose aucun
mots clés pertinent.
Voici les règles pour nommer les pages d’un site selon [BIR 09], [GDO 08] et [AND 08] :
pas de caractères accentués dans les noms des pages
pas d'espace dans les noms de pages ou les remplacer par des tirets
les noms des pages et répertoires en minuscule
éviter d’utiliser les caractères exotiques (%, :, ?, +, =)
séparer les différents mots clés d'un même nom par des séparateurs tels que le tiret,
la virgule, l’underscore ou le slash bien qu’il soit fortement conseillé d’utiliser le tiret
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 28 sur 90
limiter le nombre de caractères total de l'url à 128 caractères maximum (100 étant
une limite idéale)
limiter à 3 le nombre de mots composant l'expression clé et éviter les répétitions de
mots dans la même URL pour éviter la pénalité appliquée au spam (voir chapitre 1.6)
Il est très important d’avoir uniquement une seule url pour une seule page. Le problème le
plus fréquent concerne la page d’accueil d’un site qui peut avoir plusieurs url. En effet toutes
ces url sont toutes différentes et pointent toutes sur la même page:
www.monsite.fr
monsite.fr
www.monsite.fr/
monsite.fr/
www.monsite.com/index.html
monsite.fr/index.html
La première page lancée par un serveur web quelque soit l’hébergement est la page "index"
ou "home" avec comme extension (html, htm, php, aspx, asp, etc.). Autant dire que ce nom
n’apporte rien sur le point de vue du référencement.
Pour les versions avec ou sans www il est primordial de choisir le format des url que l’on
veut afficher.
On résous ce problème en définissant des redirections 301 expliquées dans le chapitre 1.4.6
afin de rediriger les url non pertinentes vers l'url principale la plus judicieuse pour
l’optimisation de son site. Pour notre exemple le choix est de rediriger toutes les url vers
« www.monsite.fr ». On peut raccourcir les redirections à mettre en place en indiquant dans
le Google Webmaster Tools, quel domaine on choisit d’afficher (avec ou sans les www).
Dans tous les cas il est vivement conseiller d’uniformiser toutes les url sans quoi il y aura une
diffusion inutile de la popularité entres les pages concernées et sous risque d’être placé en
"Duplicate Content" (voir chapitre 1.6).
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 29 sur 90
1.3.3.1.3. Texte visible
« Content is king, optimized content is emperor » une citation qui prend tout son sens.
Toutes les pages du site, ou du moins une majorité, doivent donc contenir du contenu texte
intégrant les mots clés sur lesquels vous souhaitez ressortir.
Le contenu comprend deux choses : les éléments textuels entre les balises HTML
<body></body> et les balises Meta et TITLE.
Nous avons vu précédemment les balises Meta et la balise TITLE nous allons donc nous
focaliser sur le contenu de la balise <body>.
Les robots des moteurs de recherche analysent le texte visible afin de calculer l'indice de
densité des mots clés dans chaque page du site et de déterminer la thématique de chaque
page.
Sans texte pertinent, contenant des mots clés, le site aura peu de chance d'être bien
positionné par rapport à d'autres sites contenant ces mots clés et expressions dans leurs
pages.
La façon dont un mot clé est intégré joue sur le poids accordé au mot clé. Pour schématiser,
voici par ordre décroissant de poids les modes d’intégration [URL:SRF]:
mot clé repris en texte de liens
mot clé repris dans les balises sémantiques
mot clé en gras (ou italique ou souligné)
mot clé simple
Les règles pour le contenu d’un site :
Privilégier un texte pertinent en début de code source.
Chaque page à contenu doit mettre en relief 3 à 4 mots clés maximum. Pour cela il
faut travailler la densité des mots clés dans le texte de manière à ce que les mots clés
soient parmi les occurrences les plus importantes avec une densité comprise entre
2.5 et 5% et cela dans le haut du code source [AND 08] et [BIR 09] (voir figure ci
dessous).
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 30 sur 90
Il faut que le mot clé principal soit contenu dans un titre en H1, et que chacun des 3
mots clés reviennent entre 5 et 10 fois dans les 300 premiers caractères du texte.
Les mots clés et expressions doivent être mis en évidence dans la page par
l’intermédiaire de balises sémantiques [URL:HTM], balises de style (b, u, etc.)
équivalent à la (mise en gras, soulignement).
Il est possible également de mettre en œuvre les actions suivantes :
Insertion d’une Upline spécifique sur chaque page du site. Une Upline est constituée
d’une courte phrase présentant en quelques mots l’activité de la page concernée.
Son but est de proposer des mots clés pertinents pour le référencement et de
faciliter l’indexation de la page par les moteurs.
Insertion d’une Baseline en pied de page. Une Baseline est constituée de quelques
phrases présentant la thématique du site et proposant des liens vers les principales
rubriques du site. Son but est de mettre en valeur certaines pages du site et
d’augmenter l’occurrence de mots clés sur la page.
En respectant les règles listées ci-dessus et sans en abuser, le site doit pouvoir ressortir sur
les mots clés naturellement.
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 31 sur 90
Ce qu’il faut éviter :
Les « stops words » sont des mots qui parasitent la lecture de la page par les robots. Il en
existe plein, par exemple : euros, trier par, cliquez ici, voir, en savoir plus, etc.
La solution consiste à passer en images tous ces mots pour éviter qu’ils diluent la densité des
mots clés des mots importants. Car en effet, les robots sont dans l’impossibilité de lire le
contenu d'une image.
Les mots clés doivent être intégrés dans un paragraphe de contenu réel (pas de série de
mots clés répétés sans sens) et il est préférable de maximiser la densité de mots clés en
insistant sur 3/4 mots clés par page.
Enfin, il ne faut pas sur-optimiser les pages, il ne faut pas oublier que le site doit être avant
tout conçu pour l’internaute.
1.3.3.1.4. Balises Meta
Parmi la liste des balises Meta que l’on peut trouver, seules quelques unes sont utilisées
pour le référencement naturel : la balise Meta Description et Meta Keywords.
Bien que ces 2 balises n’aient plus grande importance, elles méritent d’être soignées
notamment la balise Meta Description [URL:GOM] qui sert à donner une description de la
page pour apparaître ensuite dans la page de résultats des moteurs.
La balise Meta Description doit se placer entre les balises <head></head> du code source
HTML.
<html>
<head>
<title>Titre du site</title>
<meta name="description" content="Description du site">
</head>
<body>
// Corps de la page
</body>
</html>
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 32 sur 90
La balise Meta Description est présente dans le code source et se retrouve affichée dans les
pages de résultats du moteur de recherche :
Figure 1-3-5 : Balise Description
Source : DEMANGEL Jérôme et SOUCIET Alexy – Aout 2009
Selon [URL:LRD] seul Yahoo accorderait encore une importance à cette balise du point de
vue SEO.
Ce qui importe vraiment, c’est d’avoir des descriptions différentes, sur chaque page que l’on
souhaite indexer pour ne pas être interprétée comme ayant des pages similaires aux autres
portant les mêmes descriptions.
Voici les règles pour rédiger la balise Meta Description selon [TAK 09] :
la balise Meta Description doit contenir entre 150 et 200 caractères
elle doit présenter une description de la page étudiée (par exemple, le titre de la
page peut être repris et développé sur 200 caractères)
il faut essayer de placer la balise Meta Description le plus haut possible dans le code
source (juste en dessous du Titre : <TITLE>)
La balise Meta Keyword contient, elle, une liste de mots clés pour une page, séparés soit par
des virgules,soit par des espaces.
Selon [URL:LRK] seul Yahoo accorderait encore une importance à cette balise du point de
vue SEO.
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 33 sur 90
La balise Meta Keyword doit se placer entre les balises <head></head> au même titre que la
balise Meta Description.
Voici les règles pour rédiger la balise Meta Keyword selon [TAK 09] :
la balise Meta Keywords doit contenir entre 150 et 200 caractères
elle doit présenter une liste de mots clés représentatifs de la page étudiée
Il faut essayer de placer la balise Meta Keywords le plus haut possible dans le code
source (juste en dessous de la balise Meta Description)
1.3.3.1.5. L’attribut ALT des images
Un fichier image est décrit ainsi dans le code source HTML d’une page :
Les critères pris en compte par les moteurs pour identifier les images qu'ils proposent dans
leurs pages de résultats sont les suivants :
Le nom de l’image (ici "nom-image"). Les mots clés à utiliser pour le nom de l’image doivent
être le plus précis et descriptifs possible.
Le texte alternatif (ici le contenu de l’attribut ALT).
Les attributs ALT des images sont utilisés par certains logiciels pour faciliter la navigation des
personnes malvoyante. L'accessibilité d’un site doit donc être améliorée en renseignant les
<img src="http://www.monsite.fr/images/nom-image.jpg" alt="texte alternatif décrivant
l'image" title="titre de l’image">
<html>
<head>
<title>Titre du site</title>
<meta name="description" content="Description du site">
<meta name="keywords" content="mot-clé1, mot-clé2, mot-clé3">
</head>
<body>
</body>
</html>
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 34 sur 90
balises ALT de certaines images stratégiques selon les recommandations W3C [URL:W3A] et
du Guide Accessiweb [URL:ACC].
Outre la notion d’accessibilité, il est très important pour les moteurs de recherche [URL:SRF].
C’est un peu l’équivalent de la balise <title> pour une page web.
Les attributs ALT peuvent être renseignés sur les images importantes du site, cela peut être
par exemple les images des menus, le logo de la société, les images d’illustration d’un article
ou d’un produit, en gardant à l’esprit qu’il faut toujours indiquer ce que représente
réellement l’image.
Figure 1-3-6 : Texte alternatif
Source : DEMANGEL Jérôme et SOUCIET Alexy – Aout 2009
L’attribut « title » par contre n’est pas pris en compte par les moteurs de recherche, son
utilisation est utile que pour une notion d’accessibilité (affiche du texte au passage de la
souris sur l’image).
Le texte autour de l’image est à soigner également, notamment en explicitant l’image car il
joue un rôle important. En effet les robots se servent pour indexer les images, non seulement
du contenu de la balise <img> mais également de l’environnement textuel autour de l’image.
Exemple d’un texte (une sorte de légende) autour d’une image :
<img src="http://www.monsite.fr/images/bateau-mouche-seine.jpg" width="100" height="40"
alt="bateau mouche sur la seine">Vous pouvez voir, sur l'image ci-contre, une photo d’un
bateau mouche sur la seine à Paris, prise sur le quai X.
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 35 sur 90
1.3.3.2. Critères Off-page
Certains critères influant sur le référencement naturel d'un site sont paradoxalement liés à
des éléments hors site : il s'agit des liens. Les principaux moteurs de recherche (Google en
premier) indexent et positionnent les sites selon les critères cités précédemment mais en
intégrant de façon déterminante une dernière variable supposée représentée le degré de
popularité du site dans le Web.
Plus concrètement, la popularité se détermine par le nombre de pages indexées, dans un
moteur, qui contiennent un lien vers son site. Ces pages peuvent appartenir à notre site
(popularité interne) ou à un site externe (popularité externe).
1.3.3.2.1. Liens
1.3.3.2.1.1. Maillage interne
Le site doit présenter une construction accessible au niveau des liens internes afin que les
moteurs et les internautes puissent accéder à toutes les pages facilement.
Les pages qui n’amènent à rien (les pages « cul de sac » et pages d’impressions) sont à éviter
et une page faisant office de plan du site est impératif pour faciliter l’accès aux pages qui se
trouvent sous plusieurs niveaux de répertoires ou accessibles par un seul lien profond.
Un bon lien se définit de la manière suivante :
Il doit être en hypertexte (<a href=""></a>), en effet seul ce type de lien est pris en
compte par les moteurs de recherche.
Il doit utiliser un "anchor text" pertinent (mot clé ou expression) en rapport avec le
contenu de la page cible.
Chaque niveau doit être lié au précédent et à la page d’accueil.
Pour chaque niveau, on doit donc mettre en place [AND 08]:
Un lien pointant vers la page d’accueil du site.
Un lien pointant vers le niveau initial.
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 36 sur 90
1.3.3.2.1.2. Maillage externe
Pour la popularité externe, il s'agit d'obtenir des liens depuis des sites partenaires ou "amis".
Plus ces sites sont eux mêmes populaires et dans la même thématique que le site, plus ils
vont donner de la popularité au site.
Pour optimiser les échanges de liens avec d’autres sites, il est conseillé de rechercher des
sites de thématique similaire ou complémentaire à notre site.
Au niveau du lien en lui-même, il faut proposer directement un code HTML propre que le
webmaster, avec qui l’on a décidé de faire un échange, et qui pourra l’ajouter directement
dans son code source.
Il faut donc préférer un lien comme celui-ci :
Consultez <a href="vente-voiture.html">notre liste de voitures à vendre</a>.
Plutôt qu’un lien comme celui-ci :
<a href="vente-voiture.html">Cliquez ici</a> pour accéder à notre liste de voitures à vendre.
Voici les règles que l’on peut appliquer concernant les liens externes:
Il convient de varier les anchor text si l’on effectue de nombreux échanges.
Il faut proposer le moins possible de liens sortants aux moteurs de recherche depuis
une page populaire.
Les liens sortants doivent le plus possible pointer vers un contenu traitant du même
domaine, de la même thématique que la page qui les contient.
1.3.3.2.2. Le PageRank
C’est un indice de popularité développé par Google, basé sur la topologie du Web,
autrement dit sur l’étude des liens entre les pages du web.
Le PageRank est une note (de 0 à 10) attribuée à une page web en fonction de la qualité des
liens externes pointant vers cette page et de la nature des sites sur lesquels ces liens sont
présents.
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 37 sur 90
Le PageRank aussi appelé (PR), que nous pouvons voir est celui présenté par la Google Barre
(figure 1-3-7), qui est différent du PageRank interne (score que Google utilise dans son
algorithme de classement).
Figure 1-3-7 : Google Barre
Le PageRank interne est constamment mis à jour contrairement à celui présenté par la
Google Barre puisque sa mise à jour dépend de la Google Dance qui est la période de mise à
jour de l’index Google et qui se traduit par un classement différent des positions d’une
même page sur un même mot clé selon les requêtes.
L'algorithme du PageRank fait partie des critères utilisés pour déterminer le positionnement
des pages dans Google. Ainsi, pour deux pages au contenu comparable, celle ayant le
meilleur PageRank sera bien souvent classée devant, surtout pour les requêtes mots clés très
concurrentielles.
Voici la formule simplifiée du PageRank :
Le PR d’une page (u) est égal à la somme des PR des pages (v) pointant vers (u), le tout divisé
par le nombre respectif de liens provenant des pages (v).
Quelques exemples sont nécessaires pour comprendre cette formule mathématique.
Exemple 1 [AND 08]:
La page A, qui ne contient qu'un lien sortant et qui bénéficie d'un PageRank (PR) de valeur 7
va fortement influer sur le PR de B et le faire augmenter en proposant un lien vers cette
page.
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 38 sur 90
De plus, comme le seul lien sortant de la page A va vers B, cette dernière page profite de
100 % de la capacité de vote de A (un lien étant considéré comme un vote par les moteurs
de recherche) [GOO 09].
Exemple 2 [AND 08] : A (de PR 1) pointe vers B
Dans ce cas, B profite toujours des 100 % de capacité de vote de A, mais cette dernière page
étant très peu populaire, ce lien ne fera que faiblement augmenter le PR de B. Notons
cependant qu'il n'influencera pas de façon négative le PR de B.
Exemple 3 [AND 08] : A (PR 7) pointe vers B et C
Dans ce cas, le PR de A est fort (7) et les liens vers B et C vont augmenter la popularité de ces
deux pages. En revanche, du fait qu'il existe maintenant deux liens sortant de A (un vers B et
un vers C), chacune des deux pages de destination va donc se partager pour moitié la
capacité de vote de A.
Un dernier exemple illustré :
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 39 sur 90
Source : [URL:WB] – 16 juin 2009
On remarque que le PageRank se divise en autant de liens sortants qu’une page en a,
toujours en se basant sur le capital de PageRank de la page d’origine.
Pour augmenter son PageRank, ou plus précisément le PageRank d'une de vos pages la
première chose à faire est d'obtenir des liens d'autres sites.
Voici quelques conseils à ce sujet [AND 08], [LSF 08], [GOO 09]:
Il faut essayer d'obtenir un grand nombre de liens vers sa page.
Choisir en priorité des pages ayant un bon PageRank (attention à la distinction entre
le PageRank d'un site et celui de ses pages : le PageRank d'un site est par définition
celui de sa page d'accueil, mais le lien vers notre page sera peut-être situé sur une
autre page ayant un très mauvais PageRank).
Choisir des pages ayant le moins de liens sortants possible (surtout si leur PageRank
est faible).
Il faut vérifier que la page qui fait le lien est bien indexée par Google, sinon son
PageRank vaut zéro et cela n’apportera rien.
Il peut être plus efficace d'avoir un lien depuis une page au PageRank de 4 mais
comportant peu de liens sortants qu'un lien depuis une page au PageRank de 6 mais
comportant un grand nombre de liens sortants.
Pour conclure le PageRank reste un algorithme complexe, finalement assez mal connu du
fait que le moteur ne communique pas son algorithme.
Le PageRank reste qu'un indice de popularité, la réalité des faits met en avant qu’avoir un
bon PageRank ne suffit pas à lui seul à être bien positionné.
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 40 sur 90
1.3.3.3. Les autres critères
Nous avons vu dans ce chapitre les principaux points qu’il faut soigner pour rendre nos
pages compatibles et réactives par rapport aux critères de pertinence des moteurs. D’autres
critères ayant un poids plus faible que ceux cités au dessus existent et méritent que l’on s’y
attarde.
1.3.3.3.1. Norme W3C
W3C est l’Acronyme signifiant World Wide Web Consortium, il s'agit d'un organisme
émettant des recommandations sur les bonnes pratiques du web à respecter.
Il faut essayer au maximum de coder les pages Web de manière à les rendre conforme aux
standards de la W3C [URL:OPW]. Les bénéfices se ressentent quand les robots indexent ces
documents puisqu’ils attendent un document répondant aux normes.
Voici un extrait des conseils de Google sur la création d’un code source optimisé [URL:GW3] :
« Votre site peut apparaître correctement dans certains navigateurs même si votre code
HTML est incorrect. Par contre, il n'est pas garanti qu'il s'affichera correctement dans tous les
navigateurs, ni dans les versions à venir de tout navigateur. La meilleure façon de vous
assurer que votre page présente le même aspect dans tous les navigateurs est de la créer en
utilisant des codes HTML et CSS corrects, puis de la tester dans le plus grand nombre de
navigateurs possible. Un code HTML correct et clair équivaut à une bonne police d'assurance.
[…] Bien que nous recommandions l'utilisation d'un code HTML correct, cela n'a normalement
aucune incidence sur la façon dont Google explore et indexe votre site. »
Le test de validation de la W3C est accessible à cette adresse : http://validator.w3.org/
Par la même occasion on peut valider également les feuilles de styles (.css), qui sont
également sous la norme de la W3C, à cette adresse : http://jigsaw.w3.org/css-validator/
1.3.3.3.2. Pages 404 personnalisées
Lorsqu'une URL d’un site est mal tapée, un site génère une page d'erreur standard, qui
n'apporte aucune information pertinente.
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 41 sur 90
Figure 1-3-8 : Erreur 404
Source : DEMANGEL Jérôme et SOUCIET Alexy – Juillet 2009
Ce type de page n’incite pas l’internaute à poursuivre sa visite sur le site et risque
d’engendrer un fort taux de rebonds (internautes qui quittent rapidement le site).
Comme il n’est pas possible de maîtriser à 100 % la fiabilité des liens pointant vers les pages
de son site (notamment en ce qui concerne les liens issus de sites externes), il est important
de prévoir les erreurs et les liens « cassés ».
Il est recommandé de réaliser une page d'erreur personnalisée [URL:GER], qui permettrait
de poursuivre la visite sur son site. Ceci bénéficierait aux internautes et permettrait de
limiter les pertes de trafic dues aux « liens cassés ».
Idéalement la page d’erreur personnalisée doit être réalisée avec la même charte graphique
que votre site et doit indiquer clairement au visiteur que la page recherchée n’existe pas. Il
est conseillé de proposer également des liens de navigation afin d’inciter le visiteur à
poursuivre sa visite sur le site.
Il est très important de proposer un en-tête 404 sur cette page, de manière à ce qu'elle soit
bien considérée comme une page d'erreur et que les URL correspondantes ne soient pas
indexées.
Pour rediriger le visiteur vers une page d'erreur personnalisée (nommée par exemple
http://www.nom-de-domaine.fr/page-erreur.php) il suffit d'ajouter la ligne suivante dans un
fichier .htaccess placé à la racine du site avec la syntaxe suivante :
ErrorDocument 404 /page-erreur.php
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 42 sur 90
1.4.Les obstacles et les freins au référencement naturel
1.4.1. Les framesets
Problème :
L'utilisation de frameset peut être un facteur gênant pour le référencement.
Les robots des outils de recherche ne savent pas tout le temps accéder aux pages auquel le
frameset fait référence [URL:GOC]. Ceux-ci ne pourront pas atteindre les textes visibles du
site qui sont un des éléments les plus importants pour le référencement naturel.
On remarque que si les robots peuvent atteindre les pages de contenus sources des frames,
ce sont celles-ci qui sont présentées directement à l'internaute dans les pages de réponses
sans le frameset d'origine.
Exemple de code source d’une page utilisant un frameset :
Représentation du frameset dans un navigateur :
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Frameset//EN"
"http://www.w3.org/TR/html4/frameset.dtd">
<html>
<head>
<title>Page utilisant un Frameset</title>
</head>
<frameset cols="20%, 80%">
<frameset rows="100, 200">
<frame src="frame1.html">
<frame src="frame2.gif">
</frameset>
<frame src="frame3.html">
</frameset>
</html>
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 43 sur 90
Solution :
L’utilisation de la balise "noframes", à l’origine destiné aux navigateurs n’acceptant la
fonctionnalité du frameset, est une solution possible pour indiquer un contenu facilement
indexable pour les robots [URL:W3F].
Ici, le robot prendra en compte le contenu présent dans l’élément "noframes".
L’autre solution consiste à construire les pages de manière classique (HTML, ASP, PHP, etc.)
sans frames.
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01
Frameset//EN"
"http://www.w3.org/TR/html4/frameset.dtd">
<html>
<head>
<title>Page utilisant un Frameset</title>
</head>
<frameset cols="20%, 80%">
<frameset rows="100, 200">
<frame src="frame1.html">
<frame src="frame2.gif">
</frameset>
<frame src="frame3.html">
</frameset>
<noframes>
<p>Ce frameset contient :
<ul>
<li><a href="frame1.html">contenu de la frame1</a>
<li><img src="frame2.gif" alt="intitule de l'image">
<li><a href="frame3.html">contenu de la frame3</a>
</ul>
</noframes>
</html>
Frame 3
Frame 2
Frame 1
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 44 sur 90
1.4.2. Le Flash et JavaScript
Problème :
Nous l’avons vu, les robots des moteurs de recherche sont sensibles au texte visible et
suivent les liens hypertexte pour indexer toutes les pages d'un site. Seulement le Flash n’est
pas ou mal interprété par les robots [AND 08].
Si le site n’est visible qu’en flash, les robots sont confrontés à 2 problèmes, l’absence de
texte et l’absence de liens.
Pour le JavaScript, on se retrouve confronter au même problème, les liens créés au format
JavaScript ne sont pas pris en compte par les robots des moteurs de recherche. Si le lien est
classique :
Cela ne lui posera aucun problème, il suivra ce lien. En revanche, si le lien est créé à l’aide
d’un code JavaScript il ne sera pas suivi par les robots :
Ce type de liens entrainera la non-indexation des pages vers lesquelles ils pointent.
Solution :
Le Flash n’étant que très peu compris par les robots, il faut essayer de doubler tout ce qui
est en Flash par un contenu HTML.
Pour le JavaScript, il est possible de créer des liens qui soient bien interprétés par les robots.
On reprend le même lien que ci-dessus, mais rendu cette fois compatible :
Le fait que l’adresse de la page distante se trouve maintenant dans la zone « href » fait en
sorte que le robot va la reconnaître et la suivre pour indexer le document. Il est également
plus rapide d'écrire "this.href", option qui permet de simplifier l'écriture et la maintenance
<a href="http://www.monsite.fr/page.html"
onclick="window.open(this.href); return false;">Texte du lien</a>
<a href="JavaScript:window.open('http://www.monsite.fr/page.html',
'newWindow')">Texte du lien</a>
<a href="http://www.monsite.fr/page.html">Texte du lien</a>
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 45 sur 90
puisque this représente l'objet courant, donc la balise <a>, "this.href" est alors égale à l'url
indiquée juste à gauche. En revanche, lorsque l’internaute cliquera sur le lien, c’est l’action
JavaScript (onclick) qui sera prise en compte et qui se déroulera.
Pendant plusieurs années, les moteurs de recherche ont travaillé pour l’indexation de ces
technologies. A l’heure actuelle, le JavaScript et le Flash ne semble plus posé de problème
pour Google selon le communiqué du 19 juin 2009 [GOO 09] et [URL:WBF]. Nous avons
préféré de ne pas traiter ces solutions dans cette partie car nous n’avons pas le recul et la
visibilité pour traiter le sujet.
1.4.3. Code source contenant du JavaScript et du style CSS
Problème :
La présence importante de ce type de code peut nuire à la bonne prise en compte du
contenu textuel de la page qui est un critère important pour un bon référencement. En effet
les robots des moteurs de recherche ne parcourent pas toujours la totalité du code source
d'une page d’où l’importance de ne pas mettre de nombreux calculs et caractères spéciaux
({, }, [, ], !, +=, ++) qui peuvent être source d’erreurs de lecture (figure 1-4-1).
Figure 1-4-1 : Code source HTML contenant JavaScript et CSS
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 46 sur 90
Source : DEMANGEL Jérôme et SOUCIET Alexy – Juillet 2009
Solution :
Il est préférable d’externaliser le code JavaScript et le style CSS dans des fichiers externes et
appelés dans le code source HTML comme ceci (entre les balises <head>…</head>):
Grâce à cette méthode, le code source est allégé ce qui facilite la lecture de celui-ci par les
robots et la mise à jour du JavaScript ou du style devient plus facile.
1.4.4. Les sites à contenu dynamique
Problème :
Afin que les moteurs de recherche puissent positionner un site sur des requêtes mots clés,
ils ont besoins d'analyser son contenu textuel. Si celui-ci est modifié à chaque passage de
leur robot d'indexation, ils sont obligés de refaire les calculs.
Or pour que le positionnement d'un site puisse se faire en référencement naturel, il faut que
les robots des moteurs de recherche trouvent le même résultat dans l'analyse des pages
pour plusieurs de leur passage.
Figure 1-4-2 : Exemple de site à contenu dynamique
<link rel="stylesheet" type="text/css" href="styles/design.css" />
<script type="text/javascript" src="js/form.js"></script>
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 47 sur 90
Source : Impression écran du site Businesstravel.fr – Juillet 2009
Dans cet exemple le contenu textuel est mis à jour à chaque nouvelle actualité. Les robots
verront donc un texte différent à chaque passage et ne pourront pas calculer la pertinence
de cette page.
Solution :
Il est alors conseillé d'insérer sur les pages à contenu dynamique un bloc de texte statique
d'au moins 300 caractères contenant les mots clés importants pour ces dernières et placer
ce texte en haut du code source HTML. Pour un souci de mise en forme, l’utilisation des
feuilles de styles CSS permet de faire apparaitre le texte en bas de page par exemple.
Dans le même esprit il est tout à fait possible de créer en entête et pied de page, des phrases
descriptives des activités du site de type Upline et Baseline.
1.4.5. Les url « exotiques »
Les sites dynamiques sont des sites qui puisent leur contenu dans leurs bases de données
pour en faire des pages générées automatiquement.
Problème :
Les sources dynamiques de contenu provoquent des url dites "exotiques" (c'est à dire
contenant des caractères spéciaux).
Ces pages ont des url de type :
http://www.monsite.fr/produits/items.php?id=x&modele=y&option=z
Les moteurs de recherche sont suffisamment avancés pour crawler tous types de structures
d’url, même si elles sont complexes. Cependant, le fait de rendre les url le plus simple
possible assure un meilleur passage du robot sur les pages du site.
Nous avons vu au chapitre 1-3-3 que les noms des pages et des répertoires sont des critères
importants pour les moteurs de recherche. Intégrer des mots ou expressions clés augmente
fortement les chances de réactivité sur ces mots clés or dans ce cas aucun mot clé n’est
présent dans l’url.
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 48 sur 90
Solution :
Il faut utiliser le moins possible d'url avec variables et privilégier les url réelles sans, si l’on ne
peut pas faire autrement, il est important d'en limiter au maximum le nombre.
Si l’hébergement le permet, il faut utiliser la technique de l’url Rewriting (réécriture des url
dynamiques en url réelles du côté serveur).
Pour cela il existe des modules qui viennent se greffer sur les serveurs.
Ces modules se nomment :
"Url Rewriting" sous serveur Apache : [URL:APA]
"ISAPI" sous serveur IIS Microsoft : [URL:ISA]
Ces modules permettent de réécrire à la volée les adresses des pages existantes par un jeu
de réécriture en proposant des adresses de pages compréhensibles aux yeux des robots des
moteurs de recherche. C’est en jouant sur les jeux de réécriture qu’il est possible de placer
des mots clés stratégiques dans les adresses des pages.
Voici quelques règles à respecter pour le nommage des url [BIR 09]:
Pas de caractères accentués dans les noms des pages
Pas d’espace dans les noms de pages ou les remplacer par des tirets
Noms de pages et répertoires en minuscules
Eviter les caractères exotiques (%, :, ?, +, =,etc.)
Séparer les différents mots clés d’un même nom par des tirets
Limiter le nombre de caractères total de l’url à 128 caractères maximum
Eviter les répétitions de mots dans la même url
Pour illustrer nos propos sur la réécriture d’url, nous allons détailler un exemple sous
serveur Apache, le plus souvent utilisé avec le langage PHP. Prenons l’exemple suivant :
http://www.monsite.fr/article.php?id=12
Le principe de l'url rewriting consiste à trouver les schémas des url à partir de leurs formes
communes. Ici le schéma de l’url est id=[VALUE].
A partir du moment où l’on a identifié ces schémas, nous devons choisir un nouveau format
d'url. Le nouveau format que l’on choisit pour nos pages est celui-ci :
http://www.monsite.fr/catalogue/micro-ondes-c6/12.html
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 49 sur 90
Voici le contenu du fichier .htaccess :
Le contenu du fichier ci dessus peut être lu comme ceci :
le serveur doit suivre les liens symboliques (Options +FollowSymlinks)
activation du module de réécriture d’url (RewriteEngine on)
la règle de réécriture (RewriteRule)
commence (^) par « catalogue/ »
suivi de caractères alphanumériques ou du caractère tiret « [a-zA-Z0-9-] » le tout au
moins une fois (+). Le résultat est stocké dans la variable « $1 » (première
parenthèse)
suivi d’un slash / et d'une série d'au moins un chiffre « [0-9]+ », le résultat étant
stocké dans la variable « $2 »(deuxième parenthèse)
se terminant ($) par .html
Les url réécrites au format statique doivent être appliquées dans le code source du site au
niveau des liens.
Options +FollowSymLinks
RewriteEngine on
RewriteRule ^catalogue/([a-zA-Z0-9-]+)/([0-9]+).html$ article.php?id=$2
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 50 sur 90
1.4.6. Les redirections
Il existe plusieurs façons de mettre en place une redirection d’une page web vers une autre :
Javascript
Balise meta refresh
Redirection 301, 302 [GOH 09]
Problème :
Les redirections de type JavaScript et meta refresh ne sont pas acceptées par les robots des
moteurs de recherche car outre le fait que les robots ont du mal à lire le JavaScript, celles -ci
ont été souvent utilisées à des fins de tricherie (spam). De plus elles ne transmettent pas le
Page Rank d’une page à l’autre d’où le désintérêt de les utiliser pour le référencement
naturel.
La redirection définie par la balise meta http-equiv="Refresh", donne l'ordre au navigateur
de rediriger l'internaute vers une url spécifiée au bout d'un certain nombre de secondes.
Exemple (redirection vers la page "page.html" au bout de 2 secondes) :
Exemple de redirection de type JavaScript :
La redirection 302 qui signifie "Moved Temporarily" quant à elle sert à indiquer aux robots
qu’une page a été déplacée temporairement.
Exemple de redirection d’une page avec un fichier .htaccess :
Exemple de redirection 302 dans une page PHP :
Redirect /old-rep/old-page.html http://www.monsite.com/new-rep/new-page.html
<script language="javascript" type="text/javascript">
<!--
window.location.replace("http://www.monsite.com/ page.html");
-->
</script>
<meta http-equiv="Refresh" content="2;URL=page.html">
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 51 sur 90
Solution :
Seule la redirection 301 qui signifie "Moved Permanently" est utile au référencement naturel
car elle permet de conserver l’historique de positionnement déjà acquis sur les moteurs de
recherche par une ancienne page. Une fois mise en place, les robots remplaceront alors sans
problème l’ancienne page vers la nouvelle en lui transférant également son Page Rank.
Les règles de redirections peuvent être indiquées dans un fichier .htaccess ou dans l’en-tête
de pages PHP ou ASP.
Le fichier .htaccess doit se trouver dans l’ancien répertoire ou à la racine de l’ancien site
contenant soit l’instruction RedirectPermanent ou RewriteRule (dans ce cas il faut
impérativement utiliser le code R=301).
Exemple (remplace chaque page de l’ancien site vers son équivalent sur le nouveau site) :
Autre exemple (redirige plusieurs pages à la fois avec une expression régulière) :
Exemple de redirection 301 dans une page PHP :
header("Status: 301 Moved Permanently");
header("Location: http://www.votresite.com/page.html");
exit();
RewriteRule ^theme-([0-9]*).php themes-$1.htm [R=301]
RedirectPermanent / http://www.nouveausite.fr/
header("Status: 302 Moved Temporarily”);
header("Location: http://www.votresite.com/page.html ");
exit();
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 52 sur 90
1.4.7. Identifiants de session
L’identifiant de session permet de mémoriser certaines informations en mémoire au travers
d’une navigation unique, il est alors transmis dans l'url de la page (sous forme de variable).
Exemple :
http://www.focale86.com/enregistrer.php?PHPSESSID=0a8969e67bc46fc4dad5c887c6a944
Problème :
Un robot enregistre les adresses complètes des pages auxquelles il accède. Ainsi, lorsqu’il va
revenir, une nouvelle session se déclenchera avec une nouvelle url à indexer. Le contenu
sera alors identique à la page précédemment visitée. Le moteur de recherche aura dans son
index plusieurs fois la même page avec des url différentes.
Les moteurs de recherche choisissent alors de ne pas indexer la page ou de la déclarer
comme "Duplicate content" (chapitre 1.6.1.2).
Solution :
Il est donc conseillé de ne pas utiliser d’identifiants de session dans une url. Pour les enlever
plusieurs solutions sont envisageables [URL:OSS]:
En interdisant les identifiants de session dans l'url avec le fichier .htaccess :
En interdisant le passage des identifiants de session dans l'url (en PHP):
En transmettant le paramètre de session par cookie non obligatoire.
/* Désactive la reconnaissance de l'identifiant de session dans l'URL */
ini_set('session.use_trans_sid', "0");
/* Autorisation de l'utilisation des cookies */
ini_set('session.use_cookies', "1");
SetEnv SESSION_USE_TRANS_SID 0
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 53 sur 90
1.4.8. Les cookies
Les cookies sont des fichiers qui sont stockés par les navigateurs sur le disque dur de
l’internaute. Ils sont utilisés pour récupérer des paramètres et des données lors de la
navigation d’un internaute d’une page à l’autre [AND 08].
Figure 1-4-3 : Exemple de cookies
Source : DEMANGEL Jérôme et SOUCIET Alexy – Aout 2009
Problème :
Comme nous l’avons vu précédemment les robots des moteurs de recherche n’acceptent et
ne stockent pas les cookies.
Le dépôt de cookie ne pose pas de problème sauf si l’accès au site est conditionné à
l’acceptation de ce cookie. Prenons un exemple pour illustrer ce fait :
Un cookie est envoyé par le serveur. Si le visiteur refuse ce cookie, il est envoyé vers une
page d’explication l’invitant à accepter les cookies. Ce n’est qu’en acceptant ce cookie
obligatoire que le visiteur accèdera à une page du site. Dans ce cas, la page ne sera pas
indexée par les moteurs de recherche puisqu’ils n’ont pas la possibilité d’accepter ces
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 54 sur 90
fichiers.
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 55 sur 90
Solution :
Il est donc conseillé :
De ne pas rendre obligatoire l’acceptation des cookies.
Si la technique impose l’utilisation d’un cookie, la demande de cookie doit se faire le
plus loin possible dans l’arborescence des pages du site. Cela ne résout pas vraiment
le problème puisque certaines pages risqueront de ne pas être indexées
correctement.
1.4.9. Les accès par mot de passe
Les pages qui ne sont accessibles que par mot de passe ne seront pas indexées par les robots
des moteurs de recherche (voir chapitre 1.5.3).
La seule solution, pour obtenir une visibilité sur les moteurs de recherche, est de créer une
zone librement accessible aux robots et donc aux internautes non abonnés.
1.4.10. Les sites multilingues
Problème :
Certains moteurs de recherche pratiquent un filtrage linguistique des pages qu’ils indexent
[BRI 09], c'est-à-dire qu’ils ignoreront par exemple une expression anglaise dans une page
qui est supposée être en français.
Solution :
Dans le cas d’un site en plusieurs langues avec une seule adresse web, il est recommandé
d’associer une adresse internet (ou un sous-domaine) spécifique à chaque version
linguistique du site.
www.mon-site.com/fr/ : pour la version française
www.mon-site.com/en/ : pour la version anglaise
L’idéal étant tout de même de posséder un nom de domaine dédié (www.mon-site.fr,
www.mon-site.co.uk, www.mon-site.com) chose à laquelle les moteurs de recherche sont
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 56 sur 90
sensibles.
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 57 sur 90
1.5.Comment ne pas être référencé
Dans les précédents chapitres, nous avons vu toutes les manières pour référencer son site.
Mais il se peut que certaines pages ne doivent pas être indexées ou que nous souhaitions
désindexées des pages déjà présentes dans les SERP. Il existe plusieurs façons de signaler
ceci aux moteurs de recherche.
1.5.1. Le fichier robots.txt
Le fichier « robots.txt » est le premier fichier que les robots d’indexation cherchent en
visitant un site. Il leur permet de connaître les instructions de visites du site en question. Si le
fichier n’existe pas, le robot peut accéder à toutes les pages du site qu’il est en train de
visiter, considérant alors que rien ne lui est interdit (figure 1-5-1).
Figure 1-5-1 : Exploration d’un site avec et sans robots.txt
Source : Elliance (modifiée pour nos besoins) – 2009
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 58 sur 90
Il nous faut, maintenant, savoir comment est structuré celui ci.
Le protocole d’exclusion des robots (Robots Exclusion Protocol) définit le format du fichier
« robots.txt ». Il a été standardisé et approuvé le 30 juin 1994.
C’est un fichier texte qui doit être placé à la racine du site (www.mon-site.fr/robots.txt) et il
doit sensiblement répondre à une syntaxe spécifique. Le nom et l’extension du fichier doit
être obligatoirement en minuscule : "robots.txt" et non pas "Robots.TXT" ni "robot.txt".
On y trouve 2 commandes :
User-agent : permet de spécifier le robot concerné par les directives. La valeur « * »
signifie "tous les robots".
Disallow: permet d'indiquer les pages à exclure de l'indexation. Chaque page à
exclure doit être sur une ligne à part et doit commencer par /. La valeur « / » seule
signifie "toutes les pages du site".
En remarque il ne doit pas y avoir de lignes vides dans un enregistrement, elle sert
uniquement à délimiter plusieurs enregistrements [URL:ROB].
Voici une liste de commandes classiques appartenant au standard:
Exclusion de toutes les pages pour tous les
robots:
Exclusion d'aucune page (équivalent à l'absence de
fichier « robots.txt ») :
User-Agent: *
Disallow: /
User-Agent: *
Disallow:
Autorisation de GoogleBot : Exclusion de GoogleBot :
User-Agent:GoogleBot
Disallow :
User-Agent: *
Disallow: /
User-Agent: GoogleBot
Disallow: /
User-Agent: *
Disallow:
Exclusion d'une page : Exclusion de plusieurs pages :
User-Agent: *
Disallow: /rep/rep2 /page1.html
User-Agent: *
Disallow: /rep/rep2/page1.html
Disallow: /rep/rep2/page2.html
Disallow: /rep/rep2/page3.html
Exclusion de toutes les pages d'un
répertoire et ses sous-dossiers :
Exclusion de toutes les pages ou dossier se
nommant "rep":
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 59 sur 90
User-Agent: *
Disallow: /rep/
User-Agent: *
Disallow: /rep
Une extension du standard a été mise au point par les principaux moteurs de recherche,
incluant d’autres fonctionnalités.
Si dans le standard de base on ne pouvait pas inclure l’astérisque (*) dans la directive
"Disallow", il est à présent possible de l’ajouter, il en est de même pour le point
d’interrogation (?) et le symbole ($) [URL:GOR].
L’astérisque (*) remplace une séquence de caractères :
Le point d’interrogation (?) est utilisé pour les adresses qui contiennent des paramètres
(contenant donc un point d’interrogation) :
Le symbole ($) indique la fin d’une URL :
L’extension du standard permet aussi de déclarer un fichier « sitemap.xml » (vu au chapitre
2) via la directive "Sitemap" :
Sitemap: http://www.nom-de-domaine.fr/sitemap.xml
User-agent: Googlebot
Disallow: /*.pdf$
User-agent: Googlebot
Disallow: /*?
User-agent: Googlebot
Disallow: /private*/
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 60 sur 90
1.5.2. La balise meta robots
Elle est issue du même standard que le « robots.txt », mais contrairement au « robots.txt »
qui prend en compte toute l’arborescence du site, la balise meta robots doit figurer dans
toutes les pages dont on souhaite filtrer l’accès.
Elle suit les mêmes règles que les balises Meta décrites dans le chapitre 1.3.3.1.4 à savoir
qu’elle doit être insérer à l’intérieur des balises <head>…</head>. Elle est insensible à la
casse et se présente sous la forme suivante :
<meta name="robots" content=" ">
La valeur de l'attribut 'content' doit être spécifiée en mettant une ou deux valeurs (séparées
par une virgule). Les valeurs possibles sont les suivantes :
index : autorise l'indexation du fichier
noindex : interdit l'indexation du fichier
follow : autorise le robot à suivre les liens du fichier
nofollow : interdit au robot de suivre les liens du fichier
Voici toutes les combinaisons possibles :
A noter au passage que <meta name="robots" content="index, follow"> Les syntaxes
suivantes sont équivalentes :
<meta name="robots" content="all"> et <meta name="robots" content="index, follow">
<meta name="robots" content="none"> et <meta name="robots" content="noindex, nofollow">
Remarque : si une page est interdite dans le fichier « robots.txt », le contenu d’une
éventuelle balise meta robots dans cette page ne sera donc jamais lu par les robots des
moteurs de recherche puisque ils iront regarder en premier le fichier « robots.txt ».
D’après [URL:SRM] et [URL:ANN], une extension du standard a été crée pour les besoin des
moteurs de recherche incluant 4 attributs : noarchive, noodp, nosnippet, noydir.
<meta name="robots" content="index, follow"> (équivalent à l’absence de la balise meta robots)
<meta name="robots" content="noindex, follow">
<meta name="robots" content="index, nofollow">
<meta name="robots" content="noindex, nofollow">
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 61 sur 90
<meta name="robots" content="noarchive">
Cet attribut demande aux moteurs de recherche de ne jamais afficher le « cache » link. Les
moteurs de recherche continuent d’archiver le contenu mais doivent alors le garder secret.
<meta name="robots" content="nosnippet">
Cet attribut demande aux moteurs de recherche de ne pas afficher de « snippet » dans les
résultats de recherche, c'est-à-dire la description ou le court extrait de la page qui est affiché
dans les SERP.
<meta name="robots" content="noodp">
Cet attribut s’adresse aux moteurs de recherche de Google, Yahoo et Microsoft et leur
demande de ne pas utiliser le titre et la description provenant de l’annuaire DMOZ dans les
SERP.
<meta name="robots" content="noydir">
Cet attribut s’adresse uniquement au moteur de recherche de Yahoo et demande aux
moteurs de recherche utilisant la technologie de Yahoo de ne pas utiliser le titre et la
description provenant de l’annuaire Yahoo Directory dans les SERP.
1.5.3. Répertoire protégé par mot de passe
Le contenu du site qui doit être confidentiel aux yeux des moteurs doit être dans un
répertoire protégé par un mot de passe. Ainsi les robots d’exploration ne pourront pas
accéder à ce contenu et par conséquent ne l’indexeront pas [URL:GOB].
Exemple de sécurisation d’un répertoire avec un serveur Web Apache :
.htaccess
.htpasswd
user:h8Tx7TiBAwYvg
user2:SX4P4r5fNw3so
AuthName "Authentification"
AuthType Basic
AuthUserFile /home/monsite/www/admin/.htpasswd
AuthGroupFile /dev/null
require valid-user
Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ?
Page 62 sur 90
1.5.4. Demande urgente de suppression de contenu à Google
Une des fonctionnalités des "outils pour webmaster" de Google (figure 1-5-2), permet de
demander la suppression en urgence de pages web, de documents, d’un répertoire, de la
totalité du site ou de la copie en cache d’un résultat de son index.
Figure 1-5-2 : Extrait des outils pour les webmasters section "Accès du robot
d’exploration"
Source : DEMANGEL Jérôme et SOUCIET Alexy – Aout 2009
Selon notre choix, [URL:GUS] nous informe de la procédure à suivre pour le bon
déroulement des opérations.
Par exemple pour supprimer une page ou une image on doit :
Soit vérifier que les demandes d'accès à la page renvoient le code d'état HTTP 404 ou
410
Soit s’assurer que les pages à supprimer ont été bloquées à l'aide d'un fichier
robots.txt
Soit s’assurer que les pages à supprimer ont été bloquées à l'aide d'une balise meta
noindex.
Comment bien référencer et positionner son site internet aujourd’hui ?
Comment bien référencer et positionner son site internet aujourd’hui ?
Comment bien référencer et positionner son site internet aujourd’hui ?
Comment bien référencer et positionner son site internet aujourd’hui ?
Comment bien référencer et positionner son site internet aujourd’hui ?
Comment bien référencer et positionner son site internet aujourd’hui ?
Comment bien référencer et positionner son site internet aujourd’hui ?
Comment bien référencer et positionner son site internet aujourd’hui ?
Comment bien référencer et positionner son site internet aujourd’hui ?
Comment bien référencer et positionner son site internet aujourd’hui ?
Comment bien référencer et positionner son site internet aujourd’hui ?
Comment bien référencer et positionner son site internet aujourd’hui ?
Comment bien référencer et positionner son site internet aujourd’hui ?
Comment bien référencer et positionner son site internet aujourd’hui ?
Comment bien référencer et positionner son site internet aujourd’hui ?
Comment bien référencer et positionner son site internet aujourd’hui ?
Comment bien référencer et positionner son site internet aujourd’hui ?
Comment bien référencer et positionner son site internet aujourd’hui ?
Comment bien référencer et positionner son site internet aujourd’hui ?
Comment bien référencer et positionner son site internet aujourd’hui ?
Comment bien référencer et positionner son site internet aujourd’hui ?
Comment bien référencer et positionner son site internet aujourd’hui ?
Comment bien référencer et positionner son site internet aujourd’hui ?
Comment bien référencer et positionner son site internet aujourd’hui ?
Comment bien référencer et positionner son site internet aujourd’hui ?
Comment bien référencer et positionner son site internet aujourd’hui ?
Comment bien référencer et positionner son site internet aujourd’hui ?
Comment bien référencer et positionner son site internet aujourd’hui ?

Mais conteúdo relacionado

Mais procurados

TFE améliorer son trafic avec google analytics étude de cas hainaut développment
TFE améliorer son trafic avec google analytics étude de cas hainaut développmentTFE améliorer son trafic avec google analytics étude de cas hainaut développment
TFE améliorer son trafic avec google analytics étude de cas hainaut développmentCherrySakura23
 
[MÉMOIRE] De la place des technologies dans la vente des produits de luxe
[MÉMOIRE] De la place des technologies dans la vente des produits de luxe[MÉMOIRE] De la place des technologies dans la vente des produits de luxe
[MÉMOIRE] De la place des technologies dans la vente des produits de luxeMatthieu Langonnet
 
Mémoire de fin d’études : Le Marketing Ecologique : Effet Vert ou …
Mémoire de fin d’études : Le Marketing Ecologique : Effet Vert ou …Mémoire de fin d’études : Le Marketing Ecologique : Effet Vert ou …
Mémoire de fin d’études : Le Marketing Ecologique : Effet Vert ou …Jenny Miralles
 
Tfe Near Field Communication
Tfe Near Field CommunicationTfe Near Field Communication
Tfe Near Field CommunicationMathieu Corrado
 
Mémoire_BéréniceViviand
Mémoire_BéréniceViviandMémoire_BéréniceViviand
Mémoire_BéréniceViviandBerenice Viviand
 
Memoire de bts marketing de l'offre touristique
Memoire de bts  marketing de l'offre touristiqueMemoire de bts  marketing de l'offre touristique
Memoire de bts marketing de l'offre touristiqueFethi Ferhane
 
Les leviers et les freins de l'e-commerce sur les comportements d'achat des p...
Les leviers et les freins de l'e-commerce sur les comportements d'achat des p...Les leviers et les freins de l'e-commerce sur les comportements d'achat des p...
Les leviers et les freins de l'e-commerce sur les comportements d'achat des p...Julien Boyrié
 
Digimind: Benchmark Solutions de Veille 2011
Digimind: Benchmark Solutions de Veille 2011Digimind: Benchmark Solutions de Veille 2011
Digimind: Benchmark Solutions de Veille 2011Digimind
 
Memoire - MBA management et marketing digital
Memoire - MBA management et marketing digitalMemoire - MBA management et marketing digital
Memoire - MBA management et marketing digitalEmilieThoorens
 
Barometre des Pratiques de Veille 2008
Barometre des Pratiques de Veille 2008Barometre des Pratiques de Veille 2008
Barometre des Pratiques de Veille 2008Digimind
 
La génération numérique en france. usages d'internet et comportements face au...
La génération numérique en france. usages d'internet et comportements face au...La génération numérique en france. usages d'internet et comportements face au...
La génération numérique en france. usages d'internet et comportements face au...sophie mateo
 
La Problematique Du Marketing Et De La Communication Dans Le Ecommerce Equitable
La Problematique Du Marketing Et De La Communication Dans Le Ecommerce EquitableLa Problematique Du Marketing Et De La Communication Dans Le Ecommerce Equitable
La Problematique Du Marketing Et De La Communication Dans Le Ecommerce EquitableDésiré Dupas
 
Mémoire fin d'étude gestion des interventions
Mémoire fin d'étude gestion des interventionsMémoire fin d'étude gestion des interventions
Mémoire fin d'étude gestion des interventionsMohamed Arar
 
Rapport de projet de fin d'année
Rapport de projet de fin d'année Rapport de projet de fin d'année
Rapport de projet de fin d'année kaies Labiedh
 
Mémoire sur la gestion de crise de l'e-réputation des entreprises @ULB
Mémoire sur la gestion de crise de l'e-réputation des entreprises @ULBMémoire sur la gestion de crise de l'e-réputation des entreprises @ULB
Mémoire sur la gestion de crise de l'e-réputation des entreprises @ULBNicolas Vanderbiest
 
Etude de la mise en place et de la stratégie de lancement d’une plateforme so...
Etude de la mise en place et de la stratégie de lancement d’une plateforme so...Etude de la mise en place et de la stratégie de lancement d’une plateforme so...
Etude de la mise en place et de la stratégie de lancement d’une plateforme so...Houssem Eddine Jebri
 

Mais procurados (19)

TFE améliorer son trafic avec google analytics étude de cas hainaut développment
TFE améliorer son trafic avec google analytics étude de cas hainaut développmentTFE améliorer son trafic avec google analytics étude de cas hainaut développment
TFE améliorer son trafic avec google analytics étude de cas hainaut développment
 
[MÉMOIRE] De la place des technologies dans la vente des produits de luxe
[MÉMOIRE] De la place des technologies dans la vente des produits de luxe[MÉMOIRE] De la place des technologies dans la vente des produits de luxe
[MÉMOIRE] De la place des technologies dans la vente des produits de luxe
 
Mémoire de fin d’études : Le Marketing Ecologique : Effet Vert ou …
Mémoire de fin d’études : Le Marketing Ecologique : Effet Vert ou …Mémoire de fin d’études : Le Marketing Ecologique : Effet Vert ou …
Mémoire de fin d’études : Le Marketing Ecologique : Effet Vert ou …
 
Tfe Near Field Communication
Tfe Near Field CommunicationTfe Near Field Communication
Tfe Near Field Communication
 
Mémoire_BéréniceViviand
Mémoire_BéréniceViviandMémoire_BéréniceViviand
Mémoire_BéréniceViviand
 
Memoire de bts marketing de l'offre touristique
Memoire de bts  marketing de l'offre touristiqueMemoire de bts  marketing de l'offre touristique
Memoire de bts marketing de l'offre touristique
 
Les leviers et les freins de l'e-commerce sur les comportements d'achat des p...
Les leviers et les freins de l'e-commerce sur les comportements d'achat des p...Les leviers et les freins de l'e-commerce sur les comportements d'achat des p...
Les leviers et les freins de l'e-commerce sur les comportements d'achat des p...
 
Digimind: Benchmark Solutions de Veille 2011
Digimind: Benchmark Solutions de Veille 2011Digimind: Benchmark Solutions de Veille 2011
Digimind: Benchmark Solutions de Veille 2011
 
Memoire - MBA management et marketing digital
Memoire - MBA management et marketing digitalMemoire - MBA management et marketing digital
Memoire - MBA management et marketing digital
 
Barometre des Pratiques de Veille 2008
Barometre des Pratiques de Veille 2008Barometre des Pratiques de Veille 2008
Barometre des Pratiques de Veille 2008
 
La génération numérique en france. usages d'internet et comportements face au...
La génération numérique en france. usages d'internet et comportements face au...La génération numérique en france. usages d'internet et comportements face au...
La génération numérique en france. usages d'internet et comportements face au...
 
La Problematique Du Marketing Et De La Communication Dans Le Ecommerce Equitable
La Problematique Du Marketing Et De La Communication Dans Le Ecommerce EquitableLa Problematique Du Marketing Et De La Communication Dans Le Ecommerce Equitable
La Problematique Du Marketing Et De La Communication Dans Le Ecommerce Equitable
 
Mémoire fin d'étude gestion des interventions
Mémoire fin d'étude gestion des interventionsMémoire fin d'étude gestion des interventions
Mémoire fin d'étude gestion des interventions
 
Mémoire Master Marketing Digital - Sharitiz
Mémoire Master Marketing Digital - SharitizMémoire Master Marketing Digital - Sharitiz
Mémoire Master Marketing Digital - Sharitiz
 
Rapport de projet de fin d'année
Rapport de projet de fin d'année Rapport de projet de fin d'année
Rapport de projet de fin d'année
 
Mémoire sur la gestion de crise de l'e-réputation des entreprises @ULB
Mémoire sur la gestion de crise de l'e-réputation des entreprises @ULBMémoire sur la gestion de crise de l'e-réputation des entreprises @ULB
Mémoire sur la gestion de crise de l'e-réputation des entreprises @ULB
 
Mémoire lisa szyjewski
Mémoire   lisa szyjewskiMémoire   lisa szyjewski
Mémoire lisa szyjewski
 
Rapport frequences ecoles
Rapport frequences ecolesRapport frequences ecoles
Rapport frequences ecoles
 
Etude de la mise en place et de la stratégie de lancement d’une plateforme so...
Etude de la mise en place et de la stratégie de lancement d’une plateforme so...Etude de la mise en place et de la stratégie de lancement d’une plateforme so...
Etude de la mise en place et de la stratégie de lancement d’une plateforme so...
 

Destaque

Mémoire sur les Stratégies Google pour les PME-PMI françaises Mémoire sur les...
Mémoire sur les Stratégies Google pour les PME-PMI françaises Mémoire sur les...Mémoire sur les Stratégies Google pour les PME-PMI françaises Mémoire sur les...
Mémoire sur les Stratégies Google pour les PME-PMI françaises Mémoire sur les...Matthieu NOTARI
 
Comment intégrer l'Inbound Marketing dans sa stratégie digitale B to B afin d...
Comment intégrer l'Inbound Marketing dans sa stratégie digitale B to B afin d...Comment intégrer l'Inbound Marketing dans sa stratégie digitale B to B afin d...
Comment intégrer l'Inbound Marketing dans sa stratégie digitale B to B afin d...David Planchot
 
Mémoire Professionnel - En quoi l’utilisation du marketing digital peut perm...
Mémoire Professionnel  - En quoi l’utilisation du marketing digital peut perm...Mémoire Professionnel  - En quoi l’utilisation du marketing digital peut perm...
Mémoire Professionnel - En quoi l’utilisation du marketing digital peut perm...Thibault PAILLIER
 
Motivations de partage
Motivations de partageMotivations de partage
Motivations de partageMaster MOI
 
[MÉMOIRE] Améliorer l'image de marque d'une entreprise sur les médias sociaux...
[MÉMOIRE] Améliorer l'image de marque d'une entreprise sur les médias sociaux...[MÉMOIRE] Améliorer l'image de marque d'une entreprise sur les médias sociaux...
[MÉMOIRE] Améliorer l'image de marque d'une entreprise sur les médias sociaux...Adrien Bourzat
 
Méthodologie de recherche : Comment entamer son mémoire de fin d'étude
Méthodologie de recherche : Comment entamer son mémoire de fin d'étudeMéthodologie de recherche : Comment entamer son mémoire de fin d'étude
Méthodologie de recherche : Comment entamer son mémoire de fin d'étudeConnaissance Créative
 
Identité d'entreprise ou de marque : le nom, la signature et le logo
Identité d'entreprise ou de marque : le nom, la signature et le logoIdentité d'entreprise ou de marque : le nom, la signature et le logo
Identité d'entreprise ou de marque : le nom, la signature et le logoVincent Pereira
 
De l'identité à la présence
De l'identité à la présenceDe l'identité à la présence
De l'identité à la présenceLouise Merzeau
 
Ecrire un mémoire - master hypermédia
Ecrire un mémoire - master hypermédiaEcrire un mémoire - master hypermédia
Ecrire un mémoire - master hypermédialaureno
 
Présence numérique : traces, éditorialisation, mémoire
Présence numérique : traces, éditorialisation, mémoirePrésence numérique : traces, éditorialisation, mémoire
Présence numérique : traces, éditorialisation, mémoireLouise Merzeau
 
Présentation Web Theorie à initiative gironde : Atelier Marketing digital
Présentation Web Theorie à initiative gironde : Atelier Marketing digitalPrésentation Web Theorie à initiative gironde : Atelier Marketing digital
Présentation Web Theorie à initiative gironde : Atelier Marketing digitalJulien Durandet
 
SunTseu - Les fondamentaux du Digital Marketing
SunTseu - Les fondamentaux du Digital MarketingSunTseu - Les fondamentaux du Digital Marketing
SunTseu - Les fondamentaux du Digital MarketingSunTseu
 
Le netlinking - Roland Debrabant - SEO Campus 2010
Le netlinking - Roland Debrabant - SEO Campus 2010Le netlinking - Roland Debrabant - SEO Campus 2010
Le netlinking - Roland Debrabant - SEO Campus 2010SEO CAMP
 
Mise a-jour-carte-bancaire
Mise a-jour-carte-bancaireMise a-jour-carte-bancaire
Mise a-jour-carte-bancaireCavissima
 
Réseaux sociaux de chercheurs : quels enjeux et quelle politique pour une ins...
Réseaux sociaux de chercheurs : quels enjeux et quelle politique pour une ins...Réseaux sociaux de chercheurs : quels enjeux et quelle politique pour une ins...
Réseaux sociaux de chercheurs : quels enjeux et quelle politique pour une ins...Odile Contat
 
E paiement (2)
E paiement (2)E paiement (2)
E paiement (2)Maeyy
 
5 tendances en Marketing Digital pour 2015
5 tendances en Marketing Digital pour 20155 tendances en Marketing Digital pour 2015
5 tendances en Marketing Digital pour 2015NiceToMeetYou
 
Processus de développement de produits - Concepts De Base
Processus de développement de produits - Concepts De BaseProcessus de développement de produits - Concepts De Base
Processus de développement de produits - Concepts De BaseDave Caissy
 
lancement d'un nouveau produit
lancement d'un nouveau produitlancement d'un nouveau produit
lancement d'un nouveau produitrosacanina123
 

Destaque (20)

Mémoire sur les Stratégies Google pour les PME-PMI françaises Mémoire sur les...
Mémoire sur les Stratégies Google pour les PME-PMI françaises Mémoire sur les...Mémoire sur les Stratégies Google pour les PME-PMI françaises Mémoire sur les...
Mémoire sur les Stratégies Google pour les PME-PMI françaises Mémoire sur les...
 
Comment intégrer l'Inbound Marketing dans sa stratégie digitale B to B afin d...
Comment intégrer l'Inbound Marketing dans sa stratégie digitale B to B afin d...Comment intégrer l'Inbound Marketing dans sa stratégie digitale B to B afin d...
Comment intégrer l'Inbound Marketing dans sa stratégie digitale B to B afin d...
 
Mémoire Professionnel - En quoi l’utilisation du marketing digital peut perm...
Mémoire Professionnel  - En quoi l’utilisation du marketing digital peut perm...Mémoire Professionnel  - En quoi l’utilisation du marketing digital peut perm...
Mémoire Professionnel - En quoi l’utilisation du marketing digital peut perm...
 
Motivations de partage
Motivations de partageMotivations de partage
Motivations de partage
 
[MÉMOIRE] Améliorer l'image de marque d'une entreprise sur les médias sociaux...
[MÉMOIRE] Améliorer l'image de marque d'une entreprise sur les médias sociaux...[MÉMOIRE] Améliorer l'image de marque d'une entreprise sur les médias sociaux...
[MÉMOIRE] Améliorer l'image de marque d'une entreprise sur les médias sociaux...
 
Méthodologie de recherche : Comment entamer son mémoire de fin d'étude
Méthodologie de recherche : Comment entamer son mémoire de fin d'étudeMéthodologie de recherche : Comment entamer son mémoire de fin d'étude
Méthodologie de recherche : Comment entamer son mémoire de fin d'étude
 
Identité d'entreprise ou de marque : le nom, la signature et le logo
Identité d'entreprise ou de marque : le nom, la signature et le logoIdentité d'entreprise ou de marque : le nom, la signature et le logo
Identité d'entreprise ou de marque : le nom, la signature et le logo
 
De l'identité à la présence
De l'identité à la présenceDe l'identité à la présence
De l'identité à la présence
 
Ecrire un mémoire - master hypermédia
Ecrire un mémoire - master hypermédiaEcrire un mémoire - master hypermédia
Ecrire un mémoire - master hypermédia
 
Présence numérique : traces, éditorialisation, mémoire
Présence numérique : traces, éditorialisation, mémoirePrésence numérique : traces, éditorialisation, mémoire
Présence numérique : traces, éditorialisation, mémoire
 
Présentation Web Theorie à initiative gironde : Atelier Marketing digital
Présentation Web Theorie à initiative gironde : Atelier Marketing digitalPrésentation Web Theorie à initiative gironde : Atelier Marketing digital
Présentation Web Theorie à initiative gironde : Atelier Marketing digital
 
SunTseu - Les fondamentaux du Digital Marketing
SunTseu - Les fondamentaux du Digital MarketingSunTseu - Les fondamentaux du Digital Marketing
SunTseu - Les fondamentaux du Digital Marketing
 
Le netlinking - Roland Debrabant - SEO Campus 2010
Le netlinking - Roland Debrabant - SEO Campus 2010Le netlinking - Roland Debrabant - SEO Campus 2010
Le netlinking - Roland Debrabant - SEO Campus 2010
 
Mise a-jour-carte-bancaire
Mise a-jour-carte-bancaireMise a-jour-carte-bancaire
Mise a-jour-carte-bancaire
 
Réseaux sociaux de chercheurs : quels enjeux et quelle politique pour une ins...
Réseaux sociaux de chercheurs : quels enjeux et quelle politique pour une ins...Réseaux sociaux de chercheurs : quels enjeux et quelle politique pour une ins...
Réseaux sociaux de chercheurs : quels enjeux et quelle politique pour une ins...
 
Email avancé
Email avancéEmail avancé
Email avancé
 
E paiement (2)
E paiement (2)E paiement (2)
E paiement (2)
 
5 tendances en Marketing Digital pour 2015
5 tendances en Marketing Digital pour 20155 tendances en Marketing Digital pour 2015
5 tendances en Marketing Digital pour 2015
 
Processus de développement de produits - Concepts De Base
Processus de développement de produits - Concepts De BaseProcessus de développement de produits - Concepts De Base
Processus de développement de produits - Concepts De Base
 
lancement d'un nouveau produit
lancement d'un nouveau produitlancement d'un nouveau produit
lancement d'un nouveau produit
 

Semelhante a Comment bien référencer et positionner son site internet aujourd’hui ?

1601896849 rapport fluttercopie
1601896849 rapport fluttercopie1601896849 rapport fluttercopie
1601896849 rapport fluttercopieRamiJOUDI2
 
HTML5 - Nouveautés, possibilité d'innovation, perspectives économiques - 2011
HTML5 - Nouveautés, possibilité d'innovation, perspectives économiques - 2011HTML5 - Nouveautés, possibilité d'innovation, perspectives économiques - 2011
HTML5 - Nouveautés, possibilité d'innovation, perspectives économiques - 2011Yolande Larcher-Baroung
 
2 une stratégie digitale, comment faire
2   une stratégie digitale, comment faire2   une stratégie digitale, comment faire
2 une stratégie digitale, comment faireEntreprise Agile
 
Tendances cloud-livre-blanc-collaboratif
Tendances cloud-livre-blanc-collaboratifTendances cloud-livre-blanc-collaboratif
Tendances cloud-livre-blanc-collaboratifharrybosch
 
Outils et acteurs incontournables du web
Outils et acteurs incontournables du webOutils et acteurs incontournables du web
Outils et acteurs incontournables du webOnlineStrat.fr
 
Optimisation d'une stratégie web éditoriale
Optimisation d'une stratégie web éditorialeOptimisation d'une stratégie web éditoriale
Optimisation d'une stratégie web éditorialeDamien Mady
 
Mémoire_SciencesPo_Alexis-Legrand_L’INTERNET-DES-OBJETS,-UN-PAS-VERS-LA-TRAN...
Mémoire_SciencesPo_Alexis-Legrand_L’INTERNET-DES-OBJETS,-UN-PAS-VERS-LA-TRAN...Mémoire_SciencesPo_Alexis-Legrand_L’INTERNET-DES-OBJETS,-UN-PAS-VERS-LA-TRAN...
Mémoire_SciencesPo_Alexis-Legrand_L’INTERNET-DES-OBJETS,-UN-PAS-VERS-LA-TRAN...Alexis Legrand
 
Mémoire de fin d'études - Twitch : Quand l'utilisateur prend les manettes du ...
Mémoire de fin d'études - Twitch : Quand l'utilisateur prend les manettes du ...Mémoire de fin d'études - Twitch : Quand l'utilisateur prend les manettes du ...
Mémoire de fin d'études - Twitch : Quand l'utilisateur prend les manettes du ...Guillaume Dubuis
 
Le webdocumentaire, une nouvelle opportunité d’appréhender le monde
Le webdocumentaire, une nouvelle opportunité d’appréhender le mondeLe webdocumentaire, une nouvelle opportunité d’appréhender le monde
Le webdocumentaire, une nouvelle opportunité d’appréhender le mondeOlivier Crou
 
BtoB & Inbound Marketing : mode d'emploi
BtoB & Inbound Marketing : mode d'emploiBtoB & Inbound Marketing : mode d'emploi
BtoB & Inbound Marketing : mode d'emploiElsa Fanelli
 
Guide iphone dce solutions
Guide iphone dce solutionsGuide iphone dce solutions
Guide iphone dce solutionsDCE Solutions
 
Mémoire moi 2010 e réputation benjamin vever
Mémoire moi 2010  e réputation  benjamin veverMémoire moi 2010  e réputation  benjamin vever
Mémoire moi 2010 e réputation benjamin veverMaster MOI
 
Etude E-marketing : Email mobile - maelle urban
Etude E-marketing : Email mobile - maelle urbanEtude E-marketing : Email mobile - maelle urban
Etude E-marketing : Email mobile - maelle urbanmaelleurban
 
Le développement du télétravail dans la société numérique de demain
Le développement du télétravail dans la société numérique de demainLe développement du télétravail dans la société numérique de demain
Le développement du télétravail dans la société numérique de demainACTIPOLE21
 
Le développement du télétravail dans la société numérique de demain
Le développement du télétravail dans la société numérique de demainLe développement du télétravail dans la société numérique de demain
Le développement du télétravail dans la société numérique de demainNicole Turbé-Suetens
 
Le développement du télétravail dans la société numérique de demain
Le développement du télétravail dans la société numérique de demainLe développement du télétravail dans la société numérique de demain
Le développement du télétravail dans la société numérique de demainguest499e380
 
Rapport cas teletravail_26_xi2009
Rapport cas teletravail_26_xi2009Rapport cas teletravail_26_xi2009
Rapport cas teletravail_26_xi2009GreenICTies
 

Semelhante a Comment bien référencer et positionner son site internet aujourd’hui ? (20)

1601896849 rapport fluttercopie
1601896849 rapport fluttercopie1601896849 rapport fluttercopie
1601896849 rapport fluttercopie
 
HTML5 - Nouveautés, possibilité d'innovation, perspectives économiques - 2011
HTML5 - Nouveautés, possibilité d'innovation, perspectives économiques - 2011HTML5 - Nouveautés, possibilité d'innovation, perspectives économiques - 2011
HTML5 - Nouveautés, possibilité d'innovation, perspectives économiques - 2011
 
2 une stratégie digitale, comment faire
2   une stratégie digitale, comment faire2   une stratégie digitale, comment faire
2 une stratégie digitale, comment faire
 
Tendances cloud
Tendances cloudTendances cloud
Tendances cloud
 
Tendances cloud-livre-blanc-collaboratif
Tendances cloud-livre-blanc-collaboratifTendances cloud-livre-blanc-collaboratif
Tendances cloud-livre-blanc-collaboratif
 
Bookonline, livre blanc sur les études par internet by QualiQuanti
Bookonline, livre blanc sur les études par internet by QualiQuantiBookonline, livre blanc sur les études par internet by QualiQuanti
Bookonline, livre blanc sur les études par internet by QualiQuanti
 
27 conseils pratiques en ergonomie Web
27 conseils pratiques en ergonomie Web27 conseils pratiques en ergonomie Web
27 conseils pratiques en ergonomie Web
 
Outils et acteurs incontournables du web
Outils et acteurs incontournables du webOutils et acteurs incontournables du web
Outils et acteurs incontournables du web
 
Optimisation d'une stratégie web éditoriale
Optimisation d'une stratégie web éditorialeOptimisation d'une stratégie web éditoriale
Optimisation d'une stratégie web éditoriale
 
Mémoire_SciencesPo_Alexis-Legrand_L’INTERNET-DES-OBJETS,-UN-PAS-VERS-LA-TRAN...
Mémoire_SciencesPo_Alexis-Legrand_L’INTERNET-DES-OBJETS,-UN-PAS-VERS-LA-TRAN...Mémoire_SciencesPo_Alexis-Legrand_L’INTERNET-DES-OBJETS,-UN-PAS-VERS-LA-TRAN...
Mémoire_SciencesPo_Alexis-Legrand_L’INTERNET-DES-OBJETS,-UN-PAS-VERS-LA-TRAN...
 
Mémoire de fin d'études - Twitch : Quand l'utilisateur prend les manettes du ...
Mémoire de fin d'études - Twitch : Quand l'utilisateur prend les manettes du ...Mémoire de fin d'études - Twitch : Quand l'utilisateur prend les manettes du ...
Mémoire de fin d'études - Twitch : Quand l'utilisateur prend les manettes du ...
 
Le webdocumentaire, une nouvelle opportunité d’appréhender le monde
Le webdocumentaire, une nouvelle opportunité d’appréhender le mondeLe webdocumentaire, une nouvelle opportunité d’appréhender le monde
Le webdocumentaire, une nouvelle opportunité d’appréhender le monde
 
BtoB & Inbound Marketing : mode d'emploi
BtoB & Inbound Marketing : mode d'emploiBtoB & Inbound Marketing : mode d'emploi
BtoB & Inbound Marketing : mode d'emploi
 
Guide iphone dce solutions
Guide iphone dce solutionsGuide iphone dce solutions
Guide iphone dce solutions
 
Mémoire moi 2010 e réputation benjamin vever
Mémoire moi 2010  e réputation  benjamin veverMémoire moi 2010  e réputation  benjamin vever
Mémoire moi 2010 e réputation benjamin vever
 
Etude E-marketing : Email mobile - maelle urban
Etude E-marketing : Email mobile - maelle urbanEtude E-marketing : Email mobile - maelle urban
Etude E-marketing : Email mobile - maelle urban
 
Le développement du télétravail dans la société numérique de demain
Le développement du télétravail dans la société numérique de demainLe développement du télétravail dans la société numérique de demain
Le développement du télétravail dans la société numérique de demain
 
Le développement du télétravail dans la société numérique de demain
Le développement du télétravail dans la société numérique de demainLe développement du télétravail dans la société numérique de demain
Le développement du télétravail dans la société numérique de demain
 
Le développement du télétravail dans la société numérique de demain
Le développement du télétravail dans la société numérique de demainLe développement du télétravail dans la société numérique de demain
Le développement du télétravail dans la société numérique de demain
 
Rapport cas teletravail_26_xi2009
Rapport cas teletravail_26_xi2009Rapport cas teletravail_26_xi2009
Rapport cas teletravail_26_xi2009
 

Comment bien référencer et positionner son site internet aujourd’hui ?

  • 1. Ecole Supérieur de Génie Informatique 5ième année spécialité Architecture Logicielle Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Mémoire préparé sous la direction de M. RUBERTE Michel Présenté par DEMANGEL Jérôme et SOUCIET Alexy Année 2008/2009
  • 2. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 2 sur 90 Sommaire Remerciements...........................................................................................................................4 Introduction................................................................................................................................5 1. Etat de l’art..........................................................................................................................8 1.1. Les outils de recherche................................................................................................8 1.1.1. La nécessité des outils de recherche....................................................................8 1.1.2. Fonctionnement des annuaires............................................................................9 1.1.3. Fonctionnement des moteurs de recherche......................................................10 1.1.4. Ou se référencer et ou se positionner ...............................................................13 1.2. Comment intégrer les index des outils de recherche................................................16 1.2.1. Comment soumettre son site aux annuaires.....................................................16 1.2.2. Comment soumettre son site aux moteurs de recherche .................................16 1.3. La démarche globale..................................................................................................20 1.3.1. Choisir son nom de domaine..............................................................................21 1.3.2. La recherche de mots clés..................................................................................22 1.3.2.1. Le choix des « bons » mots clés......................................................................22 1.3.2.2. Ou les trouver ? ..............................................................................................23 1.3.2.3. Les outils pour les trouver ..............................................................................24 1.3.3. Techniques d’optimisations ...............................................................................26 1.4. Les obstacles et les freins au référencement naturel ...............................................42 1.4.1. Les framesets......................................................................................................42 1.4.2. Le Flash et JavaScript..........................................................................................44 1.4.3. Code source contenant du JavaScript et du style CSS........................................45 1.4.4. Les sites à contenu dynamique ..........................................................................46 1.4.5. Les url « exotiques »...........................................................................................47 1.4.6. Les redirections ..................................................................................................50 1.4.7. Identifiants de session........................................................................................52 1.4.8. Les cookies..........................................................................................................53 1.4.9. Les accès par mot de passe................................................................................55 1.4.10. Les sites multilingues......................................................................................55 1.5. Comment ne pas être référencé................................................................................57 1.5.1. Le fichier robots.txt ............................................................................................57
  • 3. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 3 sur 90 1.5.2. La balise meta robots .........................................................................................60 1.5.3. Répertoire protégé par mot de passe................................................................61 1.5.4. Demande urgente de suppression de contenu à Google...................................62 1.6. Les techniques pénalisées par les moteurs ...............................................................63 1.6.1. Spam...................................................................................................................63 1.6.5. Les pénalités appliquées par les moteurs ..........................................................64 1.7. Le suivi .......................................................................................................................66 1.7.1. Les outils.............................................................................................................66 2. Prospective........................................................................................................................69 2.1. Les nouveautés ..........................................................................................................69 2.2. Vers le mobile............................................................................................................70 2.3. Vers la recherche temps réel.....................................................................................71 2.4. Vers le web sémantique ............................................................................................72 2.5. SMO (Social Media Optimization) .............................................................................73 2.6. Une recherche universelle de plus en plus ancrée....................................................74 2.7. La recherche personnalisée.......................................................................................76 2.8. La géo localisation des résultats................................................................................78 Conclusion ................................................................................................................................79 Les références...........................................................................................................................80 Les sociétés...........................................................................................................................80 Bibliographie.........................................................................................................................80 Webographie ........................................................................................................................81 Annexes ....................................................................................................................................85 Annexe 1 : Générateur de mots clés Google........................................................................85 Annexe 2 : Google Insights Search........................................................................................85 Annexe 3 : Exemple de la page d’accueil de l’ESGI vue par un robot ..................................85 Annexe 4 : Soumission des fichiers sitemap.xml..................................................................85 Annexe 5 : Page « Recherche universelle »..........................................................................85
  • 4. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 4 sur 90 Remerciements Nous remercions Monsieur le professeur Michel RUBERTE responsable des cours de Systèmes d’informations à l’ESGI, de nous avoir fait l’honneur de présider le jury. De même, nous souhaitons remercier tout particulièrement l’équipe d’expert SEO de Takezo et la cellule R&D de Brioude Internet Référencement pour nous avoir guidés et conseillés tout au long de ce mémoire. Nous présentons également nos remerciements à tous les acteurs SEO du Web qui nous ont fourni de précieuses informations.
  • 5. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 5 sur 90 Introduction Aujourd’hui Internet représente un enjeu et un marché indispensable pour toutes entreprises et particuliers, il est devenu un support publicitaire majeur au même titre que la télévision ou la radio. Comme nous pouvons le voir sur la figure ci-dessous, en juin 2009, 34 244 000 français âgés de 11 ans et plus, soit 64,1 % de la population âgés de 11 ans et plus, se sont connectés à Internet au cours du mois. La population internaute a donc progressé de 6 % en un an entre juin 2008 et juin 2009. Figure : Audience internet en France Source : Médiamétrie – L’Observatoire des usages internet – Juin 2009 Il va sans dire que si le nombre d’internautes est toujours en évolution, le nombre de pages internet a fait de même. C’est pourquoi il est de plus en plus difficile, pour un site internet, d’être visible et de ressortir correctement sur les outils de recherche. C’est là qu’intervient le référencement naturel appelé SEO (Search Engine Optimization) ou encore référencement organique qui désigne un ensemble d’actions visant à indexer et optimiser le positionnement d’un site dans les pages de résultats des outils de recherche. A ne pas confondre avec le référencement payant appelé SEA (Search Engine Advertising) ou encore liens sponsorisés, qui est quant à lui un système payant qui permet de positionner un site dans les pages de résultats d’un outil de recherche. Le principe étant de faire apparaître un certain nombre d’annonceurs, ayant acheté la requête saisie par l’internaute, sur les zones prévues dans les outils de recherche et de les classer en fonction de différents critères. Pour éviter toute confusion, nous avons délimité les zones réservées à chaque système dans un outil de recherche (voir figure ci-dessous).
  • 6. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 6 sur 90 Figure : Page de résultats sur Google Source : DEMANGEL Jérôme et SOUCIET Alexy – Juillet 2009 Au cours de ce mémoire, nous allons fréquemment utiliser des termes dont il est essentiel de bien comprendre le sens. Commençons par le terme de « référencement ». Être référencer, quand on parle d’un site internet, signifie que l’on est présent dans les bases de données des outils de recherche. L’action qui vise à être référencer est l’indexation. Bien qu’à une époque il suffisait simplement de se faire référencer auprès des outils de recherche pour être facilement visible sur la toile, il en est autrement aujourd’hui avec la foultitude de pages internet disponibles. Le but reste bien évidemment d'être référencé le plus possible et sur le plus de supports possibles, mais l’accent est surtout porté sur le positionnement. Le positionnement est une notion qui intervient une fois que l’on est référencé. En effet il faut se positionner au mieux dans les pages de résultats des outils de recherche à la suite d’une requête mot clé. Cela sous entend que l'on est en concurrence avec d’autres sites qui ne sont en autre que des concurrents direct mais aussi syntaxiques (ciblant les mêmes mots clés que nous). Nous avons employé un terme précédemment : la visibilité d'un site. Cela fait plus référence à la stratégie qui sera mise en place pour promouvoir un site en vue de cibler un marché. La visibilité ayant pour objectifs de générer plus de trafic et par conséquent d’attirer, fidéliser les internautes et de se distinguer des concurrents. Référencement naturel Référencement payant
  • 7. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 7 sur 90 Tous ces termes peuvent être expliqués à travers une analogie avec la grande distribution. Dans les rayons des supermarchés, on y voit un certain nombre de produits, on dit qu’ils sont référencés. Mais ça ne suffit pas pour qu’ils soient achetés, car ils sont placés dans les rayons parmi beaucoup d’autres. Pour que certains produits soient mis en évidence on les place en tête de gondole, attirant plus souvent l’œil du consommateur. Ils sont ainsi bien positionnés. Si l’on revient à notre problématique, il convient donc d’optimiser son site en suivant exactement ce qu’attendent les outils de recherche, en prenant toujours en compte qu’un site doit être conçu pour les internautes et pas uniquement pour les outils de recherche. Maintenant que nous avons posé les bases du sujet exploré (définitions et enjeux de notre problématique), nous allons vous présenter le plan de notre mémoire de recherche. La première partie est consacrée à l’état de l’art. Elle se compose d’une succession de chapitres répondant clairement à notre problématique. Le premier chapitre est focalisé sur les outils de recherche et leur fonctionnement afin de cibler correctement les supports sur lesquels nous allons travailler dans le cadre d’un référencement naturel. Le deuxième chapitre traite de la méthodologie de référencement sur les annuaires et les moteurs de recherches qui correspond à la phase d’indexation. Le troisième chapitre décrit l’optimisation d’un site en vue de son référencement. Cette partie comporte tous les critères « On Page » et « Off Page » sur lesquels on peut agir. Elle fournit un certain nombre d’indications sur les différentes actions à mener afin de rendre un site le plus réactif possible par rapport aux critères de pertinence des moteurs de recherche. Le chapitre suivant présente tous les freins et les obstacles que l’on peut rencontrer dans un référencement naturel. À l’inverse du référencement, nous réservons un chapitre sur comment ne pas être référencé dans les moteurs de recherche. Cette partie est justifiée dans le sens où certaines parties d’un site ne doivent pas être visible sur les moteurs de recherche. Le sixième chapitre répertorie les techniques frauduleuses aux yeux des moteurs de recherche qu’il est préférable d’éviter ainsi que les pénalités qu’ils peuvent infliger à un site. Le chapitre qui suit aborde la partie de la gestion du suivi du référencement naturel pour un site ainsi que les outils qui sont disponibles pour nous aider. Enfin le dernier chapitre est centré sur l’intérêt de laisser le référencement naturel d’un site à des spécialistes ou plutôt de l’internaliser. Dans la seconde partie, réservée à la prospective, nous essaierons de balayer toutes les évolutions futures du référencement naturel notamment, au niveau des outils de recherche et du changement de comportements des internautes.
  • 8. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 8 sur 90 Enfin pour conclure, nous verrons les avantages du référencement naturel ainsi que ses limites et donc ses inconvénients. Nous en profiterons pour exprimer nos sentiments sur le future de ce levier de l’e-marketing. 1. Etat de l’art 1.1.Les outils de recherche 1.1.1. La nécessité des outils de recherche Quand un internaute cherche une information il ne sait pas toujours sur quel site la trouver. Les outils de recherche s’avèrent donc très utiles à tous les internautes, pour trouver les pages Web contenant les informations désirées. La recherche d’informations sur Internet (90,9%) constitue avec les E-mails (87,0%) le service le plus utilisé par les internautes. Ceux-ci passent beaucoup de leur temps de connexion à chercher ce qui les intéresse sur la toile. Figure 1-1-1 : L’usage d’Internet Source : Médiamétrie - 1T 2009 Base internautes DM (33,1 millions d’individus) - DM = dernier mois
  • 9. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 9 sur 90 Ce que l'on définit comme « outils de recherche » correspond à deux éléments : les moteurs de recherche qui sont des outils entièrement automatiques qui indexent les sites selon des algorithmes. les annuaires qui font office de base de données de liens. Ils sont mis à jour et gérés par une personne physique qui se charge d'indexer les sites qui le souhaitent et cela sur des critères plus subjectifs. Une étude [URL:XIT] montre que les moteurs de recherche sont la principale source de trafic pour un site ayant déclaré des campagnes de marketing online. Nous pouvons interpréter les 33,6% des visites via les résultats naturels des moteurs de recherche comme un minimum pour tous les sites. Il n’est pas rare de voir s’envoler ce pourcentage aux alentours de 70- 80% pour les sites n’ayant pas de campagne de marketing online (liens sponsorisés, e- mailing, affiliation, etc.). Les deux autres sources principales de trafic sont les accès directs et les liens depuis des sites référents. Au-delà de l’importance du trafic généré par les moteurs, la qualité des visiteurs apportés est une donnée complémentaire qui vient apporter un poids supplémentaire au rôle majeur joué par les moteurs de recherche. Les internautes en provenance des moteurs de recherche consultent plus de pages et restent plus longtemps sur un site selon [URL:XIT]. 1.1.2. Fonctionnement des annuaires Les annuaires proposent des fiches descriptives de sites classés par catégories. Ils sont généralement utilisés pour trouver un site spécifique correspondant à un thème précis. Globalement, l’annuaire ne dispose que de très peu d’informations sur le site qu’il référence : Son titre Son adresse (url) Un court descriptif de son activité Les catégories dans lesquelles il est inscrit Ils sont maintenus par des documentalistes qui prennent le temps de vérifier les informations que nous leur soumettons. Ils n’ont pas vocation de proposer une liste exhaustive de tous les sites d’une catégorie puisque c’est le possesseur d’un site internet qui va chercher à intégrer l’annuaire.
  • 10. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 10 sur 90 La recherche s’effectue soit en naviguant dans l’arborescence des rubriques (indice 2 sur la figure 1-1-2) en descendant une hiérarchie qui balaie des thèmes allant du plus général au plus précis soit en questionnant un moteur interne sur une expression (indice 1 sur la figure 1-1-2). Figure 1-1-2 : Exemple d’un annuaire (DMOZ) Source : DEMANGEL Jérôme et SOUCIET Alexy – Juillet 2009 Le résultat, dans les 2 cas, est une liste de liens classés qui proviennent de la base de données de l’annuaire. 1.1.3. Fonctionnement des moteurs de recherche A la différence des annuaires, les moteurs de recherches sont automatisés par des robots, systèmes d’indexation, algorithmes de pertinences. Ils indexent le contenu textuel des pages alors que les annuaires indexent des fiches descriptives de sites [AND 08]. A l’inverse de l’annuaire, le moteur de recherche a pour ambition d’être le plus exhaustif possible au niveau de son index de pages web. Alors comment un moteur de recherche peut avoir une telle ambition ? 1 2
  • 11. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 11 sur 90 Le moteur combine de très nombreux critères : c'est l'algorithme du moteur, jamais figée, toujours en évolution. Quand il répond à une partie importante de ces critères, le site se voit attribuer des «points» par le moteur (c’est la notion de scoring), qui améliore en conséquence son positionnement (c’est la notion de ranking), dans les SERP (Search Engine Result Page) soit les pages de résultats du moteur de recherche (figure 1-1-3). Figure 1-1-3 : Principe de fonctionnement d’un moteur Source : [AND 08] Il y a 3 étapes qui sont indispensables à son fonctionnement : L’exploration ou crawl qui grâce à des robots appelés spiders, crawlers ou users agents vont collecter les informations. Parmi les user agent les plus importants, citons notamment : Pour Google : o Googlebot o Googlebot-Image Pour Yahoo : o Slurp Pour Microsoft Live Search : o Msnbot
  • 12. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 12 sur 90 La seconde étape est l’indexation : Les moteurs de recherche utilisent des robots pour explorer le web et détecter de nouveaux sites qu’ils ne connaissent pas ou les nouvelles pages de sites déjà connus. Lorsqu’un robot découvre un nouveau site (ou une nouvelle page) il va l’indexer, c'est-à-dire l’intégrer dans sa base de données pour en analyser le contenu. La troisième étape est le positionnement des pages. Elle a lieu après son indexation. Les robots des moteurs de recherche analysent le texte visible contenu dans le code HTML afin de calculer l'indice de densité des mots clés dans chaque page du site. Ils suivent aussi les liens hypertextes pour accéder aux différentes pages du site. Le moteur d'interrogation est l'interface frontale proposée aux utilisateurs. A chaque question, une requête est générée dans la base de données et une page web dynamique restitue les résultats généralement sous forme de liste de résultats (figure 1-1-4). Figure 1-1-4 : Page de résultats de recherche (SERP) Source : DEMANGEL Jérôme et SOUCIET Alexy – Juillet 2009 Barre de Titr Cache link Snippet Pages similaires Url
  • 13. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 13 sur 90 1.1.4. Ou se référencer et ou se positionner Du côté des annuaires, il faut privilégier l'Open Directory Project (DMOZ) qui est incontournable. C'est le plus grand et le plus complet des annuaires du web, il est édité, développé et tenu à jour par une communauté mondiale d'éditeurs bénévoles. Il existe des milliers d’autres annuaires allant du généraliste au spécialisé qui proposent les mêmes services cependant le trafic généré par ces derniers est très faible. Il est aujourd’hui majoritairement issu des moteurs de recherche [URL:XIT]. La figure 1-1-4 ci-dessous qui nous présente le top 30 des sites les plus consultés, nous permet d’appréhender l’importance du référencement sur les moteurs de recherche. Tous les internautes ont pris l’habitude de faire des recherches sur les principaux moteurs de recherche afin de trouver l’information qu’ils désirent. Figure 1-1-4 : Top 30 des sites les plus visités en France Source : Médiamétrie/NetRatings –Tous lieux de connexion – Juin 2009
  • 14. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 14 sur 90 Parmi les nombreux moteurs de recherche, quelques uns dominent le marché. Le leader Google avec 89,83% des parts de visites suivi de Live Search (2,90%) et Yahoo (2,48%). Figure 1-1-5 : Top 5 et Top 10 des moteurs de recherche en parts de visites Source : AT Internet Institute – Avril 2009 Les parts de marché considérables de Google, indiquent clairement, que l’on est obligé de référencer son site sur ce moteur de recherche si l’on souhaite que nos pages web soient trouvées et fréquentées. Mais bien qu’il soit le plus important, il ne faut pas négliger sa visibilité dans les autres moteurs notamment Live Search et Yahoo. Maintenant que nous avons répondu à la première question (ou se référencer ?), nous allons voir ou faut t’il se positionner. On serait tenté de dire qu’il faut essayer d’attraper les meilleures places, c'est-à-dire les positions qui rapporteraient le plus de visibilité donc le plus de trafic. Pour y voir plus claire une étude de [URL:JDN] et une étude d’oculométrie (Eye Tracking) [URL:MIR] nous donne des précieux renseignements sur le comportement des yeux des internautes face aux pages de résultats des moteurs de recherche. Nous nous focalisons uniquement sur les données récoltées concernant les résultats naturels.
  • 15. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 15 sur 90 Les différents points que l’on retient de ces analyses: La lecture est linéaire : les internautes commencent par le premier lien et termine par celui qui est le plus bas. Les premiers résultats captent le plus l'attention de l'internaute avec une différence de 90% du premier résultat par rapport au dernier. La position conditionne le taux de clics : plus un résultat sera bas dans la page, moins il a de chance d'être vu et cliqué. La position influence surtout les recherches d'informations : un internaute n’ayant pas trouvé le bon résultat va cliquer sur le premier d'entre eux. Un résultat non vu car situé trop bas dans la page va inciter l’internaute à cliquer sur le premier, y compris si celui-ci n'est pas le bon. La confiance explique la prime au premier résultat : la visibilité du résultat constitue un premier élément de réponse, mais cette explication n’est pas suffisante, un autre mécanisme entre alors en ligne de compte. Celui-ci repose sur la confiance que les internautes ont dans la pertinence du classement effectué par les moteurs de recherche. Cette étude nous montre que plus un résultat est positionné bas dans la page, moins les internautes y consacreront du temps et de l'attention, les premières positions (1 à 3) apparaissent essentielles pour avoir une visibilité optimale et drainer le maximum de trafic vers son site. Néanmoins il est tout de même intéressant de se placer dans les positions suivantes sans dépasser le seuil de la position 30 qui correspond à la 3ème page de résultats. Après ceseuil, il n’y a aucun intérêt puisque la visibilité est quasi nulle. En résumé, selon l’ambition du site, il faudra essayer de se positionner pour les mots clés stratégiques (du plus simple au plus complexe) : Dans les 3 premières pages de résultats (top 30) Dans la première page de résultat (top 10) Dans les résultats affichés au dessus de la ligne de flottaison (résultats affichés par le navigateur sans utiliser la scroll bar pour descendre dans la page) Dans le « triangle d’or » (top 3)
  • 16. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 16 sur 90 1.2.Comment intégrer les index des outils de recherche 1.2.1. Comment soumettre son site aux annuaires Lors de la création d’un site internet, il n’est inscrit dans aucun annuaire par défaut. Pour être référencé, il faut soumettre une demande à chaque annuaire pour que notre demande soit prise en compte en sachant que l’inscription de notre site peut être refusée si l’on ne respecte pas certaines conditions propre à l’annuaire. Figure 1-2-1 : Soumission d’un site sur DMOZ Source : DEMANGEL Jérôme et SOUCIET Alexy – Juillet 2009 Pour inscrire son site sur un annuaire, il faut parcourir les catégories et choisir celle où l’on veut être répertoriée, dans notre cas, "Conception de sites" (figure 1-2-1) et cliquer sur un lien de type « Proposer un site » ou « Soumettre un site ». 1.2.2. Comment soumettre son site aux moteurs de recherche Après les annuaires, voyons donc les différentes voies qui nous sont proposées pour faire en sorte que notre site soit rapidement dans les index des moteurs de recherche. 1.2.2.1. Le formulaire de soumission Difficile de ne pas signaler cette voie officielle puisque les principaux moteurs proposent, via un formulaire de soumission d’un site, de leur signaler l’existence de celui-ci. Voici les adresses de ces formulaires pour les principaux moteurs :
  • 17. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 17 sur 90 Pour Google : http://www.google.fr/addurl/ Pour Yahoo : http://siteexplorer.search.yahoo.com/fr/free/submit Pour Microsoft : http://www.bing.com/docs/submit.aspx La procédure est simple, il suffit de remplir un formulaire en indiquant l’adresse de la page d’accueil de son site. Cette voie est loin d’être la plus efficace et la plus rapide pour que les robots des moteurs de recherche viennent visiter la page d’accueil et ainsi suivre tous les liens pour en indexer les pages internes. 1.2.2.2. Le fichier « sitemap.xml » Le fichier « sitemap.xml » est destiné aux robots des moteurs de recherche qui visitent notre site internet. On peut l’illustrer par analogie avec une autoroute. C’est ce fichier qui va aider les robots à parcourir les pages de son site (figure 1-2-2). Figure 1-2-2 : Procédure de soumission du fichier sitemap aux moteurs Source : Elliance (traduite pour une meilleure compréhension) – 2009 En effet, ce dernier énumère toutes les url des pages d’un site internet présentes dans le fichier et évite donc de laisser de côté certaines pages pour les robots. Le fichier sitemap est construit d'après le langage XML. Il s'agit d'un simple fichier texte, que l’on peut créer dans n’importe quel éditeur texte.
  • 18. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 18 sur 90 Seules les url des pages que l’on souhaite référencer doivent figurer dans ce fichier. Cependant, plusieurs paramètres existent mais ne sont pas obligatoires. Ils vont par exemple permettre de spécifier la priorité d’une page, de spécifier une fréquence de mise à jour des pages concernées ainsi qu'une date de dernière mise à jour. Exemple de fichier sitemap.xml : Quelques règles pour ce fichier : Le champ « loc » représente l’adresse de la page. Ce champ commence par "http://" puisque l’adresse doit être indiquée de façon absolue et non pas relative. Le champ « lastmod » est la date de dernière modification du fichier, elle doit respecter le format YYYY-MM-DD. Le champ « changefreq » représente la fréquence de mise à jour de la page. Elle est peu importante et l’on doit choisir entre les possibilités suivantes : always, hourly, daily, weekly, yearly, never. Le champ « priority » indique l’importance que l’on donne à la page à l’intérieur du site. La valeur est comprise de 0 à 1. La priorité par défaut est fixée à 0.5. Le fichier doit être placé dans le répertoire ou se trouve les pages indiquées dans celui-ci. L’emplacement le plus logique est le niveau le plus haut de l’arborescence d’un site soit à la racine du site. Exemple « http://www.nom-de-domaine.fr/sitemap.xml ». Les principaux moteurs de recherche se sont mis d’accord sur une version commune du fichier « sitemap.xml ». C’est la version 0.9 à spécifier dans le fichier par : <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> La procédure de déclaration du fichier doit se faire via une interface Webmaster Tools propre à chaque moteur : <?xml version="1.0" encoding="UTF-8"?> <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <url> <loc>http://www.nom-de-domaine.fr</loc> <lastmod>2009-01-24</lastmod> <changefreq>monthly</changefreq> <priority>1.0</priority> </url> <url> <loc>http:// www.nom-de-domaine.fr /page1.php</loc> <lastmod>2009-01-24</lastmod> <changefreq>monthly</changefreq> <priority>0.8</priority> </url> </urlset>
  • 19. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 19 sur 90 Pour chacun des Webmaster Tools (Google, Yahoo, Microsoft) il est nécessaire de disposer d’un compte. Voir l’annexe 4 1.2.2.3. Le lien depuis une page déjà indexée La voie que nous allons voir est certainement la meilleur solution aujourd’hui pour indexer un site. Le principe réside dans le fait qu’un lien venant d’une page déjà indexée doit pointer sur une page de son site, l’idéal étant que la page pointée soit la page d’accueil (figure 1-2-3). Figure 1-2-3 : Mécanisme d’indexation par les liens Tous les éléments sont requis dans cet exemple pour que les robots suivent le lien depuis le site qu’il a déjà dans son index et indexe quasi immédiatement la page cible. La seule difficulté de cette solution, est de trouver une page qui réponde à ces critères, mais au final c’est la solution à privilégier car elle est de loin la plus rapide et la plus fiable. -Page indexée -Page populaire -Page
  • 20. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 20 sur 90 1.3.La démarche globale Chaque moteur a son propre algorithme [URL:WYS] et il n'est pas possible d'énumérer tous les critères universels et permanents surtout que ceux-ci varient en fonction de l’évolution des usages. Figure 1-3-1 : Les nombreux critères possibles de l’algorithme d’un moteur de recherche Source : Elliance – 2008 La figure 1-3-1 montre une liste non exhaustive des critères qui serviraient aux algorithmes des moteurs de recherche. Même si l’on ne connaît pas exactement les algorithmes, on peut considérer que les critères se combinent pour constituer trois grands ensembles étroitement liés : la technique, le contenu et les liens. La technique concerne l'architecture et le code du site. Il faut s’assurer que l’intégralité du site est techniquement accessible aux moteurs de recherche et que le code source permet une bonne prise en compte du contenu.
  • 21. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 21 sur 90 Le contenu comprend tous les textes visibles sur votre site. Certains textes ne sont pas considérés comme visible aux yeux des moteurs de recherche, nous verrons par la suite pourquoi. La popularité d’un site est calculée par la mesure de la quantité et de la qualité des liens pointant vers lui. 1.3.1. Choisir son nom de domaine Le nom de domaine est le premier choix que l’on doit faire quand on souhaite optimiser son site. En se basant sur l’étude [AFA 07] et [AND 08], les principales préoccupations quant à ce choix doivent être : La cible La stratégie de communication La cible détermine quelle extension choisir à savoir : Si la cible est française il faudra opter pour une extension en .fr ou autre. Un site ayant une cible américaine optera plutôt pour un .com, de façon logique. Un site à vocation internationale pourra de façon habile être accessible selon plusieurs adresses : le .fr pour la version française, le .com pour la version en langue anglaise, etc. Il est ici plus une question de stratégie personnelle et de logique que d’optimisation puisque les moteurs n’accordent pas d’importance à l’extension du domaine dans leurs algorithmes de pertinence. La stratégie de communication va déterminer les mots clés. 2 choix sont alors possibles entre choisir le nom de sa marque/entreprise : "nom-de-marque.fr" ou un descriptif de l’activité du site : " votre-activité.fr" Cependant dans les 2 cas, le nom à choisir doit rester court sous peine d’être considéré comme du spam. Un nom de domaine contenant plusieurs mots clés importants pour l’activité du site est préférable pour les moteurs de recherche mais le choix du nom de la marque est plus logique dans le cadre d'une stratégie globale de communication sur le web. Néanmoins si l’on choisit de placer des mots clés importants il est préférable de les séparer par un tiret "-". Le site sera plus réactif sur les mots séparés que sur le seul mot attaché.
  • 22. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 22 sur 90 Exemple : www.voyagesmondeentier.fr et www.voyages-monde-entier.fr Dans le premier cas le moteur ne comprendra que "voyagesmondeentier" et dans le second le site sera réactif sur "voyages", "monde entier ", "voyages monde ", "voyages monde entier". Ce qui est nettement plus intéressant. Au final, nous ne pouvons pas choisir un nom de domaine en prenant en compte uniquement la vision du référencement naturel. Même si l’on choisit un nom de domaine non optimisé aux yeux des moteurs, l’utilisation d’url optimisés avec des mots clés importants compense amplement cette situation. D’après [URL:SER] et [AND 08], l’ancienneté du nom de domaine est un critère important. Ceci n’est valable que pour les noms de domaines déjà indexés. L’optimisation qui rentre dans le cadre du nom de domaine est la préférence pour la création de plusieurs petits sites, avec un contenu propre à chacun, plutôt qu’un gros car cela permet de se faire un réseau de sites avec la possibilité de faire des liens entre eux ce qui accroitra leur visibilité. 1.3.2. La recherche de mots clés En reprenant l’analogie de la grande distribution, un produit placé en tête de gondole n’est pas forcément le produit le plus vendu. D’autres facteurs interviennent, la qualité du produit, l’endroit où se trouve la gondole, le nombre de personnes susceptibles de passer devant, etc. En d’autres termes, il ne sert à rien d’être bien positionné sur des mots clés dont le volume de requêtes est extrêmement faible. Cette phase consiste à choisir les « bons » mots clés pour positionner les pages d’un site dans les SERP. 1.3.2.1. Le choix des « bons » mots clés Mais alors comment distinguer un « bon » mot clé d’un « mauvais » ? Pour répondre à cette question il est important que les mots clés qu’on aura à choisir répondent à 2 critères essentiels : L’intérêt La faisabilité
  • 23. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 23 sur 90 Ces 2 notions sont essentielles en partant du principe que les mots clés choisis devront décrire l’activité et le contenu de chaque page. L’intérêt d’un bon mot clé réside dans son volume de recherches. Il doit être le plus possible requeté par les internautes dans les moteurs de recherche. Sa faisabilité doit être calculée en prenant en compte le nombre de résultats quand il est requeté dans un moteur de recherche. Il doit être techniquement possible de positionner sa page web dans les premiers résultats. Si le nombre de résultats est trop important, il vaudrait mieux se rabattre sur un mot clé comprenant plus de mots dans le but d’être moins générique. Exemple pour la requête mot clé "rachat de crédit" : Cette requête affiche 875 000 résultats, ce qui est beaucoup. Il sera très difficile de se positionner dessus à moins d’avoir un site avec un contenu riche sur cette thématique. Pour conclure bien choisir ses mots clés consiste à trouver un arbitrage entre le potentiel des expressions mots clés choisies et la faisabilité de positionnement sur ceux-ci. 1.3.2.2. Ou les trouver ? On trouve ces mots clés en opérant de la sorte : En analysant le site lui-même s’il est déjà créé, ou du projet de site s’il ne l’est pas, en s’efforçant de faire ressortir l’objectif réel du site (informer, vendre, etc.), c'est-à dire en essayant de savoir pourquoi nous voulons que les internautes viennent sur ce site en particulier. En analysant les sites des concurrents (benchmarking), de leurs positionnements sur les moteurs, des mots-clés sur lesquels ils se sont basés. Cette analyse permet un gain de temps énorme, puisque si l’un des concurrents a déjà optimisé les pages de son site web, il nous sera possible de repérer une liste d’expression stratégique. En analysant les comportements des internautes sur les moteurs de recherche, par rapport aux mots-clés dégagés à la suite des deux premières analyses. Nombre de résultats
  • 24. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 24 sur 90 On peut agrémenter cette liste en faisant par exemple un sondage interne, en étudiant les expressions connexes, et les synonymes. 1.3.2.3. Les outils pour les trouver Pour dégager les mots clés d’une page web, il existe plusieurs outils en ligne qui calculent la densité de mots clés dans celle-ci. Ils peuvent permettre d’extraire rapidement les principaux mots clés d'une page (exemple sur la figure 1-3-2). Figure 1-3-2 : Exemple d’extraction de mots clés importants d’une page basé sur leur densité, avec KGen (un plugin Firefox) Source : DEMANGEL Jérôme et SOUCIET Alexy – Juillet 2009 Dans la catégorie des outils qui aident à la génération de mots clés, nous pouvons citer Google Keyword Generator, qui permet d’avoir pour une thématique donnée, l’ensemble des requêtes et synonymes associés avec le potentiel de trafic qu’elles représentent sur ce moteur (Annexe 1). A la base cet outil sert principalement pour son programme de liens sponsorisés Adwords mais il est fort utile dans le domaine du référencement naturel. Il est intéressant de souligner que l’on peut procéder à des analyses sur les mots clés qui sont employés par les sites des concurrents grâce à la fonctionnalité « Contenu d’un site Web ».
  • 25. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 25 sur 90 D’autres outils dans la même lignée permettent de connaître les expressions qui sont requêtées par les internautes. Google Suggest par exemple est une fonctionnalité active à partir de la page d'accueil de Google qui permet de mettre en évidence les expressions les plus courantes. Cet outil dynamique montre les recherches les plus populaires, en rapport avec un terme donné, de façon purement algorithmique (figure 1-3-3). Figure 1-3-3 : Google Suggest Source : DEMANGEL Jérôme et SOUCIET Alexy – Juillet 2009 Google Insights Search (Annexe 2) est un autre outil de Google, à la base en anglais, qui récemment [URL:GIS] a été décliné dans la version française. Il donne les tendances des recherches de mots clés, en comparant les tendances des volumes de recherche par région, catégorie et par saison sur le moteur de recherche Google. Grâce à l’outil de prévision de trafic embarqué, on peut estimer l'intérêt suscité par un terme donné dans le futur.
  • 26. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 26 sur 90 1.3.3. Techniques d’optimisations Bien qu’une page internet puisse être écrite dans différents langages, ils se reposent tous sur le langage de base : le HTML. Il n’est pas directement lisible par l’internaute lors d’une visite d’une page web, contrairement aux robots qui eux le visualisent. Un robot ne voit pas une page comme un internaute, il la voit en mode texte (Annexe 3). C’est à travers le code HTML en partie que l’on peut optimiser une page. Dans la partie précédente nous avons défini les mots clés pour positionner nos pages web, maintenant il nous faut les placer dans les zones les plus réactives par rapport aux critères de pertinence des moteurs. Les critères « On-page » sont tous les critères relatifs au contenu de la page alors que les critères « Off-page » concernent les facteurs extérieurs à la page. 1.3.3.1. Critères On-page 1.3.3.1.1. Balise TITLE Dans sa norme, HTML a prévu une balise spéciale pour le titre d’une page : la balise titre "TITLE". Cette balise est l’élément le plus important sur le plan éditorial pour informer l’utilisateur et le moteur sur le contenu de la page mais aussi l’un des facteurs les plus importants pour le positionnement d’une page [URL:SRF]. La lecture du titre se faisant de gauche à droite, l’importance du premier mot clé serait bien plus conséquente que le dernier. Exemple d’un titre qui est affiché dans les pages de résultats : Figure 1-3-4 : Balise Title
  • 27. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 27 sur 90 Source : DEMANGEL Jérôme et SOUCIET Alexy – Aout 2009 Voici les règles pour nommer les titres des pages d’un site selon [HPH 08], [GDO 08] et [BIR 09] : dans le code HTML, le titre doit être placé le plus haut possible (le plus proche possible de l’ouverture de la balise <head>) le titre de la page peut contenir entre 50 et 100 caractères il doit contenir les mots ou expressions les plus représentatifs du contenu de la page (les mots clés utilisés sont normalement ceux pour lesquels la page apparaîtra dans les résultats des moteurs) il faut éviter les listes de mots-clés séparés par des virgules ne pas répéter 2 fois les mêmes mots 1.3.3.1.2. Url des pages Dans la mesure du possible, le nommage des pages et des répertoires doit se faire en y insérant les mots clés importants, c'est-à-dire les mots issus de la thématique de la page sur lesquels ont souhait se positionner. En effet, les mots clés présents dans l'adresse d’une page sont le plus souvent pris en compte par les moteurs dans leurs classements de pertinence [URL:SRF]. Une adresse telle que : « http://www.monsite.fr/voyages/excursion-japon.html » propose 4 mots clés intéressants : "voyages", "excursion", "japon", "excursion-japon". Tandis que cette adresse : « http://www.monsite.fr/voya/page1.html » ne propose aucun mots clés pertinent. Voici les règles pour nommer les pages d’un site selon [BIR 09], [GDO 08] et [AND 08] : pas de caractères accentués dans les noms des pages pas d'espace dans les noms de pages ou les remplacer par des tirets les noms des pages et répertoires en minuscule éviter d’utiliser les caractères exotiques (%, :, ?, +, =) séparer les différents mots clés d'un même nom par des séparateurs tels que le tiret, la virgule, l’underscore ou le slash bien qu’il soit fortement conseillé d’utiliser le tiret
  • 28. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 28 sur 90 limiter le nombre de caractères total de l'url à 128 caractères maximum (100 étant une limite idéale) limiter à 3 le nombre de mots composant l'expression clé et éviter les répétitions de mots dans la même URL pour éviter la pénalité appliquée au spam (voir chapitre 1.6) Il est très important d’avoir uniquement une seule url pour une seule page. Le problème le plus fréquent concerne la page d’accueil d’un site qui peut avoir plusieurs url. En effet toutes ces url sont toutes différentes et pointent toutes sur la même page: www.monsite.fr monsite.fr www.monsite.fr/ monsite.fr/ www.monsite.com/index.html monsite.fr/index.html La première page lancée par un serveur web quelque soit l’hébergement est la page "index" ou "home" avec comme extension (html, htm, php, aspx, asp, etc.). Autant dire que ce nom n’apporte rien sur le point de vue du référencement. Pour les versions avec ou sans www il est primordial de choisir le format des url que l’on veut afficher. On résous ce problème en définissant des redirections 301 expliquées dans le chapitre 1.4.6 afin de rediriger les url non pertinentes vers l'url principale la plus judicieuse pour l’optimisation de son site. Pour notre exemple le choix est de rediriger toutes les url vers « www.monsite.fr ». On peut raccourcir les redirections à mettre en place en indiquant dans le Google Webmaster Tools, quel domaine on choisit d’afficher (avec ou sans les www). Dans tous les cas il est vivement conseiller d’uniformiser toutes les url sans quoi il y aura une diffusion inutile de la popularité entres les pages concernées et sous risque d’être placé en "Duplicate Content" (voir chapitre 1.6).
  • 29. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 29 sur 90 1.3.3.1.3. Texte visible « Content is king, optimized content is emperor » une citation qui prend tout son sens. Toutes les pages du site, ou du moins une majorité, doivent donc contenir du contenu texte intégrant les mots clés sur lesquels vous souhaitez ressortir. Le contenu comprend deux choses : les éléments textuels entre les balises HTML <body></body> et les balises Meta et TITLE. Nous avons vu précédemment les balises Meta et la balise TITLE nous allons donc nous focaliser sur le contenu de la balise <body>. Les robots des moteurs de recherche analysent le texte visible afin de calculer l'indice de densité des mots clés dans chaque page du site et de déterminer la thématique de chaque page. Sans texte pertinent, contenant des mots clés, le site aura peu de chance d'être bien positionné par rapport à d'autres sites contenant ces mots clés et expressions dans leurs pages. La façon dont un mot clé est intégré joue sur le poids accordé au mot clé. Pour schématiser, voici par ordre décroissant de poids les modes d’intégration [URL:SRF]: mot clé repris en texte de liens mot clé repris dans les balises sémantiques mot clé en gras (ou italique ou souligné) mot clé simple Les règles pour le contenu d’un site : Privilégier un texte pertinent en début de code source. Chaque page à contenu doit mettre en relief 3 à 4 mots clés maximum. Pour cela il faut travailler la densité des mots clés dans le texte de manière à ce que les mots clés soient parmi les occurrences les plus importantes avec une densité comprise entre 2.5 et 5% et cela dans le haut du code source [AND 08] et [BIR 09] (voir figure ci dessous).
  • 30. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 30 sur 90 Il faut que le mot clé principal soit contenu dans un titre en H1, et que chacun des 3 mots clés reviennent entre 5 et 10 fois dans les 300 premiers caractères du texte. Les mots clés et expressions doivent être mis en évidence dans la page par l’intermédiaire de balises sémantiques [URL:HTM], balises de style (b, u, etc.) équivalent à la (mise en gras, soulignement). Il est possible également de mettre en œuvre les actions suivantes : Insertion d’une Upline spécifique sur chaque page du site. Une Upline est constituée d’une courte phrase présentant en quelques mots l’activité de la page concernée. Son but est de proposer des mots clés pertinents pour le référencement et de faciliter l’indexation de la page par les moteurs. Insertion d’une Baseline en pied de page. Une Baseline est constituée de quelques phrases présentant la thématique du site et proposant des liens vers les principales rubriques du site. Son but est de mettre en valeur certaines pages du site et d’augmenter l’occurrence de mots clés sur la page. En respectant les règles listées ci-dessus et sans en abuser, le site doit pouvoir ressortir sur les mots clés naturellement.
  • 31. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 31 sur 90 Ce qu’il faut éviter : Les « stops words » sont des mots qui parasitent la lecture de la page par les robots. Il en existe plein, par exemple : euros, trier par, cliquez ici, voir, en savoir plus, etc. La solution consiste à passer en images tous ces mots pour éviter qu’ils diluent la densité des mots clés des mots importants. Car en effet, les robots sont dans l’impossibilité de lire le contenu d'une image. Les mots clés doivent être intégrés dans un paragraphe de contenu réel (pas de série de mots clés répétés sans sens) et il est préférable de maximiser la densité de mots clés en insistant sur 3/4 mots clés par page. Enfin, il ne faut pas sur-optimiser les pages, il ne faut pas oublier que le site doit être avant tout conçu pour l’internaute. 1.3.3.1.4. Balises Meta Parmi la liste des balises Meta que l’on peut trouver, seules quelques unes sont utilisées pour le référencement naturel : la balise Meta Description et Meta Keywords. Bien que ces 2 balises n’aient plus grande importance, elles méritent d’être soignées notamment la balise Meta Description [URL:GOM] qui sert à donner une description de la page pour apparaître ensuite dans la page de résultats des moteurs. La balise Meta Description doit se placer entre les balises <head></head> du code source HTML. <html> <head> <title>Titre du site</title> <meta name="description" content="Description du site"> </head> <body> // Corps de la page </body> </html>
  • 32. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 32 sur 90 La balise Meta Description est présente dans le code source et se retrouve affichée dans les pages de résultats du moteur de recherche : Figure 1-3-5 : Balise Description Source : DEMANGEL Jérôme et SOUCIET Alexy – Aout 2009 Selon [URL:LRD] seul Yahoo accorderait encore une importance à cette balise du point de vue SEO. Ce qui importe vraiment, c’est d’avoir des descriptions différentes, sur chaque page que l’on souhaite indexer pour ne pas être interprétée comme ayant des pages similaires aux autres portant les mêmes descriptions. Voici les règles pour rédiger la balise Meta Description selon [TAK 09] : la balise Meta Description doit contenir entre 150 et 200 caractères elle doit présenter une description de la page étudiée (par exemple, le titre de la page peut être repris et développé sur 200 caractères) il faut essayer de placer la balise Meta Description le plus haut possible dans le code source (juste en dessous du Titre : <TITLE>) La balise Meta Keyword contient, elle, une liste de mots clés pour une page, séparés soit par des virgules,soit par des espaces. Selon [URL:LRK] seul Yahoo accorderait encore une importance à cette balise du point de vue SEO.
  • 33. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 33 sur 90 La balise Meta Keyword doit se placer entre les balises <head></head> au même titre que la balise Meta Description. Voici les règles pour rédiger la balise Meta Keyword selon [TAK 09] : la balise Meta Keywords doit contenir entre 150 et 200 caractères elle doit présenter une liste de mots clés représentatifs de la page étudiée Il faut essayer de placer la balise Meta Keywords le plus haut possible dans le code source (juste en dessous de la balise Meta Description) 1.3.3.1.5. L’attribut ALT des images Un fichier image est décrit ainsi dans le code source HTML d’une page : Les critères pris en compte par les moteurs pour identifier les images qu'ils proposent dans leurs pages de résultats sont les suivants : Le nom de l’image (ici "nom-image"). Les mots clés à utiliser pour le nom de l’image doivent être le plus précis et descriptifs possible. Le texte alternatif (ici le contenu de l’attribut ALT). Les attributs ALT des images sont utilisés par certains logiciels pour faciliter la navigation des personnes malvoyante. L'accessibilité d’un site doit donc être améliorée en renseignant les <img src="http://www.monsite.fr/images/nom-image.jpg" alt="texte alternatif décrivant l'image" title="titre de l’image"> <html> <head> <title>Titre du site</title> <meta name="description" content="Description du site"> <meta name="keywords" content="mot-clé1, mot-clé2, mot-clé3"> </head> <body> </body> </html>
  • 34. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 34 sur 90 balises ALT de certaines images stratégiques selon les recommandations W3C [URL:W3A] et du Guide Accessiweb [URL:ACC]. Outre la notion d’accessibilité, il est très important pour les moteurs de recherche [URL:SRF]. C’est un peu l’équivalent de la balise <title> pour une page web. Les attributs ALT peuvent être renseignés sur les images importantes du site, cela peut être par exemple les images des menus, le logo de la société, les images d’illustration d’un article ou d’un produit, en gardant à l’esprit qu’il faut toujours indiquer ce que représente réellement l’image. Figure 1-3-6 : Texte alternatif Source : DEMANGEL Jérôme et SOUCIET Alexy – Aout 2009 L’attribut « title » par contre n’est pas pris en compte par les moteurs de recherche, son utilisation est utile que pour une notion d’accessibilité (affiche du texte au passage de la souris sur l’image). Le texte autour de l’image est à soigner également, notamment en explicitant l’image car il joue un rôle important. En effet les robots se servent pour indexer les images, non seulement du contenu de la balise <img> mais également de l’environnement textuel autour de l’image. Exemple d’un texte (une sorte de légende) autour d’une image : <img src="http://www.monsite.fr/images/bateau-mouche-seine.jpg" width="100" height="40" alt="bateau mouche sur la seine">Vous pouvez voir, sur l'image ci-contre, une photo d’un bateau mouche sur la seine à Paris, prise sur le quai X.
  • 35. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 35 sur 90 1.3.3.2. Critères Off-page Certains critères influant sur le référencement naturel d'un site sont paradoxalement liés à des éléments hors site : il s'agit des liens. Les principaux moteurs de recherche (Google en premier) indexent et positionnent les sites selon les critères cités précédemment mais en intégrant de façon déterminante une dernière variable supposée représentée le degré de popularité du site dans le Web. Plus concrètement, la popularité se détermine par le nombre de pages indexées, dans un moteur, qui contiennent un lien vers son site. Ces pages peuvent appartenir à notre site (popularité interne) ou à un site externe (popularité externe). 1.3.3.2.1. Liens 1.3.3.2.1.1. Maillage interne Le site doit présenter une construction accessible au niveau des liens internes afin que les moteurs et les internautes puissent accéder à toutes les pages facilement. Les pages qui n’amènent à rien (les pages « cul de sac » et pages d’impressions) sont à éviter et une page faisant office de plan du site est impératif pour faciliter l’accès aux pages qui se trouvent sous plusieurs niveaux de répertoires ou accessibles par un seul lien profond. Un bon lien se définit de la manière suivante : Il doit être en hypertexte (<a href=""></a>), en effet seul ce type de lien est pris en compte par les moteurs de recherche. Il doit utiliser un "anchor text" pertinent (mot clé ou expression) en rapport avec le contenu de la page cible. Chaque niveau doit être lié au précédent et à la page d’accueil. Pour chaque niveau, on doit donc mettre en place [AND 08]: Un lien pointant vers la page d’accueil du site. Un lien pointant vers le niveau initial.
  • 36. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 36 sur 90 1.3.3.2.1.2. Maillage externe Pour la popularité externe, il s'agit d'obtenir des liens depuis des sites partenaires ou "amis". Plus ces sites sont eux mêmes populaires et dans la même thématique que le site, plus ils vont donner de la popularité au site. Pour optimiser les échanges de liens avec d’autres sites, il est conseillé de rechercher des sites de thématique similaire ou complémentaire à notre site. Au niveau du lien en lui-même, il faut proposer directement un code HTML propre que le webmaster, avec qui l’on a décidé de faire un échange, et qui pourra l’ajouter directement dans son code source. Il faut donc préférer un lien comme celui-ci : Consultez <a href="vente-voiture.html">notre liste de voitures à vendre</a>. Plutôt qu’un lien comme celui-ci : <a href="vente-voiture.html">Cliquez ici</a> pour accéder à notre liste de voitures à vendre. Voici les règles que l’on peut appliquer concernant les liens externes: Il convient de varier les anchor text si l’on effectue de nombreux échanges. Il faut proposer le moins possible de liens sortants aux moteurs de recherche depuis une page populaire. Les liens sortants doivent le plus possible pointer vers un contenu traitant du même domaine, de la même thématique que la page qui les contient. 1.3.3.2.2. Le PageRank C’est un indice de popularité développé par Google, basé sur la topologie du Web, autrement dit sur l’étude des liens entre les pages du web. Le PageRank est une note (de 0 à 10) attribuée à une page web en fonction de la qualité des liens externes pointant vers cette page et de la nature des sites sur lesquels ces liens sont présents.
  • 37. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 37 sur 90 Le PageRank aussi appelé (PR), que nous pouvons voir est celui présenté par la Google Barre (figure 1-3-7), qui est différent du PageRank interne (score que Google utilise dans son algorithme de classement). Figure 1-3-7 : Google Barre Le PageRank interne est constamment mis à jour contrairement à celui présenté par la Google Barre puisque sa mise à jour dépend de la Google Dance qui est la période de mise à jour de l’index Google et qui se traduit par un classement différent des positions d’une même page sur un même mot clé selon les requêtes. L'algorithme du PageRank fait partie des critères utilisés pour déterminer le positionnement des pages dans Google. Ainsi, pour deux pages au contenu comparable, celle ayant le meilleur PageRank sera bien souvent classée devant, surtout pour les requêtes mots clés très concurrentielles. Voici la formule simplifiée du PageRank : Le PR d’une page (u) est égal à la somme des PR des pages (v) pointant vers (u), le tout divisé par le nombre respectif de liens provenant des pages (v). Quelques exemples sont nécessaires pour comprendre cette formule mathématique. Exemple 1 [AND 08]: La page A, qui ne contient qu'un lien sortant et qui bénéficie d'un PageRank (PR) de valeur 7 va fortement influer sur le PR de B et le faire augmenter en proposant un lien vers cette page.
  • 38. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 38 sur 90 De plus, comme le seul lien sortant de la page A va vers B, cette dernière page profite de 100 % de la capacité de vote de A (un lien étant considéré comme un vote par les moteurs de recherche) [GOO 09]. Exemple 2 [AND 08] : A (de PR 1) pointe vers B Dans ce cas, B profite toujours des 100 % de capacité de vote de A, mais cette dernière page étant très peu populaire, ce lien ne fera que faiblement augmenter le PR de B. Notons cependant qu'il n'influencera pas de façon négative le PR de B. Exemple 3 [AND 08] : A (PR 7) pointe vers B et C Dans ce cas, le PR de A est fort (7) et les liens vers B et C vont augmenter la popularité de ces deux pages. En revanche, du fait qu'il existe maintenant deux liens sortant de A (un vers B et un vers C), chacune des deux pages de destination va donc se partager pour moitié la capacité de vote de A. Un dernier exemple illustré :
  • 39. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 39 sur 90 Source : [URL:WB] – 16 juin 2009 On remarque que le PageRank se divise en autant de liens sortants qu’une page en a, toujours en se basant sur le capital de PageRank de la page d’origine. Pour augmenter son PageRank, ou plus précisément le PageRank d'une de vos pages la première chose à faire est d'obtenir des liens d'autres sites. Voici quelques conseils à ce sujet [AND 08], [LSF 08], [GOO 09]: Il faut essayer d'obtenir un grand nombre de liens vers sa page. Choisir en priorité des pages ayant un bon PageRank (attention à la distinction entre le PageRank d'un site et celui de ses pages : le PageRank d'un site est par définition celui de sa page d'accueil, mais le lien vers notre page sera peut-être situé sur une autre page ayant un très mauvais PageRank). Choisir des pages ayant le moins de liens sortants possible (surtout si leur PageRank est faible). Il faut vérifier que la page qui fait le lien est bien indexée par Google, sinon son PageRank vaut zéro et cela n’apportera rien. Il peut être plus efficace d'avoir un lien depuis une page au PageRank de 4 mais comportant peu de liens sortants qu'un lien depuis une page au PageRank de 6 mais comportant un grand nombre de liens sortants. Pour conclure le PageRank reste un algorithme complexe, finalement assez mal connu du fait que le moteur ne communique pas son algorithme. Le PageRank reste qu'un indice de popularité, la réalité des faits met en avant qu’avoir un bon PageRank ne suffit pas à lui seul à être bien positionné.
  • 40. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 40 sur 90 1.3.3.3. Les autres critères Nous avons vu dans ce chapitre les principaux points qu’il faut soigner pour rendre nos pages compatibles et réactives par rapport aux critères de pertinence des moteurs. D’autres critères ayant un poids plus faible que ceux cités au dessus existent et méritent que l’on s’y attarde. 1.3.3.3.1. Norme W3C W3C est l’Acronyme signifiant World Wide Web Consortium, il s'agit d'un organisme émettant des recommandations sur les bonnes pratiques du web à respecter. Il faut essayer au maximum de coder les pages Web de manière à les rendre conforme aux standards de la W3C [URL:OPW]. Les bénéfices se ressentent quand les robots indexent ces documents puisqu’ils attendent un document répondant aux normes. Voici un extrait des conseils de Google sur la création d’un code source optimisé [URL:GW3] : « Votre site peut apparaître correctement dans certains navigateurs même si votre code HTML est incorrect. Par contre, il n'est pas garanti qu'il s'affichera correctement dans tous les navigateurs, ni dans les versions à venir de tout navigateur. La meilleure façon de vous assurer que votre page présente le même aspect dans tous les navigateurs est de la créer en utilisant des codes HTML et CSS corrects, puis de la tester dans le plus grand nombre de navigateurs possible. Un code HTML correct et clair équivaut à une bonne police d'assurance. […] Bien que nous recommandions l'utilisation d'un code HTML correct, cela n'a normalement aucune incidence sur la façon dont Google explore et indexe votre site. » Le test de validation de la W3C est accessible à cette adresse : http://validator.w3.org/ Par la même occasion on peut valider également les feuilles de styles (.css), qui sont également sous la norme de la W3C, à cette adresse : http://jigsaw.w3.org/css-validator/ 1.3.3.3.2. Pages 404 personnalisées Lorsqu'une URL d’un site est mal tapée, un site génère une page d'erreur standard, qui n'apporte aucune information pertinente.
  • 41. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 41 sur 90 Figure 1-3-8 : Erreur 404 Source : DEMANGEL Jérôme et SOUCIET Alexy – Juillet 2009 Ce type de page n’incite pas l’internaute à poursuivre sa visite sur le site et risque d’engendrer un fort taux de rebonds (internautes qui quittent rapidement le site). Comme il n’est pas possible de maîtriser à 100 % la fiabilité des liens pointant vers les pages de son site (notamment en ce qui concerne les liens issus de sites externes), il est important de prévoir les erreurs et les liens « cassés ». Il est recommandé de réaliser une page d'erreur personnalisée [URL:GER], qui permettrait de poursuivre la visite sur son site. Ceci bénéficierait aux internautes et permettrait de limiter les pertes de trafic dues aux « liens cassés ». Idéalement la page d’erreur personnalisée doit être réalisée avec la même charte graphique que votre site et doit indiquer clairement au visiteur que la page recherchée n’existe pas. Il est conseillé de proposer également des liens de navigation afin d’inciter le visiteur à poursuivre sa visite sur le site. Il est très important de proposer un en-tête 404 sur cette page, de manière à ce qu'elle soit bien considérée comme une page d'erreur et que les URL correspondantes ne soient pas indexées. Pour rediriger le visiteur vers une page d'erreur personnalisée (nommée par exemple http://www.nom-de-domaine.fr/page-erreur.php) il suffit d'ajouter la ligne suivante dans un fichier .htaccess placé à la racine du site avec la syntaxe suivante : ErrorDocument 404 /page-erreur.php
  • 42. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 42 sur 90 1.4.Les obstacles et les freins au référencement naturel 1.4.1. Les framesets Problème : L'utilisation de frameset peut être un facteur gênant pour le référencement. Les robots des outils de recherche ne savent pas tout le temps accéder aux pages auquel le frameset fait référence [URL:GOC]. Ceux-ci ne pourront pas atteindre les textes visibles du site qui sont un des éléments les plus importants pour le référencement naturel. On remarque que si les robots peuvent atteindre les pages de contenus sources des frames, ce sont celles-ci qui sont présentées directement à l'internaute dans les pages de réponses sans le frameset d'origine. Exemple de code source d’une page utilisant un frameset : Représentation du frameset dans un navigateur : <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Frameset//EN" "http://www.w3.org/TR/html4/frameset.dtd"> <html> <head> <title>Page utilisant un Frameset</title> </head> <frameset cols="20%, 80%"> <frameset rows="100, 200"> <frame src="frame1.html"> <frame src="frame2.gif"> </frameset> <frame src="frame3.html"> </frameset> </html>
  • 43. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 43 sur 90 Solution : L’utilisation de la balise "noframes", à l’origine destiné aux navigateurs n’acceptant la fonctionnalité du frameset, est une solution possible pour indiquer un contenu facilement indexable pour les robots [URL:W3F]. Ici, le robot prendra en compte le contenu présent dans l’élément "noframes". L’autre solution consiste à construire les pages de manière classique (HTML, ASP, PHP, etc.) sans frames. <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Frameset//EN" "http://www.w3.org/TR/html4/frameset.dtd"> <html> <head> <title>Page utilisant un Frameset</title> </head> <frameset cols="20%, 80%"> <frameset rows="100, 200"> <frame src="frame1.html"> <frame src="frame2.gif"> </frameset> <frame src="frame3.html"> </frameset> <noframes> <p>Ce frameset contient : <ul> <li><a href="frame1.html">contenu de la frame1</a> <li><img src="frame2.gif" alt="intitule de l'image"> <li><a href="frame3.html">contenu de la frame3</a> </ul> </noframes> </html> Frame 3 Frame 2 Frame 1
  • 44. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 44 sur 90 1.4.2. Le Flash et JavaScript Problème : Nous l’avons vu, les robots des moteurs de recherche sont sensibles au texte visible et suivent les liens hypertexte pour indexer toutes les pages d'un site. Seulement le Flash n’est pas ou mal interprété par les robots [AND 08]. Si le site n’est visible qu’en flash, les robots sont confrontés à 2 problèmes, l’absence de texte et l’absence de liens. Pour le JavaScript, on se retrouve confronter au même problème, les liens créés au format JavaScript ne sont pas pris en compte par les robots des moteurs de recherche. Si le lien est classique : Cela ne lui posera aucun problème, il suivra ce lien. En revanche, si le lien est créé à l’aide d’un code JavaScript il ne sera pas suivi par les robots : Ce type de liens entrainera la non-indexation des pages vers lesquelles ils pointent. Solution : Le Flash n’étant que très peu compris par les robots, il faut essayer de doubler tout ce qui est en Flash par un contenu HTML. Pour le JavaScript, il est possible de créer des liens qui soient bien interprétés par les robots. On reprend le même lien que ci-dessus, mais rendu cette fois compatible : Le fait que l’adresse de la page distante se trouve maintenant dans la zone « href » fait en sorte que le robot va la reconnaître et la suivre pour indexer le document. Il est également plus rapide d'écrire "this.href", option qui permet de simplifier l'écriture et la maintenance <a href="http://www.monsite.fr/page.html" onclick="window.open(this.href); return false;">Texte du lien</a> <a href="JavaScript:window.open('http://www.monsite.fr/page.html', 'newWindow')">Texte du lien</a> <a href="http://www.monsite.fr/page.html">Texte du lien</a>
  • 45. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 45 sur 90 puisque this représente l'objet courant, donc la balise <a>, "this.href" est alors égale à l'url indiquée juste à gauche. En revanche, lorsque l’internaute cliquera sur le lien, c’est l’action JavaScript (onclick) qui sera prise en compte et qui se déroulera. Pendant plusieurs années, les moteurs de recherche ont travaillé pour l’indexation de ces technologies. A l’heure actuelle, le JavaScript et le Flash ne semble plus posé de problème pour Google selon le communiqué du 19 juin 2009 [GOO 09] et [URL:WBF]. Nous avons préféré de ne pas traiter ces solutions dans cette partie car nous n’avons pas le recul et la visibilité pour traiter le sujet. 1.4.3. Code source contenant du JavaScript et du style CSS Problème : La présence importante de ce type de code peut nuire à la bonne prise en compte du contenu textuel de la page qui est un critère important pour un bon référencement. En effet les robots des moteurs de recherche ne parcourent pas toujours la totalité du code source d'une page d’où l’importance de ne pas mettre de nombreux calculs et caractères spéciaux ({, }, [, ], !, +=, ++) qui peuvent être source d’erreurs de lecture (figure 1-4-1). Figure 1-4-1 : Code source HTML contenant JavaScript et CSS
  • 46. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 46 sur 90 Source : DEMANGEL Jérôme et SOUCIET Alexy – Juillet 2009 Solution : Il est préférable d’externaliser le code JavaScript et le style CSS dans des fichiers externes et appelés dans le code source HTML comme ceci (entre les balises <head>…</head>): Grâce à cette méthode, le code source est allégé ce qui facilite la lecture de celui-ci par les robots et la mise à jour du JavaScript ou du style devient plus facile. 1.4.4. Les sites à contenu dynamique Problème : Afin que les moteurs de recherche puissent positionner un site sur des requêtes mots clés, ils ont besoins d'analyser son contenu textuel. Si celui-ci est modifié à chaque passage de leur robot d'indexation, ils sont obligés de refaire les calculs. Or pour que le positionnement d'un site puisse se faire en référencement naturel, il faut que les robots des moteurs de recherche trouvent le même résultat dans l'analyse des pages pour plusieurs de leur passage. Figure 1-4-2 : Exemple de site à contenu dynamique <link rel="stylesheet" type="text/css" href="styles/design.css" /> <script type="text/javascript" src="js/form.js"></script>
  • 47. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 47 sur 90 Source : Impression écran du site Businesstravel.fr – Juillet 2009 Dans cet exemple le contenu textuel est mis à jour à chaque nouvelle actualité. Les robots verront donc un texte différent à chaque passage et ne pourront pas calculer la pertinence de cette page. Solution : Il est alors conseillé d'insérer sur les pages à contenu dynamique un bloc de texte statique d'au moins 300 caractères contenant les mots clés importants pour ces dernières et placer ce texte en haut du code source HTML. Pour un souci de mise en forme, l’utilisation des feuilles de styles CSS permet de faire apparaitre le texte en bas de page par exemple. Dans le même esprit il est tout à fait possible de créer en entête et pied de page, des phrases descriptives des activités du site de type Upline et Baseline. 1.4.5. Les url « exotiques » Les sites dynamiques sont des sites qui puisent leur contenu dans leurs bases de données pour en faire des pages générées automatiquement. Problème : Les sources dynamiques de contenu provoquent des url dites "exotiques" (c'est à dire contenant des caractères spéciaux). Ces pages ont des url de type : http://www.monsite.fr/produits/items.php?id=x&modele=y&option=z Les moteurs de recherche sont suffisamment avancés pour crawler tous types de structures d’url, même si elles sont complexes. Cependant, le fait de rendre les url le plus simple possible assure un meilleur passage du robot sur les pages du site. Nous avons vu au chapitre 1-3-3 que les noms des pages et des répertoires sont des critères importants pour les moteurs de recherche. Intégrer des mots ou expressions clés augmente fortement les chances de réactivité sur ces mots clés or dans ce cas aucun mot clé n’est présent dans l’url.
  • 48. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 48 sur 90 Solution : Il faut utiliser le moins possible d'url avec variables et privilégier les url réelles sans, si l’on ne peut pas faire autrement, il est important d'en limiter au maximum le nombre. Si l’hébergement le permet, il faut utiliser la technique de l’url Rewriting (réécriture des url dynamiques en url réelles du côté serveur). Pour cela il existe des modules qui viennent se greffer sur les serveurs. Ces modules se nomment : "Url Rewriting" sous serveur Apache : [URL:APA] "ISAPI" sous serveur IIS Microsoft : [URL:ISA] Ces modules permettent de réécrire à la volée les adresses des pages existantes par un jeu de réécriture en proposant des adresses de pages compréhensibles aux yeux des robots des moteurs de recherche. C’est en jouant sur les jeux de réécriture qu’il est possible de placer des mots clés stratégiques dans les adresses des pages. Voici quelques règles à respecter pour le nommage des url [BIR 09]: Pas de caractères accentués dans les noms des pages Pas d’espace dans les noms de pages ou les remplacer par des tirets Noms de pages et répertoires en minuscules Eviter les caractères exotiques (%, :, ?, +, =,etc.) Séparer les différents mots clés d’un même nom par des tirets Limiter le nombre de caractères total de l’url à 128 caractères maximum Eviter les répétitions de mots dans la même url Pour illustrer nos propos sur la réécriture d’url, nous allons détailler un exemple sous serveur Apache, le plus souvent utilisé avec le langage PHP. Prenons l’exemple suivant : http://www.monsite.fr/article.php?id=12 Le principe de l'url rewriting consiste à trouver les schémas des url à partir de leurs formes communes. Ici le schéma de l’url est id=[VALUE]. A partir du moment où l’on a identifié ces schémas, nous devons choisir un nouveau format d'url. Le nouveau format que l’on choisit pour nos pages est celui-ci : http://www.monsite.fr/catalogue/micro-ondes-c6/12.html
  • 49. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 49 sur 90 Voici le contenu du fichier .htaccess : Le contenu du fichier ci dessus peut être lu comme ceci : le serveur doit suivre les liens symboliques (Options +FollowSymlinks) activation du module de réécriture d’url (RewriteEngine on) la règle de réécriture (RewriteRule) commence (^) par « catalogue/ » suivi de caractères alphanumériques ou du caractère tiret « [a-zA-Z0-9-] » le tout au moins une fois (+). Le résultat est stocké dans la variable « $1 » (première parenthèse) suivi d’un slash / et d'une série d'au moins un chiffre « [0-9]+ », le résultat étant stocké dans la variable « $2 »(deuxième parenthèse) se terminant ($) par .html Les url réécrites au format statique doivent être appliquées dans le code source du site au niveau des liens. Options +FollowSymLinks RewriteEngine on RewriteRule ^catalogue/([a-zA-Z0-9-]+)/([0-9]+).html$ article.php?id=$2
  • 50. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 50 sur 90 1.4.6. Les redirections Il existe plusieurs façons de mettre en place une redirection d’une page web vers une autre : Javascript Balise meta refresh Redirection 301, 302 [GOH 09] Problème : Les redirections de type JavaScript et meta refresh ne sont pas acceptées par les robots des moteurs de recherche car outre le fait que les robots ont du mal à lire le JavaScript, celles -ci ont été souvent utilisées à des fins de tricherie (spam). De plus elles ne transmettent pas le Page Rank d’une page à l’autre d’où le désintérêt de les utiliser pour le référencement naturel. La redirection définie par la balise meta http-equiv="Refresh", donne l'ordre au navigateur de rediriger l'internaute vers une url spécifiée au bout d'un certain nombre de secondes. Exemple (redirection vers la page "page.html" au bout de 2 secondes) : Exemple de redirection de type JavaScript : La redirection 302 qui signifie "Moved Temporarily" quant à elle sert à indiquer aux robots qu’une page a été déplacée temporairement. Exemple de redirection d’une page avec un fichier .htaccess : Exemple de redirection 302 dans une page PHP : Redirect /old-rep/old-page.html http://www.monsite.com/new-rep/new-page.html <script language="javascript" type="text/javascript"> <!-- window.location.replace("http://www.monsite.com/ page.html"); --> </script> <meta http-equiv="Refresh" content="2;URL=page.html">
  • 51. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 51 sur 90 Solution : Seule la redirection 301 qui signifie "Moved Permanently" est utile au référencement naturel car elle permet de conserver l’historique de positionnement déjà acquis sur les moteurs de recherche par une ancienne page. Une fois mise en place, les robots remplaceront alors sans problème l’ancienne page vers la nouvelle en lui transférant également son Page Rank. Les règles de redirections peuvent être indiquées dans un fichier .htaccess ou dans l’en-tête de pages PHP ou ASP. Le fichier .htaccess doit se trouver dans l’ancien répertoire ou à la racine de l’ancien site contenant soit l’instruction RedirectPermanent ou RewriteRule (dans ce cas il faut impérativement utiliser le code R=301). Exemple (remplace chaque page de l’ancien site vers son équivalent sur le nouveau site) : Autre exemple (redirige plusieurs pages à la fois avec une expression régulière) : Exemple de redirection 301 dans une page PHP : header("Status: 301 Moved Permanently"); header("Location: http://www.votresite.com/page.html"); exit(); RewriteRule ^theme-([0-9]*).php themes-$1.htm [R=301] RedirectPermanent / http://www.nouveausite.fr/ header("Status: 302 Moved Temporarily”); header("Location: http://www.votresite.com/page.html "); exit();
  • 52. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 52 sur 90 1.4.7. Identifiants de session L’identifiant de session permet de mémoriser certaines informations en mémoire au travers d’une navigation unique, il est alors transmis dans l'url de la page (sous forme de variable). Exemple : http://www.focale86.com/enregistrer.php?PHPSESSID=0a8969e67bc46fc4dad5c887c6a944 Problème : Un robot enregistre les adresses complètes des pages auxquelles il accède. Ainsi, lorsqu’il va revenir, une nouvelle session se déclenchera avec une nouvelle url à indexer. Le contenu sera alors identique à la page précédemment visitée. Le moteur de recherche aura dans son index plusieurs fois la même page avec des url différentes. Les moteurs de recherche choisissent alors de ne pas indexer la page ou de la déclarer comme "Duplicate content" (chapitre 1.6.1.2). Solution : Il est donc conseillé de ne pas utiliser d’identifiants de session dans une url. Pour les enlever plusieurs solutions sont envisageables [URL:OSS]: En interdisant les identifiants de session dans l'url avec le fichier .htaccess : En interdisant le passage des identifiants de session dans l'url (en PHP): En transmettant le paramètre de session par cookie non obligatoire. /* Désactive la reconnaissance de l'identifiant de session dans l'URL */ ini_set('session.use_trans_sid', "0"); /* Autorisation de l'utilisation des cookies */ ini_set('session.use_cookies', "1"); SetEnv SESSION_USE_TRANS_SID 0
  • 53. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 53 sur 90 1.4.8. Les cookies Les cookies sont des fichiers qui sont stockés par les navigateurs sur le disque dur de l’internaute. Ils sont utilisés pour récupérer des paramètres et des données lors de la navigation d’un internaute d’une page à l’autre [AND 08]. Figure 1-4-3 : Exemple de cookies Source : DEMANGEL Jérôme et SOUCIET Alexy – Aout 2009 Problème : Comme nous l’avons vu précédemment les robots des moteurs de recherche n’acceptent et ne stockent pas les cookies. Le dépôt de cookie ne pose pas de problème sauf si l’accès au site est conditionné à l’acceptation de ce cookie. Prenons un exemple pour illustrer ce fait : Un cookie est envoyé par le serveur. Si le visiteur refuse ce cookie, il est envoyé vers une page d’explication l’invitant à accepter les cookies. Ce n’est qu’en acceptant ce cookie obligatoire que le visiteur accèdera à une page du site. Dans ce cas, la page ne sera pas indexée par les moteurs de recherche puisqu’ils n’ont pas la possibilité d’accepter ces
  • 54. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 54 sur 90 fichiers.
  • 55. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 55 sur 90 Solution : Il est donc conseillé : De ne pas rendre obligatoire l’acceptation des cookies. Si la technique impose l’utilisation d’un cookie, la demande de cookie doit se faire le plus loin possible dans l’arborescence des pages du site. Cela ne résout pas vraiment le problème puisque certaines pages risqueront de ne pas être indexées correctement. 1.4.9. Les accès par mot de passe Les pages qui ne sont accessibles que par mot de passe ne seront pas indexées par les robots des moteurs de recherche (voir chapitre 1.5.3). La seule solution, pour obtenir une visibilité sur les moteurs de recherche, est de créer une zone librement accessible aux robots et donc aux internautes non abonnés. 1.4.10. Les sites multilingues Problème : Certains moteurs de recherche pratiquent un filtrage linguistique des pages qu’ils indexent [BRI 09], c'est-à-dire qu’ils ignoreront par exemple une expression anglaise dans une page qui est supposée être en français. Solution : Dans le cas d’un site en plusieurs langues avec une seule adresse web, il est recommandé d’associer une adresse internet (ou un sous-domaine) spécifique à chaque version linguistique du site. www.mon-site.com/fr/ : pour la version française www.mon-site.com/en/ : pour la version anglaise L’idéal étant tout de même de posséder un nom de domaine dédié (www.mon-site.fr, www.mon-site.co.uk, www.mon-site.com) chose à laquelle les moteurs de recherche sont
  • 56. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 56 sur 90 sensibles.
  • 57. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 57 sur 90 1.5.Comment ne pas être référencé Dans les précédents chapitres, nous avons vu toutes les manières pour référencer son site. Mais il se peut que certaines pages ne doivent pas être indexées ou que nous souhaitions désindexées des pages déjà présentes dans les SERP. Il existe plusieurs façons de signaler ceci aux moteurs de recherche. 1.5.1. Le fichier robots.txt Le fichier « robots.txt » est le premier fichier que les robots d’indexation cherchent en visitant un site. Il leur permet de connaître les instructions de visites du site en question. Si le fichier n’existe pas, le robot peut accéder à toutes les pages du site qu’il est en train de visiter, considérant alors que rien ne lui est interdit (figure 1-5-1). Figure 1-5-1 : Exploration d’un site avec et sans robots.txt Source : Elliance (modifiée pour nos besoins) – 2009
  • 58. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 58 sur 90 Il nous faut, maintenant, savoir comment est structuré celui ci. Le protocole d’exclusion des robots (Robots Exclusion Protocol) définit le format du fichier « robots.txt ». Il a été standardisé et approuvé le 30 juin 1994. C’est un fichier texte qui doit être placé à la racine du site (www.mon-site.fr/robots.txt) et il doit sensiblement répondre à une syntaxe spécifique. Le nom et l’extension du fichier doit être obligatoirement en minuscule : "robots.txt" et non pas "Robots.TXT" ni "robot.txt". On y trouve 2 commandes : User-agent : permet de spécifier le robot concerné par les directives. La valeur « * » signifie "tous les robots". Disallow: permet d'indiquer les pages à exclure de l'indexation. Chaque page à exclure doit être sur une ligne à part et doit commencer par /. La valeur « / » seule signifie "toutes les pages du site". En remarque il ne doit pas y avoir de lignes vides dans un enregistrement, elle sert uniquement à délimiter plusieurs enregistrements [URL:ROB]. Voici une liste de commandes classiques appartenant au standard: Exclusion de toutes les pages pour tous les robots: Exclusion d'aucune page (équivalent à l'absence de fichier « robots.txt ») : User-Agent: * Disallow: / User-Agent: * Disallow: Autorisation de GoogleBot : Exclusion de GoogleBot : User-Agent:GoogleBot Disallow : User-Agent: * Disallow: / User-Agent: GoogleBot Disallow: / User-Agent: * Disallow: Exclusion d'une page : Exclusion de plusieurs pages : User-Agent: * Disallow: /rep/rep2 /page1.html User-Agent: * Disallow: /rep/rep2/page1.html Disallow: /rep/rep2/page2.html Disallow: /rep/rep2/page3.html Exclusion de toutes les pages d'un répertoire et ses sous-dossiers : Exclusion de toutes les pages ou dossier se nommant "rep":
  • 59. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 59 sur 90 User-Agent: * Disallow: /rep/ User-Agent: * Disallow: /rep Une extension du standard a été mise au point par les principaux moteurs de recherche, incluant d’autres fonctionnalités. Si dans le standard de base on ne pouvait pas inclure l’astérisque (*) dans la directive "Disallow", il est à présent possible de l’ajouter, il en est de même pour le point d’interrogation (?) et le symbole ($) [URL:GOR]. L’astérisque (*) remplace une séquence de caractères : Le point d’interrogation (?) est utilisé pour les adresses qui contiennent des paramètres (contenant donc un point d’interrogation) : Le symbole ($) indique la fin d’une URL : L’extension du standard permet aussi de déclarer un fichier « sitemap.xml » (vu au chapitre 2) via la directive "Sitemap" : Sitemap: http://www.nom-de-domaine.fr/sitemap.xml User-agent: Googlebot Disallow: /*.pdf$ User-agent: Googlebot Disallow: /*? User-agent: Googlebot Disallow: /private*/
  • 60. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 60 sur 90 1.5.2. La balise meta robots Elle est issue du même standard que le « robots.txt », mais contrairement au « robots.txt » qui prend en compte toute l’arborescence du site, la balise meta robots doit figurer dans toutes les pages dont on souhaite filtrer l’accès. Elle suit les mêmes règles que les balises Meta décrites dans le chapitre 1.3.3.1.4 à savoir qu’elle doit être insérer à l’intérieur des balises <head>…</head>. Elle est insensible à la casse et se présente sous la forme suivante : <meta name="robots" content=" "> La valeur de l'attribut 'content' doit être spécifiée en mettant une ou deux valeurs (séparées par une virgule). Les valeurs possibles sont les suivantes : index : autorise l'indexation du fichier noindex : interdit l'indexation du fichier follow : autorise le robot à suivre les liens du fichier nofollow : interdit au robot de suivre les liens du fichier Voici toutes les combinaisons possibles : A noter au passage que <meta name="robots" content="index, follow"> Les syntaxes suivantes sont équivalentes : <meta name="robots" content="all"> et <meta name="robots" content="index, follow"> <meta name="robots" content="none"> et <meta name="robots" content="noindex, nofollow"> Remarque : si une page est interdite dans le fichier « robots.txt », le contenu d’une éventuelle balise meta robots dans cette page ne sera donc jamais lu par les robots des moteurs de recherche puisque ils iront regarder en premier le fichier « robots.txt ». D’après [URL:SRM] et [URL:ANN], une extension du standard a été crée pour les besoin des moteurs de recherche incluant 4 attributs : noarchive, noodp, nosnippet, noydir. <meta name="robots" content="index, follow"> (équivalent à l’absence de la balise meta robots) <meta name="robots" content="noindex, follow"> <meta name="robots" content="index, nofollow"> <meta name="robots" content="noindex, nofollow">
  • 61. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 61 sur 90 <meta name="robots" content="noarchive"> Cet attribut demande aux moteurs de recherche de ne jamais afficher le « cache » link. Les moteurs de recherche continuent d’archiver le contenu mais doivent alors le garder secret. <meta name="robots" content="nosnippet"> Cet attribut demande aux moteurs de recherche de ne pas afficher de « snippet » dans les résultats de recherche, c'est-à-dire la description ou le court extrait de la page qui est affiché dans les SERP. <meta name="robots" content="noodp"> Cet attribut s’adresse aux moteurs de recherche de Google, Yahoo et Microsoft et leur demande de ne pas utiliser le titre et la description provenant de l’annuaire DMOZ dans les SERP. <meta name="robots" content="noydir"> Cet attribut s’adresse uniquement au moteur de recherche de Yahoo et demande aux moteurs de recherche utilisant la technologie de Yahoo de ne pas utiliser le titre et la description provenant de l’annuaire Yahoo Directory dans les SERP. 1.5.3. Répertoire protégé par mot de passe Le contenu du site qui doit être confidentiel aux yeux des moteurs doit être dans un répertoire protégé par un mot de passe. Ainsi les robots d’exploration ne pourront pas accéder à ce contenu et par conséquent ne l’indexeront pas [URL:GOB]. Exemple de sécurisation d’un répertoire avec un serveur Web Apache : .htaccess .htpasswd user:h8Tx7TiBAwYvg user2:SX4P4r5fNw3so AuthName "Authentification" AuthType Basic AuthUserFile /home/monsite/www/admin/.htpasswd AuthGroupFile /dev/null require valid-user
  • 62. Le référencement naturel : comment bien référencer et positionner son site internet aujourd’hui ? Page 62 sur 90 1.5.4. Demande urgente de suppression de contenu à Google Une des fonctionnalités des "outils pour webmaster" de Google (figure 1-5-2), permet de demander la suppression en urgence de pages web, de documents, d’un répertoire, de la totalité du site ou de la copie en cache d’un résultat de son index. Figure 1-5-2 : Extrait des outils pour les webmasters section "Accès du robot d’exploration" Source : DEMANGEL Jérôme et SOUCIET Alexy – Aout 2009 Selon notre choix, [URL:GUS] nous informe de la procédure à suivre pour le bon déroulement des opérations. Par exemple pour supprimer une page ou une image on doit : Soit vérifier que les demandes d'accès à la page renvoient le code d'état HTTP 404 ou 410 Soit s’assurer que les pages à supprimer ont été bloquées à l'aide d'un fichier robots.txt Soit s’assurer que les pages à supprimer ont été bloquées à l'aide d'une balise meta noindex.