Les robots d'indexation et Koha

Nous avons fait le constat ces 2 derniers mois que la part des requêtes provenant des robots de type moteur d'indexation (web crawlers, web spider) est grandissante, aussi bien chez les installations clientes que chez nos hébergés.

Ces robots d'indexation rentrent par une page et vont ouvrir tous les liens qu'ils trouvent dans l'opac. Leur objectif est de collecter les urls et le contenu des pages pour les rendre disponibles dans leur moteur de recherche. Les principaux robots observés sont Google, Baidu et Bing. Certains le font plus calmement que d'autres. L'immédiate conséquence est que selon l'agressivité des robots, ils vont occasionner des ralentissements gênant les activités quotidiennes.

Un des moyens de bloquer cette activité est de mettre en place un petit fichier robots.txt placé dans le DocumentRoot d'apache (//koha-tmpl) qui est sensé être lu par les robots d'indexation avant d'indexer. Il contient des instructions spécifiques pour réguler l'utilisation de ces "intrusions".

koha@server $ cat ~/src/koha-tmpl/robots.txt
User-agent: *
Disallow: /

Nous voulons généraliser l'utilisation de ce fichier en l'intégrant à nos versions par défaut. A la prochaine mise à jour majeure des installations, il sera déployé. (Si nos clients ne désirent pas l'avoir par défaut, il leur suffit de le supprimer.) Une des conséquence d'avoir ce fichier est que le nombre des requêtes à l'opac sera vraiment diminué (observation d'un diviseur de 5) allégeant ainsi le serveur d'autant et l'autre conséquence est que votre opac ne sera plus analysé, donc plus indexé et donc plus trouvable dans les moteurs de recherche.

Suivi sur twitter

https://twitter.com/#!/mdelhaye/status/179500208193941504

Clairement, la solution est basique... Nous pensons à l'affiner et voir ce qu'il est possible de faire par la suite (sitemap, nofollow etc.). Ça n'existe pas à ma connaissance dans Koha aujourd'hui (et peut être que je me trompe).

Poster un nouveau commentaire

Le contenu de ce champ sera maintenu privé et ne sera pas affiché publiquement.
  • Les adresses de pages web et de messagerie électronique sont transformées en liens automatiquement.
  • Tags HTML autorisés : <a> <em> <strong> <cite> <code> <ul> <ol> <li> <dl> <dt> <dd>
  • Les lignes et les paragraphes vont à la ligne automatiquement.

Plus d'informations sur les options de formatage

Type the characters you see in this picture. (verify using audio)
Type the characters you see in the picture above; if you can't read them, submit the form and a new image will be generated. Not case sensitive.