Après avoir étudié les visites "humaines" des logs de mon log, je me suis intéressé visites effectuées par des bots identifiables par leurs userAgent... Et on peu dire qu'elles sont nombreuses.
Les grands moteurs de recherche sont bien sur présents.
Google
"Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
Bing (Microsoft)
"Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)"
"msnbot-media/1.1 (+http://search.msn.com/msnbot.htm)"
Yahoo! (Je croyais qu'ils utilisaient le moteur de recherche de Bing?)
"Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)"
"Yahoo! Slurp China"
Mais aussi quelques moteurs moins connus
Exalead (Français)
"Mozilla/5.0 (compatible; Exabot/3.0; +http://www.exabot.com/go/robot)"
Voilà (Français)
"Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.8.1) VoilaBot BETA 1.2 (support.voilabot@orange-ftgroup.com)"
Yacy (un moteur libre et décentralisé que j'ai découvert grace à mes logs)
"yacybot (webportal-global; amd64 Linux 3.6.10-nrj-desktop-1rosa; java 1.7.0_b147-icedtea; Europe/fr) http://yacy.net/bot.html"
Baidu (Chinois)
"Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
Jike (Chinois)
"Mozilla/5.0 (compatible; JikeSpider; +http://shoulu.jike.com/spider.html)"
Yandex (Russe)
"Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
"Mozilla/5.0 (compatible; YandexImages/3.0; +http://yandex.com/bots)"
Blekko
"Mozilla/5.0 (compatible; Blekkobot; ScoutJet; +http://blekko.com/about/blekkobot)"
gimme60
"gimme60 (Gimme60 Store ID Bot; gimme60.com)"
En plus de ces moteurs de recherches, dont on comprend facilement l'utilité, on trouve aussi des bots extracteurs de données dont la fonction est moins visible sur Internet.
alexa.com (un site qui note les autres sites)
"ia_archiver (+http://www.alexa.com/site/help/webmasters; crawler@alexa.com)"
Un bot de Twitter
"Twitterbot/1.0"
Et celui d'un site qui gravite autour de Twitter
"Twitmunin Crawler http://www.twitmunin.com"
Et de nombreuse entreprise qui collectent et croise des données pour les vendre à leurs client
80legs
http://www.80legs.com/webcrawler.html;) Gecko/2008032620"
panscient
"panscient.com"
Netcraft
"Mozilla/5.0 (compatible; NetcraftSurveyAgent/1.0; +info@netcraft.com)"
ahrefs
"Mozilla/5.0 (compatible; AhrefsBot/4.0; +http://ahrefs.com/robot/)"
gnip
"UnwindFetchor/1.0 (+http://www.gnip.com/)"
Topsy
"Mozilla/5.0 (compatible; Butterfly/1.0; +http://labs.topsy.com/butterfly/) Gecko/2009032608 Firefox/3.0.8"
Et quelques petits bots dont je n'ai pas réussi à connaitre le rôle
"Mozilla/5.0 (compatible; Ezooms/1.0; ezooms.bot@gmail.com)"
"Web front page analyser. robots.txt complaint (norw.acd.inst@gmail.com)"
La prochaine fois je vous parlerais des traces laissées par des visiteurs encore plus geek que moi!
Aucun commentaire:
Enregistrer un commentaire