Comment bloquer Semalt, Darodar et les autres spécialistes du “spam referrer”

C’est bizarre, et vous l’avez sûrement remarqué depuis quelques mois, les statistiques de vos sites ecommerce sont de plus en plus polluées par ces Semalt, Darodar, et autres o-o-6-o-o, je vous propose de voir pourquoi certains se casse la tête à faire cette pollution et comment s’en débarrasser.

Mais tout d’abord un rappel sur l’origine de l’information “Source” ou “HTTP REFERRER” qui nous vient du début de la création du protocole HTTP.

Qu’est-ce que le Referrer / Source ?

Un petit rappel, le “http referer” / “http referrer” ou “source” dans Google analytics est là pour vous aidez à connaître la provenance de vos visiteurs. À chaque fois qu’un visiteur vient d’un site Internet en cliquant sur un lien vers vous, il “emporte” avec lui sa provenance et la communique à votre serveur qui le met dans ses logs.
 
 
 
 
 
Voici un exemple d’une ligne de “logs HTTP” :

www.blackchili.fr 217.72.207.182 – – [23/Mar/2015:05:06:24 +0100] “GET / HTTP/1.1” 200 11415 “https://www.miss-seo-girl.com” “Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)”

Dans le cas ci-dessus, la source est “www.miss-seo-girl.com”, ce qui est intéressant pour avoir une idée des sources de trafic sur son site. Cette information est celle que l’on va par exemple avoir en consultant les statistiques de son site e-commerce.

Dans Google Analytics : Acquisition -> Tout le trafic -> Source/Support.
 

Exemple de sources polluées dans Google Analytics

Spam Referrer

 

Avoir ses sources remplies de “spam referer” est un problème pour :

  • Avoir une bonne vision de ses sources et donc pouvoir faire un retraitement sur Excel par exemple.
  • Disposer d’une donnée correcte en terme de taux de rebond, car en général ces robots faussent le taux de rebond.
  • Avoir un calcul de fréquentation de certaines pages non biaisé.
  • Le maniaque des statistiques nickel qui du coup souffre d’insomnie …

En résumé, tout comme pour le trafic des “bots” ou des “spiders” de Google, majestic, aHrefs, … il est important de filtrer leur trafic pour disposer d’informations “propres” et utiles aux statistiques.

Pourquoi des personnes réalisent ces actions de “spam referer” ?

Naturellement pour gagner de l’argent. Oui, mais comment ?
En utilisant une des caractéristiques des humains : la curiosité !

En effet, qui n’a pas déjà cliqué sur une adresse dans ses statistiques pour savoir à quoi ressemble la source de son trafic. Cette curiosité est même essentielle quand il s’agit de trafic payant ou qui va générer de la monétisation. Je ne jetterai donc pas la première pierre …

Ce clic, c’est ce que recherchent les Spammers, car ils vont rediriger le trafic vers un lien d’affiliation qui va se transformer en argent pour eux.

Exemple : je clique sur forum876567.darodar.com dans mes statistiques et je me retrouve redirigé en premier vers un lien d’affiliation puis vers le site cible (en ce moment c’est aliexpress le site d’alibaba, le grand concurrent d’amazon).

Oui, mais alors est-ce rentable pour les spammers ?

Et bien oui !

Ils utilisent des robots pour laisser des traces dans les statistiques de fréquentation de centaines de millions de sites web, générant des millions de visites sur Aliexpress (c’est un exemple) le tout transformé au passage en argent par l’affiliation (exemple : Aliexpress Affiliation)

Bon OK, mais comment je me débarrasse de ces pollueurs ?

il existe plusieurs méthodes :

  • La première consiste à paramétrer Google analytics pour qu’il ne référence pas les robots, c’est important d’activer cette fonction, mais cela ne suffit pas.
  • La deuxième est de mettre des règles de filtrage dans son fichier .htaccess, c’est la plus efficace, mais elle comporte un petit inconvénient, il faut régulièrement mettre la liste à jour
  • La dernière, et si vous avez WordPress, c’est d’utiliser le très bon plug-in Spam Referrer Block

Je reprends et je détaille :

Pour Google Analytics il faut modifier cette option

  • Aller dans le menu d’administration
  • Puis dans “Vue”
  • Puis dans “Paramètres de la vue”
  • Puis activer le “Filtrage des robots”
  • N’oubliez pas d’enregistrer votre choix 😉

La méthode via des règles dans .htaccess

Je vous laisse consulter ces deux sites qui expliquent bien la démarche (ne ratez pas les commentaires) :

Pour Prestashop

Il n’existe pas de plugin dédié à ma connaissance, d’ailleurs sur le forum de prestashop deux méthodes sont proposées et elles utilisent toutes les deux des règles dans le fichier .htaccess. Je vous laisse les découvrir : Sujet sur le blocage du Spam Referrer pour Prestashop

Pour WordPress

Il existe un plugin (c’est récent), il est mis à jour et fonctionne très bien, voici mes conseils :

  • Installer ce plugin : WordPress Plugin SpamReferrerBlock
  • Pour le paramétrage voici les options que je conseil :
  • General Options :
    • Check only the first request of each session (faster but weaker) : OUI, sauf si vous avez un site SUPER rapide
    • Keep blacklist up-to-date (daily auto-update) : OUI
    • Periodically (weekly) send my local Blacklist to help improve this awesome plugin ( 😀 ) : OUI, uniquement si comme moi vous faites le choix de contribuer à la liste
    • What should we do to the evil spammers ? : personnellement j’ai choisi l’erreur 405

Mes statistiques Google Analytics sont déjà polluées, comment les nettoyer ?

Même si vous mettez en place une des protections expliquées ci-dessus, il y a de fortes chances pour que vos statistiques soient déjà bien mazoutées. Je pourrais vous dire d’aller dans la galerie de segments fournie par Google et d’ajouter un segment déjà créé, mais les noms de domaines des spammers évoluant régulièrement cela ne vous aidera que temporairement.

Voici comment créer un segment de filtrage sous Google Analytics et donc comment devenir autonome pour le mettre à jour :
 

  • Allez dans : Acquisition -> Tout le trafic -> Source/Support.
  • Puis créez un segment :
  •  
    Google-Analytics---creation-Segment
     

  • Donnez un nom au segment : AntiSpamReferrer par exemple
  • Choisissez : Avancé -> Conditions
  • Puis “Exclure” : pour exclure le trafic pollué
  •  
    Parametrage-segment-google-analytics---1
     

  • Remplissez les sources polluantes en suivant cet exemple et en ajoutant les pollueurs qui vous concernent (présents dans vos sources) :
  •  
    Parametrage-segment-google-analytics---2
     

  • Sauvegardez et voici ce que vous obtiendrez :
  •  
    Parametrage-segment-google-analytics---3
     

  • Choisissez ensuite de supprimer le segment de base “tout le trafic”, rassurez-vous il est toujours disponible et il reviendra de lui-même à votre prochaine visite sur Google Analytics :
  •  
    Parametrage-segment-google-analytics---4
     

    Vous aurez ainsi une vue de vos sources de trafic sans les Spammers. Vous pouvez continuer à utiliser Google analytics tout en gardant ce segment, cela vous permettra de voir l’impact de ces derniers sur vos statistiques.

    Sinon il y a la solution simple et rapide :

    Si vous n’avez pas envie de faire le segment, j’ai mis à disposition sur la bibliothèque d’Analytics un segment avec une très grande liste d’adresses que je maintiens à jour : Trafic sans spam par Blackchili.fr.
     
     
    Date de dernière mise à jour : 24-2-2016

     
     
    Voici une petite liste non exhaustive des URLS utilisées par les spammers :

    .darodar.com
    76brighton.co.uk
    alienpayday
    artobox
    axisalternativementalhealth
    bestsub.com
    bestwebsitesawards.com
    blackhatworth.com
    buttons-for-website.com
    casinobonustips.com
    cenoval.ru
    civilwartheater.com
    co.lumb
    co.lumb.co
    cukwiki.com
    descargar-musica-gratis.net
    econom.co
    entourank.com
    forum20.smailik.org
    hulfingtonpost.com
    humanorightswatch.org
    ilovevitaly.co
    ilovevitaly.com
    ilovevitaly.ru
    kambasoft.com
    lomb.co
    lumb.co
    make-money-online.7makemoneyonline.com
    medispainstitute
    o-o-6-o-o.com
    paparazzistudios.com.au
    powitania.pl
    priceg.com
    ranksonic.info
    s.click.aliexpress.com
    savetubevideo.info
    see-your-website-here.com
    semalt.semalt.com
    seoairport.com
    seokicks.de
    serw.clicksor.com
    sharebutton.net
    similarpages.com
    simple-share-buttons.com
    social-buttons.com
    sq01
    tasteidea.com
    torontoplumbinggroup.com
    webstatsdomain.org
    www1.social-buttons.com Unknown Local
    ymlp.com

    Bonne chasse au Spam !

     
    Pour plus d’information sur le HTTP Referrer :

     
    Noter cet article :

    4.2/5 – (9 votes)

     

    14 Commentaires

    1. NinjaLinker says:

      Merci pour le clin d’œil

      La méthode via Analytics permet de ne pas surcharger la vitesse du serveur 😉

      • Régis CHOURAQUI says:

        De rien, j’ai essayé de faire quelque chose de complémentaire. La méthode via Google Analytics permet effectivement de ne pas alourdir le serveur, mais elle ne filtre que ce que Google connaît, donc pas tout et pas tout correctement.

        Ils sont forts ces Spammers.

    2. Yanina says:

      Super article ! Il m’est d’une très grande aide. Merci bien 🙂

    3. cyril says:

      merci pour tes explications c’est super !

    4. ryo says:

      Bonjour cet article m’a beaucoup aidé pour réduire les spam type sexiali.com. Mais est-ce légal ce pratiquer ces méthodes ? Aurais vous des liens pour plus d’information car je serais intéressé d’approfondir le sujet et même en faire moi même pour comprendre les mécanismes. Merci

      • Régis CHOURAQUI says:

        La pratique de ces méthodes est à la limite de la légalité, pour qui est de liens supplémentaires je vous invite à faire une recherche sur Internet et vous trouverez de nombreux articles sur ce sujet épineux qui ne concerne que Google Analytics.

    5. Raphalen says:

      Merci pour tes infos. J’en ai Marrrrre des Spammers…
      Au fait pourquoi supprimer le filtre ? Quel utilité ?

      • Régis CHOURAQUI says:

        Je te remercie.
        La suppression du filtre n’a rien d’obligatoire, c’est juste pour te permettre de naviguer dans tes statistiques sans les spams et en disposant juste des données nettoyées. Dans le cas contraire les deux segments sont présents à l’écran : au total + AntiSpamReferrer ce que je trouve moins confortable.

    6. FRADIN says:

      Bonjour,

      Merci pour cet article que j’ai trouvé très complet et fort utile!
      Je lirai avec attention les autres posts qui peuvent s’avérer intéressant pour mon job et ma connaissance perso. 🙂

    7. Camille says:

      Merci beaucoup pour cet article très utile pour comprendre d’où venaient toutes ces sessions bizarres dans nos stats et comment en faire abstraction !
      J’avoue que je reste perplexe devant le mécanisme et la manière dont cela engendre du cash pour ces spammeurs, mais bon…
      Bonne journée !

    8. Olivier says:

      Bonjour,
      J’ai depuis quelques jours des connexion depuis l’Ukraine. 30 ou 40 visites simultanées qui faussent mes statistiques. Pourtant dans “Acquisition, tout le trafic, sites référents” il n’y a rien. Ces visites semblent être classées comme “direct” ou “organic search”. J’ai déjé plusieurs filtres dans mon compte mais cette fois je n’arrive pas à trouver une URL liée à ces spammeurs.
      Comment les filtrer ?

      • Régis CHOURAQUI says:

        Bonjour Olivier,
        Si j’ai bien compris, un pirate trompe le script de Google Analytics et lui injecte des visites supplémentaires depuis l’Ukraine.
        Si vous désirez retirer ces visites de vos statistiques, je vous propose de créer un segment excluant l’origine géographique provenant de l’Ukraine. Vous pourrez ainsi voir vos statistiques sans cette “pollution”.

    9. Virginie says:

      Bonjour, merci beaucoup pour toutes ces explications, cela m’a beaucoup aidé !
      J’ai eu un pic d’affluence sur 2-3 jour et je n’ai pas compris pourquoi. Je suis passé de 800 visiteurs à 7500 au plus fort… bizarre quoi. Du coup j’ai chercher sur google analytic et j’ai vu qu’il y avait un référent intitulé “googleapis.com” mais également “worpdress android app. Les noms ne me paraissent pas bizarres mais en cliquant dessus c’est un message d’erreur qui s’affiche sur une page web blanche et non une page web classic avec du texte et photos comme cela est le cas pour les autres sites référents. Savez vous si ce sont des spams ? Je ne voudrais pas bloquer de bon lien.
      Je vous remercie par avance pour votre aide

      • Régis CHOURAQUI says:

        Bonjour,

        Pour répondre à votre question, il faudrait faire une étude plus poussée, et que j’ai accès à vos données Google Analytics dans un premier temps.
        Mais ceci ressemble effectivement à du Spam. Vous pouvez aussi essayer d’utiliser ahrefs pour essayer de voir ce qui se passe en termes de sites web pointant des liens vers votre site.

    Répondre à Camille Annuler la réponse

    Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *