La guerre du SPAM

Classé dans : À la une, Non classé | 0

D’où vient donc ce mot SPAM (ou courrier indésirable en bon français) ? On trouve son origine dans un sketch des Monty Python où il désigne un jambon en boite, terme qui fut plus tard repris dans le numérique pour désigner des messages envahissants et ô combien indésirables. Le premier spam fut envoyé en 1978 par Gary Thuerk sur l’ancêtre d’internet (ARPANET). Mais en pratique, qu’est-ce que le Spam ?

Tout comme le terme virus, très large dans sa définition, on peut le classer en plusieurs catégories selon l’objectif visé :

  • des publicités pour des produits, logiciels ou transactions financières ;
  • les SCAMs : courriels dans lesquels on vous sollicite pour récupérer de l’argent ;
  • le phishing : leurre par courriel ayant pour but de dérober à des individus leurs identifiants de connexion et mots de passe ou leurs numéros de cartes bancaires ;
  • enfin les mails avec pièces jointes contenant souvent un malware.

Il faut tout d’abord différencier le spam de l’envoi d’un mail à un grand nombre de destinataires (pratique à éviter, les listes de diffusions sont la pour ça).

Ainsi l’indice de Breidbart définit le spam avec la formule suivante :

Si le résultat est supérieur a 20, le message peut être considéré comme un spam. Attention cependant, il n’y pas d’échelle de temps dans cet indice, ce qui fausse un peu le résultat.

Si pour le phishing et le SCAM, les motivations sont assez compréhensibles (soutirer de l’argent ou des codes d’accès), celles associées au  spam « standard » peuvent paraitre beaucoup plus floues mais il n’en est rien car les spammeurs sont souvent rémunérés au nombre de mails envoyés. Il s’agit tout simplement de la version numérique du prospectus qui s’entasse dans les boites au lettres traditionnelles.

Certaines études indiquent que jusqu’a 80% des mails peut être considéré comme spam au sens large. On évalue la quantité moyenne à 5600 messages indésirables par mois et le temps consacré au tri à 10% de sa journée. Un perte de productivité qui peut représenter jusqu’à 120 heures par an par salarié.

Il a de plus été démontré que l’utilisation abusive d’échanges électroniques avait un impact écologique du à la surconsommation électrique des centres de données et les ordinateurs. Les chercheurs ont retenu la quantité d’énergie produit par l’ordinateur pour créer, envoyer, ouvrir, effacer et filtrer un courrier indésirable. L’étude est arrivé a la conclusion qu’un utilisateur moyen en entreprise était responsable de la production de 131 kg de CO2 dont 29kg rien qu’en SPAM ! A l’échelle de la planète on arrive au chiffre impressionnant de 17 millions de tonnes de CO2 soit 0,2 % des émissions mondiales !

Comment lutter ?

Commençons par étudier les filtres disponibles. Ils auront pour but d’analyser les mails et de déterminer si il s’agit de spam ou pas.

Challenge-response

Cette méthode est très simple, elle part du principe qu’un spammeur ne pourra pas répondre à une demande. Avec ce système, le serveur de messagerie envoie une demande de réponse manuelle à l’expéditeur. En cas de non-réponse, le mail sera considéré comme indésirable :

Les filtres sur le contenu

Comme son nom l’indique, un filtre va s’intéresser au contenu du message (objet, contenu du mail en lui même) et rechercher des termes spécifiques. Ce système basé sur des listes peut être source de « faux positif » ; les listes ne sont pas intelligentes et peuvent mal réagir a certains mots sans prendre en compte le contexte. Par exemple, les messages contenant des noms de produits pharmaceutiques pourront être considérés à tort comme des publicités ; peu souhaitable pour des laboratoires ou organismes de recherche ! Mais nul doute que le machine learning permettra d’améliorer ces analyses…


Les listes noires ou Black Lists

Les listes noires sont très simples, il s’agit de listes d’adresses IP ou de noms de domaines qui sont considérés émettrices de courrier indésirable.

Les listes grises ou Grey Listing

Ce filtre va par defaut renvoyer à l’expéditeur une erreur de réception pour voir si celui ci va renvoyer une seconde fois le mail. Si le deuxième mail est envoyé, il sera alors accepté. Ce filtre part du principe que les spammeur ne renvoient pas une deuxième fois le mail en cas d’erreur.

La réputation

Les serveurs de messagerie sont capables d’établir une réputation basée sur vos différentes campagnes Emails, ainsi que sur le contenu. Il est donc important de faire attention à ce qu’envoient vos collaborateurs car la réputation est basée sur le nom de domaine ou sur l’adresse IP publique qui envoie le mail.
Filtres bayésiens

Ce type de filtre se base sur l’expérience, c’est-à-dire qu’il va regarder ce qui est noté comme spam dans votre boite mail pour automatiquement signaler les suivants. Il utilise pour cela un algorithme de probabilité.

Il existe deux catégories de filtres, les filtres « poste de travail » et les filtres « serveur ». Les filtres « poste de travail » vont être principalement les filtres bayésiens intégrés aux logiciels standards de messagerie (Mail Outlook ou autres). Il est aussi possible pour l’utilisateur de faire ses propres règles et ainsi bannir automatiquement certain types de mails.Coté serveur, il s’agit ici dans la plupart des cas de placer avant le serveur de messagerie un système comprenant un ensemble de filtres.

On peut par exemple citer MailinBlack, qui va se placer AVANT le serveur de messagerie et analyser les mail avec les différents filtres déjà présentés. En cas de doute, un mail est envoyé au destinataire qui pourra alors valider ou non la réception. Cette solution permet de limiter grandement le Spam mais implique une action du coté de l’expéditeur.

Yohan Barian, consultant iNet SystemY. Barian