Assiste.com - Sécurité informatique - Vie privée sur le Web - Neutralité d'Internet Assiste.com - Sécurité informatique - Vie privée sur le Web - Neutralité d'Internet

Harvester

Harvester - Famille de logiciels de balayage du Web afin de collecter des adresses courriel automatiquement en vue de la constitution de fichiers de destinataires de spams.

cr  01.04.2012      r+  21.08.2020      r-  20.04.2024      Pierre Pinard.         (Alertes et avis de sécurité au jour le jour)

La constitution de fichiers d'adresses courriel se fait de diverses manières, seules ou simultanées. L'une d'entre elles est l'usage de logiciels de balayage du Web afin de collecter des adresses courriel.

On appelle ces logiciels des « moissonneuses » ou « moissonneuses d'adresse courriel » ou, en anglais, des « harvester » ou « e-mail harvester » ou « e-mail extractor ». Certains sont gratuits (je ne vais pas vous les donner). Les éditeurs de tels outils sont de véritables valets des spammeurs lorsqu'ils ne sont pas des spammeurs eux-mêmes.

Description d'une « moissonneuse d'adresses courriel » par son éditeur.

Ceci est édifiant sur la capacité de ces produits à trouver des adresses e-mail directement inscrites quelque part, y compris dans les bases de données Oracle ou Access, mais aussi à les discriminer et à les deviner.

  • Recherche depuis les moteurs et annuaires régionaux, nationaux et internationaux. Les moteurs et annuaires sont régulièrement mis à jour lors de votre connexion et en automatique.
  • Recherche depuis une URL directe: vous entrez une URL et AspiMail butine sur le site en fonction de la profondeur de recherche indiquée.
  • Recherche des e-mails sur votre disque dur en scrutant des répertoires entiers. Vos disques durs en général regorgent d'adresses e-mail de personnes et de sociétés qui vous ont contacté. AspiMail scrute des répertoires et sous-répertoires entiers pour en ramener toutes les adresses e-mail.
  • Recherche sur des fichiers HTML générés par Copernic par exemple.
  • Recherche selon divers critères : géographique - pays, état ou province, ville... langue, activité, centre d'intérêt.
  • Gestion des URLs et e-mails en bases de données (ACCESS et ORACLE), permet de gérer de très gros volumes ainsi que des fusions de bases sans avoir jamais le moindre doublon.
  • Aide à la capture grâce aux rubriques de recherche d'Entreprises.
  • Les URLs capturées sont affichées avec le sujet de la page, ce qui permet de juger de la pertinence de la page et de l'éliminer le cas échéant.
  • WHOIS, cette fonctionnalité permet par double clic sur une URL dans une liste de visualiser le contenu du site, les coordonnées des responsables du domaine, les Méta-tags.
  • Suppression totale des doublons.
  • Filtrage par domaine (ex.: ne conserver que les « .fr », supprimer les « .org », les « webmaster@ », etc.).
  • Filtrage des pages HTML (ex.: ne conserver que les pages qui contiennent l'expression « vente bois » ...).
  • Filtrage par type de clients( ex: conserver que les Entreprises).
  • Ajout des e-mails probables aux domaines capturés( ex.: rajouter « contact@ » au domaine si l'e-mail est inexistant).
  • Ne garder qu'une adresse e-mail par domaine, cette fonction permet de n'envoyer qu'un seul e-mail à un domaine, ce qui en général évite de se faire taxer de spammeur.
  • Suppression automatique, à la demande, des adresses douteuses.
  • Exporter une base d'e-mails ou d'URLs au format texte pour une compatibilité universelle avec tous les mailers du marché.
  • Fusion de bases d' e-mails (ex.: regrouper la base des « comptables » et celle des « experts »).
  • Suppression des e-mails indésirables dans une base propre.
  • Multi-sessions: 1 à 99 sessions peuvent se dérouler en même temps (30 est un bon chiffre moyen qui s'adapte à une configuration matérielle et logicielle standard).
  • Profondeur dans le site (1 à 99): c'est la profondeur de recherche maximum (3 est un bon chiffre, car les webmasters qui mettent à disposition leurs adresses de contact ne les mettent pas au-dessous).




Quelques exemples de moissonneuses d'adresses courriel :

  • AspiMail
    Logiciel professionnel de capture d'adresses e-mail qui parcourt les sites Internet, les forums et les newsgroup, en fonction de vos critères de recherche, qui peuvent être très ciblés. Il peut exécuter jusqu'à 100 transactions simultanées et capturer automatiquement plusieurs milliers d'adresses e-mail à l'heure. Le coût de ce produit s'échelonne de 39 à 599 €.
  • Memoweb
    Un utilitaire aussi commun et connu que Memoweb (un outil de capture de sites Web complets utilisable par les particuliers), dispose d'une fonction de pillage d'adresses e-mail.
  • Web Data Extractor
    Ce logiciel est capable de générer des fichers d'adresses e-mail, numéro de téléphone et numéro de fax ! Cible les sites d'entreprises pour rechercher, par exemple, des contacts commerciaux.
  • Extract link
    Dito Web Data Extractor mais sur tous types de fichiers en plus des pages Web html (txt, word, excel, zip, etc.)
  • Newsgroup Email Harvester
    Comme son nom l'indique - pille les adresses e-mail des listes de discussion dans les newsgroup.
  • Email Harverster
    Email Harvester est un logiciel d'extraction d'adresses e-mail. Son principe est simple : il butine de forum en forum sur le Web, ayant pour unique but la capture des adresses e-mail trouvées. Il analyse plusieurs millions de messages d'internautes par jour et enregistre l'adresse e-mail de l'expéditeur de chaque message.
    Nota : Cette société me menace des tribunaux parce que je vous informe de l'existence de tels produits.
  • Etc.
]




Quelques recherches :

  • Google Une recherche sur les termes "(email OR e-mail) extractor" donne plus de 640.000 résultats le 27.03.2004 et 81.300.000 résultats le 06.11.2019.
  • Google Une recherche sur les termes "(email OR e-mail) (extractor OR extraction)" limitée à la langue française donne 53.700 résultats le 27.03.2004 et 301.000.000 résultats le 06.11.2019.
  • Google Une recherche sur les termes "(email OR e-mail) (extractor OR extraction)" limitée à la France donne 55.300 résultats le 27.03.2004 et 24.100.000 résultats le 06.11.2019.
]




Ne jamais exposer son adresse e-mail sur le Web. Combien de fois voit-on, en clair et en plein texte d'un message dans un forum, l'adresse courriel de quelqu'un ! Dito sur une zone de chat, dans les newsgroups, sur des pages de sites Web, dans des livres d'or, etc. Vous devez développer un véritable réflexe d'angoisse, paranoïaque, de secret autour de votre adresse e-mail. Si vous êtes obligé de vous exposer, utilisez une adresse jetable.

Harvester - Mesures préventives

Dossier (collection) : Spam et anti-spam

Dossier : Spam et anti-spam
Dossier : Fraude 419 et son lot de spam

Courriel
e-mail
Pièce jointe
Script
AVCheck
Client de messagerie
Webmail
Types « MIME »
MTA (Mail Transfer Agent)
Fraudes
Arnaques
Usurpation d'identité

Protégez votre adresse e-mail
SpamGournet - e-mail jetable recommandée
Services d'adresses e-mail jetables
e-mail abuse@domaine.tld
Adresses e-mail spéciales (adresses rôle)

Spam - Qu'est-ce que c'est ?
Spam - Origine du terme "Spam"
Spam - Propagation classique
Spam - Propagation virale
Spam - Constitution de fichiers d'adresses
Spam - Contourner les filtres anti-spam
Spam - Harvester (moisonneuses d'adresses eMail)
Spam - Phishing - pèche aux données secrètes
Spam Nigérien - Fraude 419
Spam - Volume du spam mondial 1
Spam - Volume du spam mondial 2
J'ai reçu un spam - Que dois-je faire ?
Spam - Détecter un canulard (hoax)
Spam - Détecter un phishing
Spam - Détecter un spam
Ingénierie sociale - Tirer les vers du nez
Monty Python's Flying Circus - Vidéo
Le virus PebCak
Le Safe CEx

Anti-spam actifs
Filtres bayésiens
Filtres bayésiens - Livre blanc

En marge du spam, le Mail-bombing
Mail-bombing
Mail-bomber (logiciels et outils de Mail-bombing)
Mail-bomb
Joe Job Attack