Flux RSS
Assiste.com - Sécurité informatique - Décontamination - Antivirus - Protection - Protection de la Vie Privée Assiste.com - Sécurité informatique préventive - Décontamination - Antivirus - Protection - Protection de la Vie Privée

Harvester

Dernière mise à jour : 2017-07-27T14:58 - 27.07.2017
03.12.2016 - 00h00 - Paris - (Assiste - Pierre Pinard) - Mise à jour

Harvester - Dans les affaires de spam, un harvester est un logiciel moisonnant des adresses mél. sur le Web.

HarvesterHarvesterHarvester

La constitution de fichiers d'adresse mél. se fait de diverses manières, seules ou simultanées. L'une d'entre elles est l'usage de logiciels de balayage du Web afin de collecter des adresses mél.

On appelle ces logiciels des « moissonneuses » ou « moissonneuses d'adresse mél. » ou, en anglais, des « harvester » ou « e-mail harvester » ou « e-mail extractor ».

Des utilitaires sont disponibles pour piller le Web. En voici quelques exemples pour illustrer le propos. Certains sont gratuits (je ne vais pas vous les donner). Les éditeurs de tels outils sont de véritables valets des spammeurs lorsqu'ils ne sont pas des spammeurs eux-mêmes.

Description d'une « moissonneuse d'adresse mél. » par son éditeur.

Ceci est édifiant sur la capacité de ces produits à trouver des adresses e-mail directement inscrites quelque part, y compris dans les bases de données Oracle ou Access, mais aussi à les discriminer et à les deviner.

  • Recherche depuis les moteurs et annuaires régionaux, nationaux et internationaux. Les moteurs et annuaires sont régulièrement mis à jour lors de votre connexion et en automatique.
  • Recherche depuis une url directe: vous entrez une URL et AspiMail butine sur le site en fonction de la profondeur de recherche indiquée.
  • Recherche des emails sur votre disque dur en scrutant des  répertoires entiers. Vos disques durs en général regorgent d'adresses e-mail de personnes et de sociétés qui vous ont contacté. AspiMail scrute des répertoires et sous-répertoires entier pour en ramener toutes les adresses e-mail.
  • Recherche sur des fichiers HTML générés par Copernic par exemple.
  • Recherche selon divers critères : géographique - pays, état ou province, ville... langue, activité, centre d'intérêt.
  • Gestion des URLs et e-mails en bases de données (ACCESS et ORACLE), permet de gérer de très gros volumes ainsi que des fusions de bases sans avoir jamais le moindre doublon.
  • Aide à la capture grâce aux rubriques de recherche d'Entreprises.
  • Les URLs capturées sont affichées avec le sujet de la page, ce qui permet de juger de la pertinence de la page et de l'éliminer le cas échéant.
  • Whois, cette fonctionnalité permet par double clic sur une URL dans une liste de visualiser le contenu du site, les coordonnées des responsables du domaine, les Méta-tags.
  • Suppression totale des doublons.
  • Filtrage par domaine( ex: conserver que les ".fr", supprimer les ".org", les "webmaster@" ...).
  • Filtrage des pages HTML ( ex: conserver que les pages qui contiennent l'expression "vente bois" ...).
  • Filtrage par type de clients( ex: conserver que les Entreprises).
  • Ajout des emails probables aux domaines capturés( ex: rajouter "contact@" au domaine si l'e-mail est inexistant).
  • Ne garder qu'une adresse e-mail par domaine, cette fonction permet de n'envoyer qu'un seul e-mail à un domaine, ce qui en général évite de se faire taxer de spammeur.
  • Suppression automatique, à la demande, des adresses douteuses.
  • Exporter une base d'e-mails ou d'URLs au format texte pour une compatibilité universelle avec tous les mailers du marché.
  • Fusion de bases d' e-mails (ex: regrouper la base des "comptables" et celle des "experts").
  • Suppression des e-mails indésirables dans une base propre.
  • Multi-sessions: 1 à 99 sessions peuvent se dérouler en même temps (30 est un bon chiffre moyen qui s'adapte à une configuration matérielle et logicielle standard).
  • Profondeur dans le site (1 à 99): c'est la profondeur de recherche maximum (3 est un bon chiffre car les webmasters qui mettent à disposition leurs adresses de contact ne les mettent pas au-dessous).

Quelques exemples de moissonneuses d'adresses mél.

  • AspiMail
    Logiciel professionnel de capture d'adresses e-mail qui parcourt les sites Internet, les forums et les newsgroup, en fonction de vos critères de recherche, qui peuvent être très ciblés. Il peut exécuter jusqu'à 100 transactions simultanées et capturer automatiquement plusieurs milliers d'adresses e-mail à l'heure. Le coût de ce produit s'échelonne de 39 à 599 €.

  • Memoweb
    Un utilitaire aussi commun que Memoweb, utilisé par les particuliers, dispose d'une fonction de pillage d'adresses e-mail.

  • Web Data Extractor
    Ce logiciel est capable de générer des fichers d'adresses e-mail, numéro de téléphone et numéro de fax ! Cible les sites d'entreprises pour rechercher, par exemple, des contacts commerciaux.

  • Extract link
    Dito Web Data Extractor mais sur tous types de fichiers en plus des pages Web html (txt, word, excel, zip, etc. ...)

  • Newsgroup Email Harvester
    Comme son nom l'indique - pille les adresses e-mail des listes de discussion dans les newsgroup.

  • Email Harverster
    Email Harvester est un logiciel d'extraction d'adresses Email, son principe est simple, il butine de forum en forum sur le Web ayant pour unique but la capture des adresses Email trouvées... Il analyse plusieurs millions de messages d'internautes par jour et enregistre l'adresse Email de l'expéditeur de chaque message...
    Nota : Cette société me menace des tribunaux parce que je vous informe de l'existence de tels produits.

  • Etc.


Google Une recherche sur les termes "(email OR e-mail) extractor" donne plus de 640.000 résultats 27.03.04).


Google Une recherche sur les termes "(email OR e-mail) (extractor OR extraction)" limitée à la langue française donne 53.700 résultats (27.03.04)


Google Une recherche sur les termes "(email OR e-mail) (extractor OR extraction)" limitée à la France donne 55.300 résultats (27.03.04)




Se protéger :

Ne jamais exposer son adresse e-mail sur le Web. Combien de fois voit-on, en plein texte d'un message dans un forum, l'adresse mél. en clair de quelqu'un. Dito sur une zone de chat, dans les newsgroup, sur des pages de sites Internet, dans des livres d'or. ... Vous devez développer un véritable réflexe d'angoisse, paranoïaque, de secret autour de votre adresse e-mail. Si vous êtes obligé de vous exposer, utilisez une adresse jetable.