Assiste.com - Sécurité informatique - Vie privée sur le Web - Neutralité d'Internet Assiste.com - Sécurité informatique - Vie privée sur le Web - Neutralité d'Internet

Ferme de contenu (Farming) - Technique de Spamdexing

Ferme de contenu (Farming) - Technique de Spamdexing - Site sans intérêt, ayant réponse à tout, de très mauvaise qualité, optimisé pour générer des revenus publicitaires.

cr  01.01.2012      r+  21.08.2020      r-  18.04.2024      Pierre Pinard.         (Alertes et avis de sécurité au jour le jour)

Les fermes de contenu (content-farm ou farming) sont l'une des plaies de la recherche sur l'Internet. Il s'agit de l'une des deux grandes techniques de spamdexing (une forme d'attaque des résultats des moteurs de recherche pour fausser leurs résultats), avec les fermes de liens.

Les fermes de contenu sont des sites attrape tout et tout le monde dont le but est de générer des revenus publicitaires. Ils sont à l'information ce que sont les fastfoods à l'alimentation. Leur contenu éditorial ne suit pas une spécialisation (un site sur la médecine, un site sur la géologie, un site sur la sécurité informatique, etc.), mais suit une politique de visites maximums du site, sans privilégier ni un sujet ni la qualité du contenu.

Les fermes de contenu sont de deux types :

  1. Type 1 : fermes de contenu qui n'ont rien écrit, mais ont recopié, grâce à des robots, des centaines de milliers de fragments du Web de manière à répondre, pratiquement, à toutes les requêtes faites à un moteur de recherche. Les fragments traitant du même sujet (contenant le même mot clé ou la même expression clé) sont regroupés en pages optimisées pour être bien référencées par les moteurs de recherche. Les fragments sont de même nature que les fragments qu'un moteur de recherche propose (lien vers le site d'origine et extrait, à titre d'accroche, de la page où les mots clés recherchés apparaissent). Les extraits piratés sont plus longs (1000 caractères environ dans la ferme de contenu au lieu de 100 caractères environ dans les résultats des moteurs de recherche). La page générée dans la ferme de contenu ne contient que 6 à 10 résultats, automatiquement choisis à partir des sites les mieux référencés ou dont l'analyse sémantique automatique du contenu permet de calculer que l'extrait donnera un bon classement dans les moteurs de recherche. Notons que l'écriture de tels robots, et de tels générateurs de sites relèvent de très bons informaticiens.

  2. Type 2 : fermes de contenu utilisant des armées de pigistes, dans des pays à coût de main-d'œuvre dérisoire, voire des bénévoles, à leur insu, sur la base de questions posées sur des forums (on flatte l'égo des contributeurs). Il faut produire du texte qui ne donne pas l'impression d'être robotisé, le but étant le même : toujours avoir des réponses, même si elles sont souvent totalement imbéciles, car rédigées par des salariés ou contributeurs qui ne connaissent absolument pas le sujet sur lequel ils écrivent, aux questions les plus souvent posées et aux mots clés les plus souvent cliqués !




  • Le contenu des Fermes de contenu est totalement orienté pour répondre présent aux recherches les plus utilisées à un moment donné, donc ayant un potentiel de génération de revenus publicitaires important (analyses des statistiques sur les mots clés les plus utilisés, suivi de l'évènementiel comme un scandale people, emboîter le pas à une campagne publicitaire, etc.).

  • Ces sites utilisent également le principe marketing de la « longue traîne » (en anglais : « long tail ») qui consiste à avoir une réponse à tous les mots clés possibles (mots clés distincts couvrant un spectre très large), même si ceux-ci ne génèrent que peu de visites, afin de ratisser large (en cas d'achat de mots clés aux enchères, ceux-ci coûtent moins cher).

Pour un habitué du Web, les fermes de contenu, en particulier de Type 1, se reconnaissent immédiatement (contenus brefs, souvent tronqués, voire accumulation de contenus brefs et tronqués permettant de générer de nombreuses occurences d'un mot clé, ou d'une expression clé, sur la page...), mais un néophite se fera piéger et perdra son temps. Ce genre de sites ne comportent jamais, en réalité, de contenu d'un bon niveau, est sont des nids à publicités. Les fermes de contenu sont des pièges à faire des visiteurs pour faire de la publicité (remunérée au clic ou au % sur les ventes apportées un site vendeur).

Les robots qui construisent automatiquement les fermes de contenu optimisent également le référencement pour les moteurs de recherche (SEO - Search Engine Optimisation), et principalement pour Google. Il n'est pas rare de tomber sur des fermes de contenu dès les tout premiers résultats (première page) d'un moteur de recherche.

Les fermes de contenu sont, également, souvent construits à partir de traductions automatiques de tout et n'importe quoi, avec des robots traducteurs catastrophiques (Google traduction a fait d'énormes progrès), ce qui donne alors des pages complètement incompréhensibles, dans un français à vomir.

Généralement, un site de type fermes de contenu est reproduit plusieurs fois, parfois plusieurs dizaines de fois, sur le Web, avec des noms et des chartes graphiques différents, un robot assurant quelques différences automatiques d'un site à l'autre de manière à ne pas être détectés comme du contenu dupliqué (duplicate content) aux yeux des robots de détection de ce type de malversassions qui provoqueraient le déréferencement des pages, voire du site en entier.

En plus, généralement, le site de la ferme de contenu est traduit automatiquement, de manière immonde, dans plusieurs langues les plus utilisées sur le Web (anglais, chinois, espagnol, japonais, portugais, allemand, arabe, français, russe, corréen...). On obtient donc un site automatique, reproduit automatiquement, par exemple dans 5 langues, chacun de ces 5 sites étant reproduit automatiquement sous une dizaine de noms et de chartes graphiques, soit 50 sites sans contenu d'intérêt, mais squattant les réponses des moteurs de recherche !




Depuis début 2011, et sous la pression des internautes excédés par les résultats imbéciles obtenus pour certaines recherches, Google n'apprécie plus du tout ce type de sites, même s'ils utilisent massivement la régie publicitaire de Google. Ces sites sont purement et simplement déréférencés (renvoyés dans le fin fond des résultats de recherches). Ce déréférencement a commencé avec la version de février 2011 de l'algorithme de classement (Ranking) du moteur de recherche de Google, appelé « Panda ». Quelques cafouillages de « Panda » ont, au début, pénalisé par erreur des sites légitimes.




Exemples d'énormes fermes de contenu. Ces fermes ont muté depuis l'algorithme Panda de Google, en février 2011. Ces sites sont construits pour suivre de près ce que les internautes recherchent et pour créer du contenu quelconque qui corresponde, apparemment, à ces recherches :

Autres fermes de contenu

Un site qui ne se cache même pas d'être une ferme de contenu et comporte un formulaire pour inciter n'importe qui à écrire un sujet sur n'importe quoi.
Un site qui ne se cache même pas d'être une ferme de contenu et comporte
un formulaire pour inciter n'importe qui à écrire un sujet sur n'importe quoi.
(Site existant encore : dernière vérification le 25.04.2013)




SEO (Search Engine Optimisation - Optimisation pour Moteurs de Recherche).

Enregistrement d'un atelier débat, en anglais, lors du SMX (Search Marketing Expo) du 8 mars 2011 à San Jose (Californie). La vidéo est constituée, pour l'essentiel, de plans fixes (slides).

Modérateur : Matt McGee
Modérateur Q&R : Max Thomas, President de Thunder SEO

Orateurs :
Luke Beatty, Vice President & General Manager, Yahoo! Contributor Network, Yahoo!
Matthew Brown, Founder, AudienceWise
Byrne Hobart, Marketing Consultant, Blue Fountain Media
Gil Reich, VP of Product Management, Answers.com
Tim Ruder, Chief Revenue Officer, PerfectMarket.


1 - -

Dossier (collection) : SEO - Référencement

Webmaster tools

Techniques recommandées :
Webmaster - Sitemap
Nuage de mots-clés (nuage de tags)

Techniques pénalisantes en termes de SEO :
Spamdexing
Liens réciproques - Réciprocité
Ferme de liens
Ferme de contenu
Comment spam (spam forums, blogs, sites)
Bourrage de mots clé (Stuffing keywords)
Mascarade (Cloaking)
Contenu dupliqué (Duplicate Content)

Contre-mesures au spamdexing :
Bloquer le « Comment Spam » (Spamdexing) avec les Tests de Turing
Bloquer le « Comment Spam » (Spamdexing) avec les Capcha
Bloquer le « Comment Spam » (Spamdexing) avec les Captcha à trier
Bloquer le « Comment Spam » (Spamdexing) avec les reCaptcha


Dossier (collection) : Vidéos sur Assiste

Cybercriminels - Envoyé Spécial - France2 (fr - 2009 - 47 min)
Aux prises avec la mafia de l'Internet (fr - 2013 - 1 h 16 min 14 s)
NSA - L'agence de l'Ombre - Arte (fr - 2012 - 50 min 19 s)
Quand c'est gratuit, qui paye - France5 (fr - 2018 - 50 mn 40 s)
Arnaque aux faux présidents de sociétés - 1 - France2 (fr - 2015 - 39 mn 16 s)
Arnaque aux faux présidents de sociétés - 2 - BFM (fr - 2015 - 1 mn 18 s)
Arnaque aux faux présidents de sociétés - 3 - Officiel (fr - 2019 - 4 mn 12 s)
Arnaque 419 (Nigéria) à la culpabilité sexuelle - JE (fr - 2015 - 18 mn 01 s)
Cartes de fidélité, fidèle 1 jour, fiché pour toujours - Arte (fr - 2013 - 54 mn 09 s)
Collusion : Traquer les traqueurs - Kovacs (en st fr - 2012 - 6 mn 39 s)
Qu'est-ce qu'Internet 1/3 - Benjamin Bayart (fr - 2010 - 1 h 37 mn 13 s)
Qu'est-ce qu'Internet 2/3 - Benjamin Bayart (fr - 2010 - 1 h 48 mn 59 s)
Qu'est-ce qu'Internet 3/3 - Benjamin Bayart (fr - 2010 - 2 h 01 mn 02 s)
Escroquerie au RSI - Régime Social des Indépendants - TF1 (fr - 2012 - 1 mn 52 s)
Escroquerie au blanchiment d'argent sale - TSR (fr - 2012 - 4 mn 19 s)
Arnaques aux sentiments - escroqueries à la romance amoureuse (fr - 2012 - 1 mn 52 s)
Toute ma vie sur Internet - utilisations de mes données privées - France 2 (fr - 2016 - 35 mn 17 s)
Une contre-histoire de l'Internet - Défense des libertés - Arte (fr - 2013 - 1 h 27 mn 24 s)
AppRemover - désinstallation complète d'applications - OPSWAT (en - 2013 - 2 mn 37 s)
RIOT (Rapid Information Overlay Technology) - Raytheon (en - 2013 - 4 mn 4 s)
Core Wars - vidéo 1 - Joueur : Marco Pontello, l'auteur de TrID (59 s)
Core Wars - vidéo 2 - Joueur : Marco Pontello, l'auteur de TrID (6 mn 3 s)
Core Wars - vidéo 3 - Joueur : Marco Pontello, l'auteur de TrID (1 mn)
La guerre invisible (dont le virus Stuxnet) - Arte (fr - 2012 - 1 h 15 mn)
Fermes de contenu (content farms) - SMX (en - 2011 - 1 h 11 mn - 6 s)
FaceBook, déclare que l'âge de la vie privée est révolu ! - Facebook - (en - 2010 - 6 mn 1 s)
Keylogger acoustique et électroacoustique - LASEC - (en - 2008 - 2 mn 56 s et 2 mn 35 s)
James Gosling, le père de Java, honore Jerry Garcia du Grateful Dead - (1994 - 6 mn 1 s)
Arbres B (B-Trees, ISAM, Indexed Sequential Access Method) - (1 mn 47 s)
Hacker - PIRATAGE (documentaire sur les hackers) - MK2TV (fr - 2011 - 1 h 15 mn 31 s)
Hackers - Ni Dieu, ni Maître (documentaire sur les hackers) - Arte (fr - 2011 - 56 mn 47 s)


Ailleurs dans Assiste et sur le Web Ailleurs dans Assiste et sur le Web Ailleurs dans Assiste et sur le Web Ferme de contenu (Farming) - Technique de Spamdexing

  1. #Ferme de contenu#