Flux RSS - La vie du site - Nouveautés et mises à jour
Assiste.com - Sécurité informatique - Vie privée sur le Web - Neutralité d'Internet Assiste.com - Sécurité informatique - Vie privée sur le Web - Neutralité d'Internet

Big Data - Vrac de données numériques sans format

Big Data - Ensemble, en vrac, des données numériques disponibles sur l'Internet, sans format homogène, et outils d'extractions ciblées et formatées de ces données

Lorsque l'on parle de « Big Data », on évoque l'ensemble des données produites par des moyens numériques et, également, les outils d'analyse de ces données.

En 2001, Doug Laney (analyste chez Gartner) défini une partie du « Big Data » avec son « Principe des 3 V », auxquels d'autres termes s'ajoutent :

  1. Volume (en croissance constante exponentielle)
  2. Variété (ces données n'ont aucune stucture homogène, voire pas de structure du tout [du texte libre])
  3. Vélocité (ces données sont produites de plus en plus vite, circulent de plus en plus vite, doivent donc être récoltées de plus en vite et ne sont généralement significatives/pertinentes qu'en temps réel [sauf travaux d'analyses de fond des « Big Data », historiques, tendances, transversales, constitution de corpus, etc.]).
  4. Variabilité : une importante part de données n'est pas pérenne/stable mais change à très grande vitesse, voire par rafales, créant des « événements de données » brisant le « réseau social de liens de données » établi l'instant d'avant. Les analyses et processus décisionnels sont remis en cause en continu et n'arrivent jamais à bâtir ce confort tant recherché des certitudes durables.
  5. Véracité : dans ce fatras où tout le monde écrit n'importe quoi rarement justifié, et souvent recopié, il faut arriver à séparer le bon grain de l'ivraie, le vrai du probable ou du totalement faux ou de l'intox cherchant précisément à induire en erreur (fausses informations instilant une fausse tendance influant une prise de décision - typique des cours de bourses, etc.).

La production de données est telle que ce fatras de mégadonnées (« Big Data ») échappe complètement à l'entendement et à la capacité d'analyse à l'échelle humaine.

Les outils d'exploitation des « Big Data » nouricent et influent tous les domaines : stratégie, industrie, pharmacie, météorologie, écologie, recherche, commerce, politique, militaire, société, finance, agriculture, médecine, etc.

Les analyses prédictives permettent de :

  • anticiper une large épidémie ou le risque sur un seul individu (les compagnies d'assurance en sont friandes car l'assurance ne consiste pas à couvrir un risque mais à ne pas prendre de risque).
  • anticiper le crime. Pré-crime en est un exemple, mais il en existe déjà (2018) plusieurs autres
  • etc.

Le développement de ces outils d'analyse, modélisation et exploitation du « Big Data » constitue un marché fabuleux, un écosystème juteux (plusieurs dizaines de milliards de dollars) pour les éditeurs/fournisseurs de ces outils. Selon SNS Research, les éditeurs de produits et prestataires de services dans le « Big Data » ont généré un total de 57 milliards de dollars en 2017.

Selon le constructeur d'ordinateur Dell, dans ce fatras de données trouvables publiquement sur le Web et analysables (espionables), 72% des employés américains ont déjà partagé des données sensibles de/sur leurs entreprises.

Le 04.04.2017, une étude faite par cabinet d'analystes IDC à la demande de Seagate (premier fabricant mondial de disques durs) conclue que la croissance des données stockées devrait atteindre, en 2025, 163 Zettaoctets (163 milliards de Teraoctets). « Ce qui est étonnant, ce n'est pas que la production de données à stocker augmente, mais le rythme effréné de cette augmentation " explique Jeff Fochtman, responsable marketing chez Seagate.

Big Data -