Big Data



C'est quoi le BIG DATA ?

          Ce terme signifie "mégas données", grosses données ou encore données massives. Il désigne un ensemble très volumineux de données qu’aucun outil classique de gestion de base de données ou de gestion de l’information ne peut vraiment travailler.

Nous procréons environ 2,5 trillions d’octets de données tous les jours. Ce sont les informations provenant de partout : (messages que nous envoyons, vidéos , informations , signaux GPS, enregistrements transactionnels d’achats en ligne ... ). Yahoo Facebook ainsi que Google ont été les tout premiers à déployer ce type de technologie.



Sont-elles enregistrées? 


Et oui bien sûr on enregistre tout et n'importe quoi pour une raison simple c'est la réutilisation de ces derniers.
Quelques exemples :
  • Les mails ou messages que vous envoyez ou recevez.
  • Les conversations téléphoniques,
  • Les sites sur lesquels vous surfez.
  • Les applications de vos smartphones.
  • Les thermostats s’ils sont commandés à distance.
  • L'alarme de maison, si elle est reliée à un central téléphonique.
  • Les GPS.
  • Vos réfrigérateurs connectés.....

Les 3v du BIG DATA


 La référence à Volume, Vitesse, Variété :
  •  Volume : Les masses de données à traiter sont toujours croissantes.
  • Vitesse : Le traitement des données doit se faire souvent en temps réel ou le plus vite possible.
  •  Variété : Les données sont des formats très variés et pas toujours structurés.


C'est quoi le Spark? 


     Apache Spark est un moteur de traitement de données rapides dédiées au big data. Il permet d’effectuer un traitement de larges volumes de données de manière distribuée (cluster comput ing). Ce Framework est en passe de remplacer Hadoop. 
C’est un moteur de traitement parallèle de données open source permettant d’effectuer des analyses de grande envergure par le biais de machines en clusters. Il ne faut pas le confondre avec le logiciel de messagerie de Cisco disponible Spark sur Windows, ni avec le réseau social d’Amazon.

SPARK VS Hadoop


 






 

Hadoop est essentiellement une infrastructure de données distribuées : ce framework Java libre distribue les grandes quantités de données collectées à travers plusieurs nœuds (un cluster de serveurs x86), et il n’est donc pas nécessaire d’acquérir et de maintenir un hardware spécifique et coûteux. Hadoop est également capable d’indexer et de suivre ces données big data, ce qui facilite grandement leur traitement et leur analyse par rapport à ce qui était possible auparavant. Comparativement, Spark sait travailler avec des données distribuées. Mais il ne sait pas faire du stockage distribué. Il a donc besoin de s’appuyer sur un système de stockage distribué.


Les 5V du BIG DATA


Parmi les utilisateurs les plus enthousiastes du Big Data, on retrouve les gestionnaires et les économistes. Ces derniers définissent ce phénomène par la règle des 5V :
Volume, Velocité, Variété, véracité, Valeur.









Corresponds à la masse d’informations produites chaque seconde. Selon des études, pour avoir une idée de l’accroissement exponentiel de la masse de données, on considère que 90 % des données ont été engendrées durant les années où l’usage d’internet et des réseaux sociaux a connu une forte croissance.
La vélocité
Équivalant à la rapidité de l’élaboration et du déploiement des nouvelles données. Par exemple, si on diffuse des messages sur les réseaux sociaux, ils peuvent devenir « viraux » et se répandre en un rien de temps. Il s’agit d’analyser les données au décours de leur lignée (analyse en mémoire).
La variété
Seulement 20% des données sont structurées puis stockées dans des tables de bases de données relationnelles similaires à celles utilisées en gestion comptabilisée.Les 80% qui restent sont non structurés. Cela peut être des images, des vidéos, des textes, des voix, et bien d’autres encore… 
La véracité
La véracité concerne la fiabilité et la crédibilité des informations collectées. Comme le Big Data permet de collecter un nombre indéfini et plusieurs formes de données, il est difficile de justifier l’authenticité des contenus, si l’on considère les posts Twitter avec les abréviations, le langage familier, les hashTags, les coquilles etc. 
La valeur
La notion de valeur correspond au profit qu’on puisse tirer de l’usage du Big Data. Ce sont généralement les entreprises qui commencent à obtenir des avantages incroyables de leurs Big Data. Selon les gestionnaires et les économistes, les entreprises qui ne s’intéressent pas sérieusement au Big Data risquent d’être pénalisées et écartées.

L'avenir du BIG DATA


Etant une tendance lourde, le Big Data n’est pas une mode. Dans le domaine de l’usage, il satisfait une nécessité de travailler la donnée plus profondément, pour créer de la valeur, conjointement à des aptitudes technologiques qui n’existaient pas dans le passé.





                                                                     Good Luck

NB : " https://www.lebigdata.fr/definition-big-data "

Commentaires

Posts les plus consultés de ce blog

Linux

Privacy Policy for MY SP

CCNP Routing and Switching.