Abstract:
Dans le monde d'aujourd'hui des milliers voir même des milliards de données
sont produites quotidiennement par de multiples acteurs. Capteurs, réseaux sociaux
ou e-commerce, génèrent tous de l'information qui s'incrémente en temps-réel selon
les 6 V qu'elles génèrent : en Volume, en Vitesse, en Variété, en véracité, en valeur et
en visualisation. Pour remédier au problème`me de traitement de ces quantités énorme
d'information un cluster a été mis en place nommé Hadoop qui a pour mission
principal de stocker et de traiter ces masse de volume, en deuxième lieu il est fait
de manière `a avoir une grande tolérance aux pannes et pouvoir travailler avec un
matériel de toute gamme et pour finir il doit avoir une optimisation en question de
coût et de temps. L'objectif principal de cette réfexion est en outre soutenue par des
techniques d'optimisations des requêtes implémentant le cluster Hadoop et mettant
en oeuvre ces moyens d'optimisation sus-décrites et aboutissant `a une comparaison
et une discussion, permettant une mise en place assistée d'un ou plusieurs processus
d'optimisation en terme de temps pour BigData.