Du Big Data plus rapide grâce à la seconde génération d'Hadoop

Du Big Data plus rapide grâce à la seconde génération d’Hadoop

Une nouvelle architecture Big Data émerge afin d’effectuer des calculs plus rapidement. Elle exploite une solution Hadoop s’exécutant en mémoire. On progresse ainsi depuis le travail en parallèle sur des centaines de disques durs, tandis que l’écosystème Open Source s’étoffe.

Porté par son succès, Hadoop passe à la deuxième génération, celle du calcul en mémoire, afin d’effectuer des calculs plus rapidement. « Finalement, une deuxième génération de Hadoop est en train d’émerger, notamment autour du projet Hadoop Yarn et de son moteur d’exécution Tez » confirme Olivier Grisel, ingénieur logiciel de l’INRIA (l’Institut National de Recherche en Informatique et en Automatique). Il est intervenu le 17 Juin lors de l’événement USI d’Octo Technology à Paris.

Réduire la latence

Cette version d’Hadoop sort du paradigme de MapReduce pour se débarrasser des contraintes d’utiliser le disque dur tout le temps, même quand on n’en a pas besoin, pour travailler en mémoire et aller beaucoup plus vite avec des latences beaucoup plus faibles, détaille l’ingénieur.

« Il existe d’autres projets similaires pour travailler en mémoire » ajoute-t-il. Et de citer le système de traitement sur cluster Spark, développé par AMP Lab à l’université de Californie de Berkeley, et des bases de données orientées décisionnel et distribuées, telles que Impala développé par Cloudera, Presto DB ‘opensourcé’ par Facebook, ou Redshift qui est disponible sous forme de service sur la plateforme Cloud d’Amazon AWS.

MapReduce proposé par Google

On progresse ainsi depuis MapReduce, la solution conçue par Google et dévoilée il y a déjà dix ans, en 2004. Google devait indexer un maximum de données présentes sur internet. Il lui a fallu trouver une solution pour le problème architectural qui se présentait à eux. MapReduce est alors devenu un patron architectural de développement informatique.

Gérer plus de 100 To de données demande un grand nombre de disque durs fonctionnels. « MapReduce c’est une manière de repenser les traitements qui vont être effectués pour paralléliser l’accès aux données » précise l’ingénieur logiciel.

Cette parallélisation a permis par la suite de lire plus de mille disques durs en parallèle, ainsi que de gérer une tolérance aux pannes. « Quand on manipule mille disques durs, il a y a une probabilité très largement non nulle qu’il y en a un qui crashe dans la semaine, dans le mois ou dans l’année » relève l’ingénieur.

Architecture de traitement par lot

« MapReduce est lié au système distribué HDFS [NDLR : Hadoop Distributed File System] qui est implémenté dans la plateforme OpenSource, Hadoop » ajoute-t-il. « Au-dessus de ce socle de base, on a vu tout un écosystème se développer comme les langages Hive et Pig qui permettent de faire des opérations de type décisionnel ou analytics » indique-t-il.

Cette architecture est adaptée pour réaliser du traitement batch en masse, autrement appelé traitement par lot, avec un gros débit. « On peut aussi avoir le même genre de problème quand on veut faire des petits traitements rapides sur des bases avec des données qui ne tiennent pas sur une seule machine » souligne-t-il.

L’émergence du NoSQL

Afin de paralléliser tout cela, le NoSQL a émergé, « c’est Google qui a commencé avec BigTable, Amazon a publié aussi un papier important sur Dynamo » rappelle l’ingénieur. « Ces principes architecturaux ont été repris dans la communauté OpenSource, notamment autour de projets comme Cassandra qui implémente en partie Dynamo et en partie BigTable. Et tout ça en mode cluster » précise-t-il, pour ce qui concerne le stockage de données.

« Il y a également un problème d’architecture parce que les données Big Data arrivent généralement en continu » relève encore Olivier Grisel, il va donc falloir trouver un moyen de gérer la distribution du traitement de l’arrivée des données pour ne pas en perdre et éventuellement faire un prétraitement de ces données. Ce sont des logiciels OpenSource qui vont ici permettre ces traitements, tels que « des projets comme Apache Kafka, qui est désormais chez LinkedIn ou Storm qui est maintenant chez Twitter » conclut-il.

Photo: Olivier Grisel, ingénieur logiciel de l’INRIA, lors de l’événement USI d’Octo Technology, le 16 Juin à Paris.

Morgane Mons

Morgane Mons est journaliste spécialisée dans les nouvelles technologies et la transformation numérique des entreprises. Esprit Geek, passionnée de multimédia, retrouvez ses actualités sur son fil twitter.