Le segment déjà surpeuplé du Big Data

Lors de l’événement Big Data Expo, le 16 octobre, Gilles Venturi, DG et co-fondateur de Soft.computing a présenté les principaux composants d’une solution Big Data et s’est interrogé :  » le segment de l’offre est-il surpeuplé? » Il faut admettre que par catégorie d’outils ou de services, il existe au moins cinq offres différentes, et que Gilles Venturi identifie huit catégories distinctes : les services Big Data en ligne, les distributions Hadoop, les projets Open Source, la visualisation de données, l’analyse des données, les applications (CRM, marketing, vente, prévention des crimes), les sources de données et les services professionnels.

Au niveau du socle, dans les couches de services Big Data disponibles dans le Cloud, il liste ainsi cinq offres principales : Amazon Web services EMR (Elastic MapReduce), infochimps, Google BigQuery Developpers et 1010data.

En ce qui concerne les distributions Hadoop, il énumère six propositions sur le marché : MAPR Technologies, HDinsight de Microsoft, Couchbase, 10gen, Cloudera et Hortonworks.

Plus précisément dans le cadre des projets Open Source, il liste 5 plateformes : hadoop, cassandra, Apache Hbase, storm et mongoDB. L’écosystème hadoop est lui-même particulièrement fragmenté puisqu’il comprend des solutions de stockage (HBase, HDFS), de traitement (MapReduce), d’ordonnanceur (Oozie), de Web crawling (nutch), de langage SQL( Hive), de chargement (Flume), d’administration (Apache Ambari), d’interface graphique (Hue), d’interface SQL(Sqoop), et d’auto-apprentissage (mahout).

Afin de visualiser les données, Gilles Venturi propose 5 outils : tableau software, goodData, Quid, metalayer et QlikView.  Il glisse au passage que les acteurs historiques de cette catégorie, tels que Microsoft, Business Object ou Cognos, se mettent à niveau en matière de visualisation en suivant des solutions comme celle de tableau software.

Pour l’analyse de ces mêmes données, il identifie six solutions : datameer, dataminr, general sentiment, opera solutions, GNIP OOO et platfora.


Côté applications, Gilles Venturi cite cinq fournisseurs : splunk (pour exploiter les fichiers d’historiques de suvi des serveurs physiques ou virtuels), Lattice (pour la gestion des ventes), clickfox (pour la gestion de la relation client), bloomreach (pour le marketing) et predictive policing (pour la prévention du crime).

Gille Venturi identifie également un nouveau type de fournisseurs : les startups sources de données. Ces sociétés mettent à disposition des fichiers de données constitués selon les critères de l’entreprise cliente. il liste Datasift, factual, Inrix et datamarket. « On peut leur demander les twits qui ont été émis en 2012 sur Darty ou des instagram » dit-il. Ces sociétés ont mis en place des aspirateurs à données et stockent l’ensemble des informations sur des infrastructures Big Data.

Il décrit plus précisément les sites de données qu’enregistre en permanence une société comme Datasift : Amazon, flickr, Google+, tumblr, Youtube, vimeo, Wikipedia, reddit, WordPress, twitter, facebook, dailymotion, newsgator, intensedebate, delicious, bitly et topix.

Enfin, dans les services professionnels, il retient : Opera Solutions, Mu Sigma, Anchorman, Axeor, Atilika, Clarity et Cloudwick Technologies.

La société Soft.computing emploie 400 personnes. Elle a réalisé 36 millions d’euros de chiffre d’affaires en 2012. Elle est spécialisée dans la relation client et elle gère les programmes de fidélité de ses clients entreprise. Cela représente des centaines de milliards de transactions par an.