Big Data : des trajets moins chers mais plus longs à la SNCF

Le Big Data autorise un nouveau service client à la SNCF : des trajets moins coûteux mais plus longs. Cette alternative est proposée sur une dizaine de destinations actuellement avant de passer à trente dans les prochains mois.

Le Big Data apporte-t-il un + aux clients à la SNCF ? Qu’on en juge avec le nouveau service de « trajets alternatifs ». Les équipes de VSC Technologies, l’entité en charge de l’informatique de Voyages-SNCF.com, viennent de mettre au point des solutions qui permettent à la SNCF de proposer en exclusivité à ses clients des « trajets alternatifs. »

Premier critère, le prix

Afin de déterminer le bon trajet, l’algorithme fait en sorte que sur la destination choisie, le premier critère de sélection est le prix, avant le critère d’attente pour les correspondances. Cela permet de créer de nouvelles combinaisons et faire apparaître des trajets à des prix plus bas avec un temps de transport un peu plus long.

En pratique, si un client demande un trajet « Lille – Aix en Provence » par exemple, les systèmes combinent la composante d’optimisation de l’itinéraire et celle du prix pour une meilleure proposition.

Le client aura alors la possibilité de choisir un voyage qui mettra éventuellement un peu plus de temps et qui sera moins cher. Cette approche du Big Data permet au client final de bénéficier de meilleurs prix, grâce à des combinaisons inédites de trajets. Aujourd’hui, cela concerne 10 destinations, généralement très demandées pour l’été et souvent complètes à cette période. Cette dizaine de destinations devrait au moins tripler dans les prochains mois.

Souvent de longs trajets

Les trajets actuels proposés sont Paris – Arcachon, Lille – Marseille, Lille – Avignon et Lille – Aix en Provence. Trajets proposés la semaine prochaine : Paris-Biarritz (via Bordeaux), Paris-La Baule (via Nantes), Paris-La Rochelle (via Poitiers), Paris-Vannes (via Rennes), Paris-Marseille (via Lyon) et Paris-Montpellier (via Lyon).

La détermination de trajets alternatifs est en fait un paramétrage différent de l’algorithme de recherche de trajet. Voyages-sncf.com utilise au quotidien le Big Data pour assurer sa qualité de service et la personnalisation de ses offres. Le site de vente en ligne engrange les données. Il cumule 1,5 milliard de recherches par an, 33 millions de propositions de voyages possibles, 1 milliard d’emails envoyés et 100 téraoctets de données gérées par mois par ses infrastructures.

Il a fallu deux ans au responsable des technologies, Gilles de Richemond, directeur de VSC Technologies, pour mettre en place une structure solide et exclusive permettant de créer des fonctionnalités pour que les clients qui le souhaitent puissent voyager moins cher quitte à voyager un peu plus longtemps. » C’est un excellent exemple de l’évolution des DSI qui contribuent aujourd’hui au développement de l’entreprise et de son offre, » estime le directeur de VSC.

La recherche de trajets consommatrice de data

Les trajets alternatifs ont comme têtes chercheuses les technologies Big Data. Le résultat ? De nouveaux trajets, moins chers.

Une recherche d’itinéraire utilise d’énormes masses de données en agrégeant 33 millions de possibilités de voyages. Chaque recherche doit tenir compte de nombreux facteurs : le nombre de trains qui circulent chaque jour, le nombre de destinations, le nombre d’itinéraires par jour, le nombre de tarifs en fonction des cartes de réductions et des places associées. Et cela pour une seule recherche !

En moyenne, voyages-sncf.com répond à plus de 150 millions de recherches par mois. Le challenge technique est donc important et le recours aux technologies Big Data est devenu indispensable. VSC Technologies a mis en place un système de cache intelligent grâce au Big Data.

Les équipes ont d’abord mis en place un moteur de recherche d’itinéraires reposant sur un système de cache intelligent des prix et des disponibilités des offres distribuées par Voyages-sncf.com, construit sur la base des consultations effectuées par les clients web et mobile.

Un système de cache

Ce système de cache s’appuie sur une analyse des réponses aux devis demandés par les clients, grâce aux fichiers d’historiques (les logs) constituant un échantillon suffisamment représentatif pour en tirer une représentation statistique et sur l’application de règles prédictives en complément (Machine Learning, règles conçues et maintenues par les Data Scientists).

Une fois ce système de cache stabilisé, les équipes ont pu travailler sur d’autres applications telles que la création de trajets alternatifs.

La panoplie du Big Data à la SNCF

Il est intéressant de lister les technologies utilisées chez VSC Technologies afin de traiter les gros volumes de données. On trouve ainsi Hadoop/ Hive / Spark (pour le stockage et le traitement des données), HDF (ingestion de données, composant DataFlow qui permet de manipuler les flux de données en amont et en aval du stockage/traitements), Elastic Search (moteur de recherche et d’indexation distribué), Green Plum (exploration de données), SAS, Qlik et ElastichSearch (outils de restitution) et Flume (collecteur de logs).