Le Big data, ils en parlent, Emmanuel s’en occupe, en utilisant d’autres mots

Le Big data, ils en parlent, Emmanuel s’en occupe, en utilisant d’autres mots

Avec l’équipe de chercheurs qui l’accompagne depuis quelques années, ce monsieur un peu barbu, à l’air distrait et concentré à la fois, s’est attaqué à faire parler les données de l’une des plus grosses bases de données de santé au monde, celle du Sniiram. Rencontre avec Emmanuel Bacry. 

Le travail que l’équipe a mené, en France, pour une grande institution, lui vaut désormais d’être appelé, sollicité du monde entier, par des directions générales ou des systèmes d’information (DSI) qui voudraient bien, elles aussi, tirer profit de leurs données, donner une consistance à ces projets de big data qu’on évoque à peu près partout.
Le profit, la difficulté rencontrée par les grands cabinets de conseil à recruter des data scientist, l’utilisation de Twitter dans ce monde des chercheurs, tels sont les sujets, vitaux ou anodins, qu’on a eu la chance d’aller aborder avec ce professeur associé à Polytechnique où ce dernier est responsable de l’initiative de Data Science. Des sujets anodins. Parce qu’on a vite compris, au terme de quelques minutes de conversation avec notre interlocuteur qu’il existait, dans le domaine de la recherche, celle qu’on appelle supervisée et l’autre, et que les deux devaient être distinguées.  Des sujets plus vitaux, tels que « Science des données au service de la société », précisément le thème de l’une de ses interventions filmées visible sur YouTube. Malgré sa clarté, l’actualité et l’intérêt de la question, cette dernière n’a été visionnée que… 681 fois. Ça me semblait modeste, pour un vrai bon sujet. Aussi me suis-je demandé, encore une fois, au vu de ces chiffres, s’il était grave de vivre à une époque où la moindre vidéo de chat qui tombe de l’appartement fait 100 000 000 vues, où le premier journal télévisé du soir de ASL (Anne Sophie Lapix) suscite environ 35 articles dans des quotidiens la veille de ce journal et autant voire plus le lendemain : la prestation a-t-elle été bonne, moyenne ? Et puis j’ai considéré que, tout compte fait, c’était une chance de vivre et d’être né dans le pays qui abrite et a créé des écoles telles que Polytechnique, forme des chercheurs qui se passionnent pour le type de questions évoquées ci-dessus et qu’on peut rencontrer dans un stage improbable. Dans le 13ème arrondissement de Paris, un jour de juillet. (La science des données ne va pas jusqu’à expliquer comment les journalistes font des rencontres :))

Manuel Jacquinet : Comment en vient-on à s’intéresser, en étant chercheur, au big data et à ses applications ?
Emmanuel Bacry : C’est à la fois un concours de circonstances, la suite logique d’un parcours et le fruit de rencontres. J’ai été élève à Normale Supérieure, puis chercheur dans différentes institutions dont le CNRS et Polytechnique et pour un chercheur, travailler sur des sujets qui peuvent permettre à la société d’avancer ou à des travaux d’aboutir à des résultats utiles à la société, c’est intéressant et motivant. Mais il y a plusieurs façons de pratiquer la recherche et notamment aussi celle des mathématiques appliquées, où l’on reste souvent dans l’abstraction, sans parvenir obligatoirement à des résultats pratiques, du moins à court terme.
Nous disposons en France, grâce au Sniiram (Système National d’Information Inter-Régimes de l’Assurance Maladie) d’une des plus grosses bases de données de santé au monde. L’accès à celle-ci est évidemment très encadré et le traitement de celles-ci complexe, en raison déjà de sa taille – plusieurs centaines de téraoctets – et de sa structure hétérogène. En 2014, la Cnam a souhaité utiliser les techniques de big data pour travailler sur ces données et s’est alors tournée vers Polytechnique et son Centre de mathématiques appliquées au sein duquel je travaille.

Ils sont venus vous voir ?
C’est un très bon ami à moi (P.Y. Geoffard, directeur de PSE, économiste de la santé) qui, à l’occasion d’un diner m’a conseillé de rencontrer les gens de la Cnam (en l’occurrence, Claude Gissot). Selon lui, Claude Gissot était susceptible d’être fort intéressé par mes recherches.

Et quel type de recherches avez-vous donc mené, sur quelle demande ?
Les recherches consistent à faire parcourir ces données, par des algorithmes, qu’ils soient supervisés ou pas, afin d’y repérer des signaux faibles. La recherche non supervisée signifie qu’on ne sait pas précisément ce qu’on recherche dans une masse de données mais qu’on va tenter de découvrir des similitudes, des comportements ou thèmes récurrents dans la cohorte de données. La propriété d’un algorithme non supervisé est de découvrir par lui-même, sans apprentissage préalable, par exemple que le poids est corrélé à l’âge.

Où en es-tu, sur ce projet, avec l’équipe qui a travaillé dessus ?
Il a commencé il y a 3 ans avec 4 personnes dont un seul ingénieur à temps plein et aujourd’hui il mobilise une équipe de 11 personnes dont 8 personnes à temps plein.
Quant à l’éventualité de sa prolongation, c’est confidentiel, mais celui-ci devrait logiquement être reconduit.

Le thème du big data agite les salons, les médias, occasionne la création de quantité de start-up, qu’est-ce que ça vous inspire ? La réalité des projets est-elle à la hauteur du bruit médiatique ?
Je crois qu’on n’en est qu’au tout début, autrement dit : non il n’y a pas, d’après ce que je constate, quantité de projets d’envergure ayant abouti. Une grande société de cosmétiques par exemple, qui évoque parfois ces sujets dans les médias et dispose d’un CDO (Chief Data Officer) ne fait rien de ses données, d’après ce que j’ai vu et entendu de la part des data scientist qu’ils ont sollicités.
On n’est pas encore au niveau de maturité, sur ces questions, de celui constaté aux US ou au Canada. Un exemple : Yoshua Bengio, qui est un chercheur à l’université de Montréal, spécialiste notamment du deep learning, a fait savoir qu’il rejoignait un projet et la société Element Ai.
Sur la seule annonce de sa venue, celle-ci, qui n’est qu’une start-up pour l’instant, a pu lever 50 millions de dollars.

Les data scientist sont recherchés de partout, on parle de pénurie. Comment les recruter, les retenir ?
(sourire) Le marché en a en effet un gros besoin pour les raisons évoquées ci-dessus (on est au tout début des recherches, projets). Il en existe de très bon niveau en France mais ils sont happés par les start-up, que beaucoup d’entre eux rejoignent notamment parce qu’ils y font des travaux intéressants, selon eux, tandis que les grandes entreprises ou les cabinets de conseil, pour leur majorité, ne leur proposent que du crunching brutal de data. Ça ne les fait pas rêver…

Il y aurait une liste noire, officieuse, des sociétés, cabinets au sein desquelles sont menés… les projets intéressants ?
Les gens se parlent dans ce milieu. Et les affichages de sponsoring, de soutien financier de grandes chaires n’ont en effet, pour ceux qui les financent, souvent qu’une justification. Leur difficulté réelle à recruter, à attirer ces profils qu’elles recherchent si activement et dont elles ont besoin.

Imaginons que je dirige une ETI*, un grand groupe et que je sois désireux de collaborer avec l’X sur ce projet, comment peut se passer et s’imaginer la collaboration ?
C’est possible de deux façons : l’école peut s’occuper de A à Z d’un projet de spin-off, en le plaçant dans un contexte qu’elle jugera favorable, en l’accélérant ou en le co-incubant. Plusieurs projets le sont actuellement. Elle peut aussi accélérer un projet de R/D qui lui serait confié avec une méthodologie similaire à celle utilisée dans les projets incubés.

Tu disposes d’un compte Twitter, assez peu alimenté apparemment, pourquoi ?
Oui, je sais… c’est d’autant plus bizarre que je travaille sur des données twitter… :)
En fait, j’en connais bien le fonctionnement mais ce n’est pas un mode de communication qui me sied. Je suis certaines personnes aux profils desquels je suis abonné et que je trouve particulièrement intéressantes mais je ne poste rien.

Quel usage fait-on, en général, d’après ce que tu observes, des réseaux sociaux chez tes collègues et dans le monde des data scientist ? (Même si la réponse n’est pas statistiquement fiable)
Ce n’est pas tant utilisé que cela. J’ai été surpris de constater que par exemple, sur l’école d’été (400 personnes dans la salle) une vingtaine de personnes aient tweeté.

Les parcours patients commencent à être étudiés, soignés, optimisés, dans le monde hospitalier ou des cliniques, sous l’angle de la satisfaction client : comment faire que le patient suive un parcours fluide, rapide, depuis son accueil jusqu’à la sortie de l’établissement, par exemple. Et qui permette de combiner perception positive de la qualité par le patient et l’optimisation des ressources humaines et financières de l’établissement médical. Ce type de sujet et réflexions peut-il intéresser des chercheurs selon toi ?
Oui bien sûr ! Il y a une équipe de recherche au Technion qui travaille sur ce genre de problématique (je ne me souviens plus des noms mais j’avais assisté à une présentation sur ce sujet, là-bas).

Quelle réputation a Alexandre Grothendieck chez les matheux ? As-tu lu le livre qui lui est consacré et qui a remporté le prix du meilleur livre de sciences en 2017 ? (Alexandre Grothendieck, sur les traces du dernier génie des mathématiques, Editions Allary)
Je n’ai pas lu le livre. Un très bon copain à moi (prof de prépa) a participé au documentaire qui a été fait sur lui dernièrement. Il a une réputation d’être absolument génial mais complètement fou.

Nous nous sommes rencontrés hors de tout contexte professionnel, dans un stage de récupération de points pour le permis. (On va tout de même préciser qu’aucun de nous n’y-est arrivé pour des grandes infractions routières, simplement ces pertes de points qui interviennent de façon non supervisée…) A part le service militaire, quelles sont nos chances, opportunités de rencontrer et commencer à découvrir autant d’individus différents de nous dans la société moderne, lorsqu’on vit en ville ? Quel sentiment t’ont laissé ces deux journées, dans une salle, à écouter et brasser des chiffres et anecdotes éloignés de ton quotidien ?
Ce fut un rare moment… de très grande mixité sociale intense. C’est assez unique comme expérience humaine (on aurait envie de demander à Depardon de planter sa caméra).

Propos recueillis par Manuel Jacquinet – Photographie Edouard Jacquinet

* Entreprise de Taille Intermédiaire.

Leave a Reply