image abstraite de couleur bleu avec des triangles à trait fin bleu clair

09 novembre 2017

1min

Automatiser la data science ?

Les tâches accomplies par un data scientist qui élabore un modèle prédictif relèvent pour partie de l’intuition, de l’expérience et de l’imagination et pour partie de tâches assez répétitives pour que l’on puisse désormais envisager leur automatisation. Depuis peu sont apparues des API, que l’on regroupe communément sous la bannière de l’AutoML, qui permettent d’automatiser certaines activités fastidieuses comme l’optimisation des algorithmes. Dans cet article nous examinerons quelles tâches sont effectivement automatisables, sur quels principes reposent ces mécanismes d’automatisation et à qui s’adressent ces nouveaux outils. Nous décrirons brièvement les systèmes AUTO-SKLEARN et TPOT qui préfigurent une généralisation des techniques d’AutoML dans un avenir proche.

1. Démocratiser la Data Science ?

Il est frappant de constater à quel point la seule évocation des termes « intelligence artificielle » suscite des espoirs qui, en 2017, tiennent presque d’une croyance en une forme de magie noire. Même certains esprits autrement cartésiens s’y laissent prendre et imaginent, en toute bonne foi, qu’il existe désormais des systèmes « intelligents » capables d’aspirer un magma de données hétérogènes pour les transformer en données intelligibles et ainsi faire « parler la data », comme dit le slogan !

Sans doute faut-il mettre cette forme d’ingénuité sur le compte des forces puissantes et habiles du marketing des petits et grands éditeurs de solutions IA dont l’intérêt premier n’est pas précisément celui d’éclairer les esprits.

Quiconque a un jour mis les mains dans le cambouis d’un projet de data science sait pourtant que l’IA demande, avant tout, beaucoup d’intelligence humaine. Elle s’exerce tout au long du pipeline d’un projet de data science. Rappelons rapidement en quoi consiste un tel pipeline dans le cas de la conception d’applications prédictives qui utilisent le machine learning supervisé,

Pirmin Lemberger

Chercheur, Directeur Data Scientist