Au cours de ces dernières années, de nombreux progrès ont été réalisés dans le domaine de la science des données. Néanmoins, le nettoyage et la préparation des données occupe toujours une part importante du travail des data scientists. Selon les estimations de l’enquête Anaconda, le chargement et le nettoyage des données prennent respectivement 19 % et 26 % du temps des personnes interrogées, soit quasiment une demi-journée de leur travail. Ensuite, la sélection, l’évaluation et le déploiement des modèles prennent environ 34 % du temps des data scientists selon la même enquête, soit environ 11 % pour chacune de ces trois tâches individuellement.
Pour ce qui est de la mise en production de ce travail préparatoire, c’est le manque de respect des normes de sécurité IT par les entreprises qui pose le plus de contraintes, à la fois pour les développeurs, les data scientists et les administrateurs systèmes. Par ailleurs, les applications d’apprentissage machine et de data science ont un cycle de vie présentant des défis assez particuliers, notamment le maintien et la correction des vulnérabilités de plusieurs applications open source.