Déploiement et monitoring de modèles IA en production avec le tableau de bord MLOps
6 min
Jun 23, 2023 from Activeeon
La surveillance efficace de dizaines ou de centaines de modèles d’IA en production est essentielle pour garantir la performance, l’efficacité et la fiabilité de ces modèles. Avec l’augmentation exponentielle du nombre de modèles déployés, il devient primordial de disposer d’un tableau de bord capable de fournir une vue d’ensemble détaillée, mais aussi une analyse approfondie de chaque modèle individuel.
Dans ce contexte, Activeeon est fier de vous présenter son nouveau tableau de bord MLOps. Ce tableau de bord fait partie intégrante de notre solution ProActive AI Orchestration, un outil essentiel pour ceux qui sont engagés dans la création de pipelines d’IA de bout en bout. Ce nouveau tableau de bord MLOps permet aux équipes d’identifier rapidement les problèmes de performance, d’optimiser l’utilisation des ressources, et d’assurer le suivi en temps réel des métriques clés telles que l’utilisation de la CPU et de la GPU, le taux d’inférence, et bien plus encore. Cette surveillance proactive permet non seulement d’anticiper les problèmes avant qu’ils n’impactent les performances globales, mais elle offre également une meilleure compréhension du comportement des modèles d’IA en production. Cette compréhension peut contribuer à améliorer la qualité et l’efficacité des futurs déploiements de modèles. Ainsi, le ProActive AI Orchestration, avec son tableau de bord MLOps, fournit une solution complète non seulement pour l’entraînement des modèles IA mais aussi pour la gestion et le suivi de vos déploiements en large échelle.
Dans cet article, nous allons présenter le tableau de bord MLOps et ses fonctionnalités, caractéristiques et interfaces. Le tableau de bord se compose de 3 onglets principaux.
Cet onglet est divisé en deux parties principales : (a) des informations générales sur toutes les instances de serveurs de modèles, (b) des informations particulières sur chaque instance de serveur de modèles et les modèles déployés qui lui sont associées. Dans la première partie, nous présentons six widgets permettant de monitorer l’activité de tous les serveurs de modèles.
Ces widgets traquent les métriques suivantes :
Dans la deuxième partie de cet onglet, un tableau affiche toutes les instances de serveurs de modèles en cours d’exécution, ainsi que des informations et des détails sur chaque instance, telles que :
Une nouvelle instance de serveur de modèle peut être démarrée directement depuis l’interface, sans avoir à se préoccuper de la complexité de l’infrastructure qui se cache derrière. L’utilisateur a la possibilité de configurer l’instance en utilisant les paramètres de base ou avancés avant de la démarrer.
Lors de la sélection d’une instance de serveur de modèle dans le tableau, un sous-tableau apparaît, détaillant la liste des modèles qui y sont déployés. Pour chaque modèle déployé, le tableau de bord fournit les informations suivantes :
Cet onglet permet de monitorer la consommation des ressources en exposant les métriques relatives aux consommations en termes de CPU et/ou GPU :
Le premier graphique trace l’utilisation du CPU en pourcentage. Ces pourcentages sont calculés en fonction des ressources du CPU consacrées au traitement des modèles actifs au fil du temps. Le deuxième graphique trace la mémoire consommée pour le traitement des tâches/requêtes exécutées en fonction du temps.
Dans cette partie, les graphiques représentent des informations sur la consommation des ressources GPU par les modèles déployés. Les graphiques “GPU Used Memory” et “GPU Free Memory” montrent la quantité de mémoire utilisée et libre du GPU par les modèles déployés. Le graphique “GPU Utilization” montre le pourcentage des ressources GPU consacrées au traitement des tâches exécutées par les modèles. Ces graphiques fournissent des informations pour tous les GPU en fonctionnement. De plus, l’utilisateur peut connaître la quantité d’énergie consommée par chaque GPU grâce au graphique “GPU Power Usage” (en watts).
Comme dans l’onglet précédent, cet onglet contient des graphiques présentant des informations sur la consommation des ressources par le tableau de bord lui-même.
Les graphiques affichés sont les suivants : Utilisation du CPU, Utilisation de la mémoire, Espace disque utilisé, Espace disque disponible et Trafic réseau.
Pour plus d’informations, veuillez consulter ProActive AI Orchestration documentation.