Supervision : Nagios ouvre la voie à l’open source

Annabelle Bouard , Décision Informatique, le 12/05/2006

A côté des grandes plates-formes d’administration telles que HP OpenView ou Tivoli d’IBM, que de nombreuses entreprises n’ont pas les moyens de se payer, le monde du logiciel libre offre quantité d’outils de supervision. Leur couverture fonctionnelle est certes moins étendue, mais ils répondent aux besoins de la plupart des petites et moyennes structures. Nagios, logiciel libre de supervision, est très apprécié par les entreprises. Pérenne – il a été développé en 1999 -, il est soutenu par une communauté très active.

Le besoin : surveiller son réseau sans trop dépenser

Les besoins en matière de supervision de systèmes et de réseaux sont assez variés. Certaines entreprises souhaitent simplement une visibilité en temps réel de leur fonctionnement, d’autres veulent également des alarmes en cas de problème, des mesures de performances ou un historique pour l’aide à la décision, voire l’ensemble.

Ces fonctions visent la plupart du temps le suivi de l’infrastructure propre à l’entreprise, mais peuvent aussi avoir pour but de vérifier la qualité du service fourni par un prestataire de connectivité ou d’infogérance. C’était le cas de la compagnie aérienne Régional, qui utilise Nagios depuis deux ans. « Auparavant, un tel outil n’était pas indispensable. Puis, avec la multiplication des équipements informatiques, des fonctions de remontée d’alertes s’imposaient », explique Olivier Thebaud, responsable systèmes et réseaux de Régional.

La société souhaitait superviser les matériels d’interconnexion et la disponibilité des serveurs de ses sites centraux, ainsi que les routeurs de sa trentaine de sites distants. « Les routeurs d’accès appartiennent à nos opérateurs, France Télécom ou la Sita, qui en assurent la supervision et la maintenance. Nous souhaitons avoir une visibilité sur leur fonctionnement et recevoir des alertes, même si nous n’intervenons pas », explique Olivier Thebaud.

Les prestataires de services proposent généralement leurs propres outils de suivi. L’hébergeur Claranet utilise Nagios, MRTG (Multi Router Traffic Grapher) , Net-SNMP ainsi que de nombreux scripts créés en interne pour aller plus loin dans la supervision. En complément, la société a développé il y a trois ans Clarawatch, une interface qui visait d’abord la supervision de ses propres systèmes et réseaux. Elle l’a ensuite également exploitée pour le suivi des systèmes des clients.

Ces derniers consultent via une interface web des graphiques d’historiques de disponibilité, d’usage, etc. Le spécialiste de l’infogérance et de l’hébergement Aliadis, de son côté, a d’abord utilisé Nagios, avant de déployer il y a environ un an son propre logiciel, Alinoé. Ce dernier fournit à ses clients une visibilité sur ses plates-formes, en exploitant les fonctions d’ordonnancement de Nagios. Intrinsec, société du Groupe Neurones spécialisée dans la sécurité, a suivi une démarche similaire, mais a fini par éliminer le coeur Nagios de son outil de supervision RTMS (Real Time Monitoring System), proposé aux clients sous forme de service.

« RTMS enrichissait Nagios d’une nouvelle interface graphique pour aller plus loin dans la visualisation des états et le paramétrage de la supervision. Puis nous avons ajouté la gestion de tickets d’incidents pour notre centre d’assistance. Ensuite, nous avons redéveloppé la plupart des plug-in pour intégrer des outils de représentation graphique. Nagios n’étant plus réduit qu’à ses fonctions d’ordonnancement, nous avons fini aussi par les redévelopper », explique Thomas Soupault, chef de projet chez Intrinsec. La société supervise les équipements de plus de 200 clients, et doit gérer de fréquentes évolutions du parc et du paramétrage de la supevision. « Nagios était trop limité par rapport à l’ampleur de nos besoins. Ceci étant, la plupart des entreprises qui l’utilisent administrent 50 à 1 000 machines sans difficulté majeure », remarque Thomas Soupault.

Le choix : l’évolutivité est un critère clé

Pleinement satisfaites des outils de supervision libres, certaines sociétés n’ont pas jugé utile d’envisager d’autres solutions alternatives. Claranet en utilise depuis 1998. « Le logiciel libre est stable, robuste et dépourvu de problèmes d’interopérabilité. Le code source est disponible, nous le consultons fréquemment, et il nous arrive de remonter des bugs aux développeurs », souligne Erwan Lerasle, responsable de l’exploitation clients chez Claranet.

Jusqu’à il y a environ trois ans, le Parc d’expositions de Paris-Nord-Villepinte utilisait HP Top Tools – un outil de supervision fonctionnant avec Windows que HP a arrêté de faire évoluer fin 2002, et dont l’assistance sera interrompue fin 2007. « Cet outil fourni avec les commutateurs HP n’était pas du tout évolutif. Il ne permettait pas de redéfinir des fonctions, et était très gourmand en ressources réseau », souligne Jacques Guigui, directeur technique délégué. Pour le choix du nouvel outil, la société a fait confiance à son intégrateur Adelux, qui a proposé Nagios.

De son côté, l’hébergeur Aliadis avait examiné OpenNMS et Sentinix du côté des logiciels libres, ainsi que Big Brother, qui existe aussi en version « commerciale », et, parmi les solutions des éditeurs, Tivoli (IBM) et HP OpenView. Ces dernières ont été écartées en raison de leur coût, de la dépendance vis-à-vis de l’éditeur pour toute évolution et de l’important chantier que représente leur déploiement.

L’utilisation du logiciel Big Brother a été jugée trop lourde. Celui-ci était également trop gourmand en ressources, tout comme OpenNMS, un logiciel écrit en Java. Quant à Sentinix, il ne semblait pas pérenne à juste titre puisque son assistance technique est aujourd’hui arrêtée – et, étant donné qu’il était basé sur Nagios, Aliadis préférait utiliser directement ce dernier. La société Régional, pour sa part, a choisi Nagios après avoir été convaincue par la démonstration d’une entreprise utilisatrice présentée sur le site officiel du projet, http://www.nagios.org.

De l’avis général, les solutions propriétaires sont trop coûteuses, d’autant que tout ajout fonctionnel se paye. « Nagios est le couteau suisse de la supervision réseau. Il ne fait pas tout en standard, mais est capable de tout faire. C’est avant tout un ordonnanceur de scripts de supervision », explique Thomas Soupault.

Une cinquantaine de plug-in sont livrés en standard et on peut facilement en créer de nouveaux, par exemple de nouvelles alarmes par le biais de scripts Shell ou Perl. Et si la société qui en crée un le met à disposition de la communauté, tout le monde peut en profiter. « J’ai, par exemple, écrit un script en Perl qui effectue une requête sur un point d’échanges, et génère un graphique en fonction de la configuration du routeur. L’un de mes scripts a été téléchargé 200 fois par mois », affirme Erwan Lerasle.

La mise en oeuvre : un travail en amont indispensable

Le déploiement de Nagios est très rapide, y compris en l’absence d’expérience dans le domaine du logiciel libre. « Tout est bien documenté, même pour quelqu’un qui débute sur Unix. Pas besoin de certifications, il faut simplement s’armer de courage pour lire les informations. Nous avons vu quelqu’un sans expérience l’utiliser en trois jours », indique Erwan Lerasle.

Comme avec tout logiciel de supervision, il ne faut pas négliger le travail préparatoire. « Ce n’est pas la mise en place du logiciel en lui-même qui prend le plus de temps, mais la compréhension des besoins », note Thomas Soupault. Il faut établir la liste des machines et tous les paramètres de supervision, comme les services à surveiller (HTTP, SMTP, etc.) et les paramètres des alertes associées, avec une éventuelle variabilité des traitements selon, entre autres critères, l’heure et le jour de la semaine.

« Cela permet, par exemple, de suspendre les contrôles sur une machine donnée lorsqu’on l’arrête pour effectuer des sauvegardes, afin d’éviter les alarmes intempestives », indique Jacques Guigui. Selon le système d’exploitation de la machine à surveiller, un logiciel client sera éventuellement nécessaire. « Nous avons dû en installer un avec Windows pour suivre l’utilisation de l’espace disque », affirme Olivier Thebaud. Des scripts d’installation posent des questions simples – du type « Souhaitez-vous surveiller les ports Web ? Oui/non » – pour générer un fichier de configuration.

Cependant, Nagios ne comporte pas de fonctions de découverte évoluée. Pour combler cette lacune, Paris-Nord-Villepinte utilise des petits logiciels libres comme NetWhistler, qui construit une carte réseau, avec une vérification permanente du plan d’adressage IP.

L’utilisation : un même outil surveille le PABX et les données

Après réalisation d’une maquette, Régional a déployé Nagios pour superviser aussi bien les plates-formes matérielles (espace disque, mémoire, taux d’occupation du processeur, etc.) que certaines applications telles que les bases de données et les matériels réseau. La compagnie aérienne a dû faire face à une petite difficulté liée au serveur Web Apache sur lequel s’appuie Nagios.

Certaines autorisations d’accès par défaut bloquaient l’exécution de certains scripts liés aux alertes. La société Régional a trouvé la solution dans un forum de discussion. « Mais il s’agissait d’un problème vraiment mineur comparé à la facilité globale d’installation du logiciel », relativise Olivier Thebaud.

À Paris-Nord-Villepinte, Nagios supervise 310 équipements, « une centaine de commutateurs, une vingtaine de PABX IP, une trentaine de serveurs et environ 150 équipements techniques tels que des barrières de parking ou des automates programmables. L’ensemble représente environ 600 services surveillés, de la simple vérification de la connexion par un ping au suivi de l’espace disque et de la charge CPU, en passant par les services SMTP, DNS, SSH, NetBIOS, Java ou d’autres services utilisés par des applications vitales. Nous en rajoutons en permanence », précise Jacques Guigui.

Les limites : savoir intégrer des outils complémentaires

Nagios ne sait gérer que trois états, lesquels couvrent un fonctionnement normal, un avertissement et un état critique. « On ne peut rajouter d’état car c’est un élément trop profondément ancré dans le système », regrette Thomas Soupault. Il ne fournit pas de suivi de la charge réseau. « Nous allons donc chercher les informations SNMP sur nos commutateurs HP, et les exploitons par des graphiques RRDtool, que nous visualisons dans l’interface Nagios », explique Jacques Guigui.

D’autres outils libres sont susceptibles de compléter Nagios. Cacti, par exemple, automatise les requêtes et stocke les informations dans une base de données pour les exploiter plus finement. Régional l’utilise. « Alors que Nagios sert à l’exploitation journalière, Cacti nous fournit une vision à long terme , indique Olivier Thebaud, par exemple, l’évolution de la bande passante utilisée par les équipements réseau pour constater des problèmes éventuels de saturation et anticiper les besoins d’augmentation de débit sur les lignes. » Régional complète aussi son infrastructure de supervision par le biais de Ntop, un outil transformant un simple PC en sonde réseau.

« Nous analysons ainsi les problèmes du réseau, pour un investissement très faible », explique Olivier Thebaud. La société surveille ainsi les liens de son réseau étendu. Cela lui a permis à plusieurs occasions de trouver la source à l’origine d’une infection virale.

Un bon rapport qualité/prix

Nagios est simple à installer. Sa mise en oeuvre ne nécessite que deux à troix jours. Il n’est pas indispensable de recourir aux services d’un prestataire pour le faire, pour peu que l’on prenne le temps de lire attentivement la documentation, très détaillée. Il est également facile à utiliser. Il est généralement déployé pour le suivi de quelques centaines de serveurs, mais est capable d’en suivre des milliers (et des dizaines de milliers de services).

Peu gourmand en ressources

Loin de nécessiter un serveur puissant, Nagios se contente de ressources matérielles modestes. Cela permet de tirer parti de vieux serveurs, au lieu de devoir investir dans une nouvelle machine. Les seuls prérequis sur le serveur sont Linux (ou un autre Unix) et un compilateur C.

Des fonctions manquantes

Nagios ne fournit pas, par exemple, de découverte automatique des éléments présents sur le réseau, n’effectue pas de suivi de la charge de ce dernier – il n’est pas prévu pour traiter nativement des informations SNMP -, ou encore ne réalise pas d’historiques. Cependant, il est possible de combler ces lacunes par le biais d’autres logiciels libres, pour constituer une solution « à la carte » répondant aux besoins de l’entreprise.

Seulement trois états possibles

Pour assurer le suivi en temps réel du fonctionnement des services et matériels surveillés, Nagios utilise trois états : normal, avertissement et critique. Il n’est ainsi pas possible d’affiner la supervision par des états plus granulaires. Des vues de l’état des services, hôtes ou matériels réseau sont présentées au travers d’une interface Web, avec un accès aux informations éventuellement filtré selon les droits des utilisateurs.

Jacques Guigui (Parc d’expositions de Paris-Nord-Villepinte)
« Nous avons d’abord mis en place un simple suivi de connectivité »

Au Parc d’expositions de Paris-Nord-Villepinte et Paris-Le Bourget, l’objectif premier des outils de supervision est d’alerter les responsables en cas de problème. Plus de 310 équipements sont surveillés. Sur une trentaine de serveurs, une douzaine sont particulièrement vitaux, concernant les services d’accès Internet fournis par le parc et les réseaux privés virtuels pour l’administration à distance.

« Nous avons d’abord installé la version de base de Nagios, pour le suivi de la connectivité. Le logiciel, installé en deux ou trois jours, était opérationnel en moins d’une semaine. Nous aurions pu l’installer nous-mêmes en utilisant la documentation, mais c’était plus confortable de le confier à un prestataire, pour un coût marginal comparé à celui de solutions commerciales », indique Jacques Guigui.

Paris-Nord-Villepinte a apprécié la possibilité de mettre progressivement en place des services de plus en plus évolués. La supervision du hot spot Wi-Fi a été ajoutée récemment. « Nous surveillons la qualité des connexions sans fil assurées par les bornes, le nombre de personnes connectées, les transactions, etc., indique Jacques Guigui. Nagios est un outil simple et efficace : aucune idée de supervision ne s’est révélée impossible à concrétiser, et nous n’avons rencontré aucun problème en deux ans. »

Paris-Nord-Villepinte

Activité : Parc d’expositions de Paris-Nord-Villepinte et de Paris-Le Bourget, filiale de la CCI de Paris.

Siège social : Roissy-Charles-De-Gaulle (95).

Effectif : 105 personnes.

CA 2005 : 80 millions d’euros.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Retour en haut