Un classifieur automatique pour la Veille Sanitaire Internationale de la plateforme ESV
La Veille Sanitaire Internationale (VSI) constitue un dispositif clé de la plateforme Épidémiologie et Santé des Végétaux (ESV) pour la surveillance de la santé des végétaux en France. Elle repose sur la collecte hebdomadaire de pages web concernant une quinzaine d’organismes nuisibles prioritaires. En moyenne, 85 % des pages collectées s’avèrent non pertinentes pour la veille, générant une charge de tri manuel importante. Afin d’automatiser ce processus et d’accroître l’ampleur du dispositif, un classifieur automatique fondé sur l’apprentissage supervisé a été développé. L’outil exploite une base de données annotée de plusieurs centaines de milliers d’articles triés à la main pour distinguer les contenus pertinents des contenus non pertinents. Les meilleurs résultats ont été obtenus à partir d’un modèle de langue préentraîné couplé à un classifieur XGBoost. Ce système permet d’éliminer automatiquement environ 50 % des articles non pertinents, pour une perte limitée à 6 % d’articles pertinents. Le classifieur intégré à la pipeline VSI est opérationnel depuis septembre 2025, avec un suivi continu des performances et des réentraînements périodiques prévus.
Un classifieur automatique pour la Veille Sanitaire Internationale de la plateforme ESV
Antoine Marullaz (BioSP)
Lieu
à BioSP