Data et presse régionale (3/3): Assurer la qualité et la pérennité des données
Collecter les données était le premier pas du processus pour l’automatisation de contenus (détaillé dans ce billet). Le deuxième posait la question des choix journalistiques dans les critères retenus pour créer ou travailler à partir de bases de données. Le troisième pas à assurer est celui de la qualité des données collectées et utilisées, ce que je détaille plus précisément ici.
“Garbage in, garbage out”
En effet, des mauvaises informations dans les données, des indicateurs qui changent, et paf, les articles produits automatiquement annoncent le mauvais gagnant ou un faux score de match. Bref, un article erroné. Pour éviter ça, la base de données nécessite vérification et correction, un travail souvent long et fastidieux.
C’est d’ailleurs la première difficulté que retient la journaliste et développeuse Laurence Dierickx dans son intervention au “Computation + journalism symposium” de févier 2019 à Miami (USA). Dans son projet Bxl’Air bot sur l’indice de la qualité de l’air à Bruxelles, elle a récupéré les données de la cellule inter-régionale d’environnement belge (CELINE) depuis des pages web et non pas depuis une base déjà structurée. Cela a impliqué des difficultés (anomalies dans les mesures, modification d’un indice en cours de route…) et un important travail humain de vérification mensuelle des données et de repointage.
Des annonces modérées en amont
Pour limiter au maximum ce genre de problème et créer une valeur ajoutée forte à son service d’annonces loisirs-sorties, Ouest France a choisi de vérifier en amont les données du portail Infolocale.fr. Les annonces sont structurées et disponibles sur un portail en open data dans lequel elles sont géolocalisées, corrigées (orthotypo) et modérées.
Pour assurer la qualité de ce travail, “60 SR (journalistes secrétaires de rédaction) en locale” remplissent cette mission, précise David Moizan, responsable de la plateforme Infolocale.fr. En effet, il est impératif de connaître la zone pour rester pertinent.
Xavier Antoyé, le rédacteur en chef du Progrès, souligne lui aussi ce point. Le groupe Ebra possède également sa plateforme d’infos loisirs ouvertes à la contribution et réfléchit à un projet d’automatisation de textes. “Notre base est ouverte aux associations que nous avons certifiées.” Le but est là-aussi d’éviter le restaurant local qui fait de la publicité gratuitement pour son karaoké tous les vendredis soir (au lieu d’acheter de la publicité) ou les annonces de type voyants, magnétiseurs, etc.
Everysport aussi modère les commentaires que les coachs envoient par SMS après les matchs.
Le nettoyage des bases, passage obligé
Les bases de données sont rarement correctement et entièrement remplies, il y a toujours un travail de nettoyage à prévoir avant de les utiliser. Que ce soit des doublons, des cases vides, d’autres mal renseignées, sans oublier les noms écrits de différentes manières ou les formats plus ou moins exotiques de fichiers.
Une des difficulté récurrente rencontrée dans le traitement des base de données est liée à la localisation. En effet, elle peut être indiquée par le code postale, ou par le code Insee (qui n’est pas le même sinon ça ne serait pas drôle). Il faut alors harmoniser les bases pour pouvoir les comparer. A cela s’ajoutent les mauvaises localisations, les dénominations qui varient selon qui a rempli la base (ex : “avenue”, “AV”, “AV.”, “Av.”, “av.” etc)
Pour effectuer ce nettoyage, les journalistes utilisent plusieurs outils : R mais aussi Open Refine ou encore Qgis, un logiciel “d’information géographique” en open source. Selon la quantité de données à traiter et la complexité du nettoyage, cette étape peut prendre de quelques minutes à plusieurs jours.
Archiver les données originales avant qu’elles disparaissent…
Pour assurer une démarche qualitative et pérenne, scraper des données d’une page web est rarement la meilleure option. La page peut être supprimée, avoir été déplacée ailleurs, le fichier source peut être retiré, modifié…. D’où l’importance de conserver les éléments recueillis dans des bases de données propres.
“Sur le web, il y a des choses qui arrivent, qui s’en vont, les ministères enlèvent leurs archives…”, Karen Bastien (WeDoData).
L’agence WeDoData a produit “A data sur la politique”, pour le média Les Jours. La série (qui comporte huit épisodes) se base sur des données publiques de l’activité des membres du gouvernements qui sont ensuite mises en forme de story.
Pour y parvenir, Karen Bastien explique dans le podcast A Parte que les journalistes et développeurs de WeDoData aspirent depuis le premier jour de mandat d’Emmanuel Macron de nombreux éléments publics (tweets des membres du gouvernement, des députés, des sénateurs, du Président, du Premier ministre, les agendas, l’activité parlementaire qui est déjà en open data…).
…et pour gagner du temps lors de leur (ré)utilisation
Toutes ces informations sont centralisées, stockées et organisées dans une base de données interne à l’agence. L’intérêt ? Un gain de temps considérable pour (re)trouver des informations, une grande réactivité, et une base de données branchée directement sur les outils maison de visualisation. De plus, avoir sa propre base donne des idées de sujets, d’angles (comme déjà évoqué dans cet article).
Même souci de réactivité chez Sud Ouest pour un tout autre sujet : les accidents de la route. Si la base de données des accidents corporels de la circulation vient de la plateforme (open) data.gouv.fr, elle est actualisée sur le portail chaque année et se présente en plusieurs parties. Elle nécessite à chaque mise à jour un gros travail de nettoyage et d’agrégation avant d’être utilisée, sans compter la maîtrise nécessaire de sa nomenclature très technique.
Pour gagner du temps, le service data de Sud Ouest récupère chaque année la nouvelle base, la nettoie et l’agrège aux précédentes. “Ça nous permet de sortir rapidement un historique d’accidentologie pour une zone précise, un carrefour, une intersection par exemple”, indique Frédéric Sallet, journaliste responsable du service data et infographie. “S’il fallait faire ça à chaque demande nos journalistes depuis les fichiers de data.gouv.fr, ce serait trop chronophage.”
Le travail de nettoyage et d’agrégation renouvelé chaque année apporte une valeur ajoutée pour la rédaction en terme d’usage au quotidien.
Pérennité et réutilisation des données dans le temps
Le travail de re-structuration d’une base de données et sa mise à jour sont deux étapes primordiales pour pouvoir la réutiliser dans le temps. Cela peut servir pour un événement récurrent qu’on compare d’une année à l’autre, ou pour analyser des évolutions par exemple. On peut aussi créer une base de données pour un usage initial et imaginer plus tard s’en resservir pour un autre sujet dans la même thématique.
A La Montagne, la réflexion est entamée sur cette question et le groupe a créé une base de données de tous les candidats à l’élection européenne de 2019 de type CV (nom, prénom, parti politique, comptes de réseaux sociaux, département, commune…). Cette ressource, créé en 48h par les 300 journalistes du groupe qui ont rempli un formulaire, a permis de générer automatiquement une page par candidat. La base sert depuis à travailler sur l’élection municipale de 2020, même si ce n’est pas pour de la génération automatisée d’articles.
Tout ce travail de documentation organisé sous forme de bases de données pourra être ré-exploité à chaque échéance électorale locale, enrichi, complété, mis à jour. Il pourra permettre la réalisation de nouveaux traitements éditoriaux (newsgames, graphiques, vidéos…).
Question alors, qui pour gérer ses bases de données internes dans les médias ? Le service documentation a-t-il vocation, via des formations adéquates, à conserver et assurer la viabilité de ces bases ?
Les mises à jour, une véritable valeur ajoutée
La carte de L’Avenir des communes dans lesquelles la tonte de pelouse est autorisée le dimanche, parue en 2018 et accompagnée de trois articles, se base sur des données récupérées par deux journalistes. Cet article typique d’info service avait cartonné lors de sa mise en ligne.
Il n’a fallu que deux ou trois heures au journaliste du weblab Arnaud Wéry pour mettre la base de données à jour et en tirer des angles d’articles à suggérer aux agences locales en 2019. Illustration de l’investissement initial (le temps passé lors de la création de la base) et du gain qui découle de sa mise à jour.
Quant au jeu de données sur les tarifs des cantines scolaires de primaires constitué par Sud Ouest (voir cet article sur la création de bases de données en PQR), même sil n’a pas été mis à jour depuis deux ans, il serait une base très utile pour un droit de suite lors des prochaines rentrées scolaires, avec les nouvelles équipes municipales en place. Il pose la base d’un suivi à moyen et long terme, permettant par exemple de voir si le changement d’équipes municipales influe sur les tarifs et si oui, de quelles manières.
Les mises à jour des bases peuvent s’effectuer à la main, avec une bonne dose d’huile de coude, comme dans les exemples pré-cités, ou se faire de manière automatisées par les API. C’est ce qui permet par exemple au Télégramme de générer des articles automatisés sur le prix des carburants avec mise à jour automatique quand un prix change (détails à lire ici).
Pour autant, certains évitent les mises à jour. Victor Alexandre, journaliste data au Parisien, préfère télécharger intégralement une base de données (quand elle est d’une taille “raisonnable”) plutôt que de procéder à des petites mises à jour. “Je trouve que ça complexifie le travail”, indique-t-il. Il souligne aussi la difficulté de maintenir une base de données quand plusieurs personnes y ont accès, et le risque de multiplier les erreurs, les trous ou le manque de cohérence possible.
Cette question de la mise à jour se gère finalement en fonction des moyens humains de la rédaction, du nombre d’intervenant-es potentiel-les dans les bases de données et de l’organisation de la rédaction. C’est aussi une question de priorités de la direction.
Soigner sa documentation
Enfin, élément très important pour la pérennité d’une base de données et sa réutilisation : sa documentation pour savoir qui l’a faite, avoir un contact téléphonique lié, sa date de création, le détail de la nomenclature, les modifications, qui l’a constituée, le financement de la base.
“Si on n’a pas les informations complémentaires, on peut aller au carton en terme d’interprétation”, prévient Julien Vinzent, journaliste chez MarsActu. “Exemple : les avantages en nature pris en compte dans la base de données des subventions aux associations culturelles n’étaient pas valorisés en numéraire. Maintenant si. Résultat, si on ne le sait pas, on a l’impression que la subvention a augmenté alors que c’est un changement comptable”.
A l’heure actuelle, la réflexion sur le travail à long terme et la pérennité des bases de données est peu poussée dans les rédactions de PQR. Et pour cause, les équipes sont généralement restreintes (voir il s’agit d’une seule personne), le nez dans le guidon de la production quotidienne, sans toujours une vision stratégique claire venant de la direction. Il peut aussi y avoir un manque de connaissances techniques spécifiques qui limite la mise en perspective et la projection d’un usage futur, d’une réutilisation.
Cet investissement est pourtant payant quand il est mené dans les rédactions, même avec peu de moyens. Gain de temps, réactivité, diversification des sujets et des angles sont autant de bonnes raisons de creuser ce sillon.
Les profils de journalistes data experts des bases de données ne courent pas les rues mais pourraient devenir très recherchés au fur et à mesure que les médias cherchent à utiliser davantage ces outils. On peut aussi voir une opportunité de transformation ou d’adaptation de certains métiers, comme les documentalistes qui pourraient avoir un rôle à jouer. A condition d’être formés et accompagnés, et à condition que les directions posent cette question comme une priorité dans le développement de leur média.
Autres articles de la série :
- Data et presse régionale (1/3) : 8 façons de collecter des données inédites
- Data et presse régionale (2/3) : L’importance des questionnements et des choix éditoriaux