Data et presse régionale (1/3) : 8 façons de collecter des données inédites

15 min readJan 18, 2020

Grâce aux données, les médias régionaux peuvent imaginer des idées de sujets et des angles différenciants, ils peuvent aussi automatiser certaines publications, créer de nouveaux services ou bien développer des enquêtes basées sur des informations exclusives.

Pour ça, il est nécessaire de trouver des bases de données déjà existantes ou de créer ses propres bases de données. Cette seconde option, constituer des bases de données pérennes, est pour les médias régionaux un investissement stratégique, tant d’un point de vue éditorial (crédibilité) qu’économique (fidélisation, levier d’abonnements). Et pour créer ses bases, la première question est la suivante :

COMMENT COLLECTER DES DONNEES INEDITES ? Retours d’expérience de différents médias régionaux

[Dans ce billet, il sera uniquement question de la collecte, un sujet dense. La qualité des données et les choix éditoriaux seront abordés dans des articles à venir.]

En PQR, les premiers thèmes cités par la plupart des éditeurs contactés sur la création de bases de données éditoriales sont les infos loisirs, l’élection municipale de mars 2020 et le sport local. En effet, tous les titres de PQR et PHR ou presque possèdent des pages agendas, et tous ou presque couvrent les compétitions sportives locales, sans parler de l’élection des prochaines “premiers édiles”. Mais les sujets d’enquête à travers les données concernent tous les secteurs puisque nous en créons de plus en plus en permanence. Voici huit exemples de collecte de données :

1/ Grâce au travail des journalistes, secrétaires de locales ou correspondants

Pour son enquête sur les tarifs des cantines scolaires en primaires et maternelles en décembre 2017, pour lesquels aucun jeux de donnée n’existe, Sud Ouest a mis à contribution ses journalistes et secrétaires d’agences.

Si l’idée d’un formulaire en ligne à proposer aux parents a été abordée, elle a été écartée en raison de complexité des tarifs (avec ou sans quotient familial, nombre de tarifs différents etc). “Il y avait trop de risques d’erreurs de saisie ou de données incomplètes”, explique Frédéric Sallet, responsable du service data et infographie. Résultat, la collecte a été effectuée à la main.

Les journalistes et secrétaires ont téléphoné aux personnels des mairies, leur ont envoyé des mails et ont fouillé les sites internet pour trouver les tarifs quand ils y étaient indiqués. Puis ils ont rempli un Google Form pour que les données soient centralisées et structurées dans un seul document.

De ce travail de récolte qui a duré environ un mois, ils ont tiré un dossier exclusif (aucune base de données n’existe sur le sujet), rédigé quatorze articles, identifié des disparités fortes et des étrangetés (comme une commune située en zone “rep+” ne proposant pas de tarif social), bref des informations intéressantes à travailler et inédites.

Les informations de 168 communes (dont toutes celles de plus de 10 000 habitants, et un échantillon aléatoire de 20 communes pour chacun des sept départements) ont été récoltées pour ce dossier.

A L’Avenir, en Belgique, de nombreux articles basés sur des données sont publiés régulièrement. Arnaud Wéry, datajournaliste du weblab, travaille avec la participation des agences locales, notamment sur les taxes sur les terrasses ou encore les tontes de pelouses. Pour que la collaboration fonctionnent bien, il est primordial d’avoir une personne référente et/ou des chefs de service convaincus de l’intérêt de la démarche dans chaque locale.

“La collecte prend du temps mais c’est un investissement qu’on rentabilise”, Arnaud Wéry.

Cette collecte permettra de produire des articles avec différents angles et formats (graphiques, ludiques, etc), mais aussi de préparer des interviews. La base de données ainsi constituée pourra ensuite être mise à jour tous les ans (selon la nature du sujet) pour également constater les évolutions dans le temps par exemple. “On aura une mine d’or qu’on pourra exploiter”, souligne le journaliste. Une mine d’or exclusive pour le média puisqu’elle n’existe pas ailleurs.

2/ Avec la participation des associations et des acteurs culturels

L’info loisirs, qui regroupe les sorties du weekend, les informations culturelles, les brocantes etc, est un sujet important en local. Plusieurs médias de PQR souhaiteraient automatiser les articles d’annonces par exemple. Il est vrai qu’un agenda exhaustif et triable facilement par critères attire les internautes en mal de sorties car c’est un service pratique. Mais pour automatiser, et imaginer des services personnalisables pour les internautes, encore faut-il construire la base de données.

Infolocale.fr existe depuis plus d’une dizaine d’années. Elle a été initialement conçue par Ouest France pour alimenter l’agenda print en info loisirs.

Depuis une bonne dizaine d’années, Ouest France a mis en place un outil de collecte appelé Infolocale.fr (qui avait pour objectif initial d’alimenter le print). Cette base de données est remplie directement par les organisateurs d’événements (institutionnels, associations et particuliers). L’intérêt d’y déposer son annonce quand on organise un bal ou une brocante à La Chapelle-sur-Erdre (ou ailleurs dans l’ouest) ? En une seule saisie, l’annonce sera potentiellement disponible sur plusieurs sites des cinq quotidiens régionaux et 40 hebdos du groupe de presse régional, sans compter les newsletters locales ou thématiques. Enfin, les annonces sont aussi disponibles sur les portails des 80 collectivités territoriales qui réutilisent les informations de cette base.

Le moteur premier de la participation, c’est d’abord la parution dans le papier. “C’est la puissance du print”, souligne Fabrice Bazard, directeur des activités numériques du Groupe Sipa Ouest-France.

La promesse fonctionne et Ouest France attire une masse critique assez importante (500 000 annonces loisirs et vie quotidienne affichées dans le grand Ouest par 80 000 organismes) pour offrir un véritable agenda à l’internaute de La Chapelle-sur-Erdre qui veut savoir ce qui se passera dans son coin le weekend prochain.

“Sur les événements récurrents, ça marche mais les gens ne pensent pas forcément à envoyer leurs informations pour des événements ponctuels”, complète Claude de Loupy, cofondateur de Syllabs (dans lequel Ouest France a pris une participation).

S’il arrive aussi que les correspondants et journalistes récoltent les données agenda/loisirs, ils ne peuvent pas en collecter autant aussi vite.

3/ Par les acteurs institutionnels

Autre méthode de collecte intéressante, celle de Fréquence-Sud.fr, site spécialisé dans l’actualité culturelle et touristique, qui recueille les informations de la météo des plages auprès des municipalités ou offices du tourisme (température et qualité de l’eau, présence ou non de méduses).

“On leur a vraiment facilité la tâche avec des petites cartes NFC/QR Code pour que les surveillants puissent le faire avec leur smartphone depuis la plage”, explique Jean-Baptiste Fontana, directeur de la publication.

Iframe sur le site de la ville de La Ciotat fournit par Fréquence-sud en contrepartie de la participation à la collecte par les agents de la commune.

Les informations recueillies sont utilisées dans des pages “infos pratiques” dédiées à chaque plage, dans les pages d’actualité qui citent les plages en question, ou permettent aux journalistes d’avoir des informations pratiques pour rédiger des articles plus consistants.

Pour convaincre les municipalités de participer, Fréquence-Sud leur permet ensuite de récupérer les informations via un widget en marque blanche ou un flux RSS. Les collectivités évitent ainsi de créer, gérer et héberger une base de données tout en utilisant les informations sur leurs propres sites. Le plus difficile dans cette démarche ? Convaincre les communes de participer à la collecte. Un travail qui vaut le coup pour le média puisqu’il dispose ainsi “d’une information exclusive, avec une certaine valeur ajoutée pour le lecteur et des outils pour faciliter le travail de la rédaction” souligne Jean-Baptiste Fontana.

Quand un élément évolue dans la base de données, un drapeau de baignade qui passe au rouge ou la présence de méduses par exemple, la rédaction reçoit une alerte automatisée par email. Libre ensuite aux journalistes de juger s’il y a matière à un article ou pas. [C’est une des fonctions évoquées dans mon article sur la génération automatique d’articles en presse régionale.]

4/ Auprès des clubs sportifs, sur leurs sites et par les réseaux sociaux

Le sport local est un autre grand thème que des titres de PQR aimeraient en partie passer à la moulinette de l’automatisation, mais qui n’a pas encore abouti. Chaque fédération sportive fonctionne avec ses propres outils, ses prestataires et ses process. Certaines ouvrent des API, c’est le cas du basket et du rugby, d’autres non ou sous condition/via des partenariats spécifiques (le foot, le hand par exemple).

Autre méthode utilisée pour récupérer les informations : le scraping des sites des fédérations et des districts. Mais la technique reste fragile car la moulinette créé pour récupérer et traiter les données sur le site d’un sport ne sera pas utilisable sur un autre, chaque site ayant sa propre charte graphique. Par ailleurs, si le site modifie sa charte, le programme de scraping ne rapporte plus rien.

Pour compléter ces deux méthodes, reste la bonne vieille technique “à l’ancienne” : téléphoner ! Souvent assurée par des étudiants dans le cadre d’un petit boulot le dimanche soir ou par les correspondants, cette étape de la collecte permet aux médias d’obtenir les résultats manquants par les autres moyens.

En Suède, la compagnie Everysport (qui fournit les données à United Robots et MittMédia) a créé ses bases de données locales de sports collectifs (catégorie adulte) en 2000 pour les pages de résultats dans les versions print des journaux locaux. La société récupère les informations après chaque match, en partie auprès des fédérations sportives et en partie par téléphone auprès des clubs et référents, explique Stefan Lundström, responsable data chez Everysport. Ils scrutent aussi les comptes Twitter, les sites des fédérations et des clubs.

Le travail mobilise six à sept personnes par soir pour 300 à 400 matchs et s’appuie sur une curation forte des comptes fiables et qui donnent les résultats en premier. Lors d’un mois “typique” (août), cela représente environ 5 000 coups de fil contre 2 500 en moyenne pour un mois plus calme. Ces appels sont consacrés aux troisièmes divisions et inférieures. Les divisions supérieures fonctionnent plus facilement avec des envois automatiques de résultats de la part des fédérations, des coopérations avec d’autres acteurs et de la veille sur les réseaux sociaux. L’équipe peut aller jusqu’à quinze personnes par soir en fin de saison lors des soirées chargées de fin juin, sur un créneau de 19h à 23h. Le but du jeu : récolter un maximum de résultats pour 22h, l’heure moyenne de bouclage des journaux locaux.

“On a commencé avec quelques journaux et on a augmenté graduellement notre couverture”, explique Stefan Lundström. Cela implique également un travail important de mises à jour des bases de données contenant les contacts et comptes à suivre avant chaque début de saison (mai pour le foot, septembre pour le hockey). Vérifier si untel/unetelle est toujours en place et sera toujours bien la personne à contacter le jour J.

5/ Via des questions automatisées par SMS aux coachs sportifs

L’expérimentation la plus récente d’Everysport en terme de collecte est l’envoi d’un SMS aux coachs des équipes après chaque match. La réponse, par SMS aussi, est intégrée dans l’article généré automatiquement par United Robots afin de l’enrichir. Lancée en décembre 2018, l’opération intègre pour le moment environ 400 coachs tous sports couverts confondus.

Capture d’écran de la présentation du système sur le site de United Robots

Dans un premier temps, les journaux locaux fournissent à Everysport une liste des équipes les plus importantes pour eux (ça peut aller de 5 ou 6 équipes à 80). La société contacte les entraineurs pour recueillir leur accord (avec l’argument de la visibilité) et leur numéro de portable. Puis elle envoie après chaque fin de match un SMS automatique comportant une question.

La question est choisie de manière algorithmique en fonction des dernières statistiques de l’équipe (trois matchs gagnés dans la foulée, le leader défait par un des derniers au classement, etc) dans une liste établie préalablement par des journalistes.

Ce sont les journalistes qui ont imaginé les différents scénarios possibles et prévus une vingtaine de questions types dans lesquelles l’algorithme pioche. Chaque sport possède sa liste de questions propres.

Les réponses sont ensuite modérées avant d’être intégrées dans les articles générés puis mis à jour automatiquement. “On avait peur que la modération prenne beaucoup de temps mais finalement non”, détaille Stefan Lundström. Cette étape permet de corriger les erreurs de frappe et modérer les quelques termes peu courtois quand il y en a, “mais il n’y en a pas tant que ça”. Ce qui prend le plus de temps ? Convaincre les entraîneurs de participer.

6/ Par la reconnaissance visuelle automatisée

Chez Stat Perform (ex Opta Sport), une solution payante spécialisée dans le sport qui travaille notamment avec L’Equipe, des caméras dans les stades américains filment et enregistrent les matchs. Des algorithmes de reconnaissance visuelle décryptent les images et consignent les actions de manière structurée pour en tirer des articles, graphiques et autres contenus automatisés.

En France, pour générer les bases de données hyper détaillées du foot professionnel (qui représente 90% des demandes clients de Stat Perform en Europe), trois analystes (humains) scrutent la diffusion vidéo de chaque match de foot (un dédié à chaque équipe, plus un superviseur) et en consignent les actions.

Serait-ce réalisable au niveau régional ? Si James Chalk, responsable France de Stat Perform, ne dit pas non, on comprend bien que les coûts de production ne sont probablement pas supportables par rapport à la monétisation potentielle des articles qu’elle permettrait de créer. Si techniquement, tout est possible, quelle est l’équation économique possible ?

Pour Stefan Lundström, d’Everysport, la viabilité économique de son entreprise se base sur une forte tradition suédoise des pages de résultats sportifs dans la presse locale. Chaque petite ville a son journal. Par ailleurs, il existe “une forte tradition de communautés locales impliquées dans les activités sportives. Beaucoup de gens sont engagés dans des clubs locaux”, précise-t-il. Enfin, la collecte devient de plus en plus facile chaque année, l’identification des bons comptes à suivre permettant un gain de temps qui n’existait pas avant les réseaux sociaux.

7/ Quid de la participation des internautes ?

Concernant la collecte de données de sport local, Guillaume Desombre, pdg de LabSense (prestataire de génération automatisée de textes et concurrent de Syllabs) penche pour “un mix entre informations de la fédération sportive et l’UGC (contenus fournis par les internautes), avec une validation”.

Il faut alors déterminer qui valide et comment. Est-ce une validation par la masse d’internautes donnant le même score ? Par des internautes déjà sélectionnés et “vérifiés” (qui feraient alors office de correspondants sportifs ?) ? Voire un savant mélange des deux ? Ces questions s’appliquent à tous les domaines, pas uniquement au sport.

Coté météo des plages, Fréquence-Sud envisage de demander la participation des internautes à partir de l’été 2020. Cela permettrait de proposer des avis sur la qualité et la propreté de la plage, de l’eau et notations de “vrais gens” en plus de la température de l’eau, de la couleur du drapeau et de la température de l’air. Le contrôle se ferait par une évaluation de “la fiabilité” de l’usager cumulé aux autres notes et commentaires pour le même lieu.

Exemple de crowdsourcing un peu daté mais très parlant et régulièrement montré lors des formations en datajournalisme, la collecte des tarifs de l’eau en France menée par Owni en 2011 pour la Fondation France Libertés et 60 Millions de Consommateurs. En quatre mois, environ 5 000 particuliers avaient scanné et envoyé leurs factures d’eau. Les informations ont été validées par une dizaines d’employés de l’ONG France Libertés via un mécanisme de notation (comme Nicolas Kayser Bril le décrit ici).

Ces dernières années, les Allemands de Correctiv.org ont mené plusieurs enquêtes locales avec cette méthode : “A qui appartient Hambourg ?” (enquête pour savoir à qui appartiennent les logements à Hambourg, durant six mois, en partenariat avec le Hamburger Abendblatt et environ 1 000 locataires participants, qui a généré plusieurs articles), les absences non remplacées des profs à Dortmund (un mois d’enquête participative, 520 participants et des résultats montrant deux fois plus d’absences non remplacées que les chiffres du ministère)… Correctiv.org a aussi ouvert leur plateforme Crowdnews sous forme de service payant aux autres éditeurs.

Pour couvrir l’élection municipale de mars 2020, Sud Ouest et Centre France ont lancé des questionnaires en ligne à destination des internautes. Il s’agit là aussi d’une collecte d’informations pour nourrir les journalistes, les aider à sentir les questions que se posent réellement les gens, les sujets qui les préoccupent, vérifier qu’ils sont en phase avec les électeurs et leurs lecteurs.

Ce questionnaire, intitulé “Si j’étais maire”, propose des questions fermées (plus faciles à traiter ensuite). Il a été initié par le collectif Data+Local, qui regroupe de nombreux journalistes data de PQR.

Montage à partir de captures d’écran du questionnaire Si j’étais maire, sur le site du Berry Républicain.

8/ A travers les objets connectés

En 2017, j’assistais à une conférence étrange présentant une enquête consacrée à la production du lait. L’angle ? Donner la parole à trois vaches laitières via des capteurs, chacune vivant dans un environnement différent (ferme bio, ferme familiale classique et une grosse exploitation). Nom de code : Superkühe (super vaches).

Le système de gestion des troupeaux (déjà présent dans les exploitations agricoles) a été le premier moyen de collecte utilisé. En plus, des capteurs (dans les étables mais aussi ingérés par les vaches) fonctionnant 24h/24 et 7j/7 pendant 30 jours indiquaient la nature et quantité de nourriture ingurgitée, la durée des repas, la quantité et la qualité du lait produit, l’état des mamelles, le taux d’humidité et la température dans les étables, mais aussi la température corporelle des vaches, leurs mouvements, le début du vêlage…

Editorialement, les données ont été exploitées sur un site dédié par la chaîne allemande WDR (Westdeutscher Rundfunk) et se présentent sous plusieurs formes :
- un journal de bord quotidien de chacune des trois vaches contenant les événements de la journée agrémentés de vidéos, de interviews d’expert pour contextualiser
- des graphiques légendés pour expliquer ce qu’indiquent les chiffres
- un chat en direct via Facebook messenger avec chaque vache (non testé car inactif maintenant)
- des articles plus classiques sur chaque type d’exploitation écrits à la première personne au nom de chaque vache
- des vidéos

L’idée derrière ce projet est de mieux faire connaître les différentes méthodes de production du lait en Allemagne mais aussi d’interroger ces méthodes au regard du bien-être des vaches. Le tout de manière ludique et interactive.

Récemment, plusieurs médias français ont testé des capteurs pour mesurer la pollution dans l’air. En mars dernier, Le Parisien publiait ainsi un article produit avec les données d’un capteur fabriqué par une start-up française (Plume Labs).

Le test semble avoir plutôt bien fonctionné dans Paris, même si la journaliste précise qu’un décalage d’une ou deux heures arrive parfois entre le relevé et le résultat.

En octobre, Ouest France aussi a testé un capteur fourni par la Maison de la consommation et de l’environnement de Rennes. Le journaliste précisait très justement qu’il ne s’agit pas d’une opération scientifique étant donné le nombre d’aléas liés aux relevés (point abordé en détail par Laurence Dierickx dans un article à venir sur l’importance des choix journalistiques dans les données utilisées pour des articles).

Au Stuttgarter Zeitung, en Allemagne, une enquête sur les particules fines dans la ville et les communes voisines a été menée en association avec un laboratoire de l’université consacré à la mobilité durable, ainsi que l’Open Knowledge Lab Stuttgart. Le journal régional a réussi à convaincre 500 participants de relever les taux de particules dans leur quartier grâce à des capteurs fabriqués par le labo.

Pourquoi ne pas s’être appuyé sur les capteurs déjà existants ? “Parce qu’ils ne reflètent qu’une partie de la réalité”, peut-on lire sur le site du média. Cette remarque souligne un point important : quelle est la pertinence de données que je collecte ? Il est en effet essentiel que les journalistes se questionnent sur la méthodologie et les critères qu’ils choisissent dans la captation et le traitement des données.

Les idées d’articles rédigés à partir de capteurs ou objets connectés n’ont de limite que l’imagination des journalistes et la faisabilité technique. Que les donnés soient collectées par un objet, récoltées avec la participation du public, rassemblées par un travail minutieux des journalistes, elles possèdent une caractéristique primordiale : elles constituent une base de données unique, qu’aucun autre média ne possède. Elles permettent alors au média propriétaire d’offrir une information exclusive, différentiante, qui pourra générer des abonnements ou fidéliser.

Par ailleurs, les enquêtes qu’elles suscitent engendrent la discussion et l’échange sur des sujets importants (comme la pollution et la santé par exemple) dans les communautés que couvrent le média. Il se positionne comme un acteur de la vie locale.

De plus, les explications qui accompagnent les publications basées sur des données rendent plus transparentes les méthodes de travail des journalistes pour le public, agit positivement sur le degré de confiance du public envers les médias. Cette confiance se trouve encore renforcée quand la participation du public est sollicitée car il est alors partie prenante du processus de fabrication.

Enfin, et cet un aspect à ne pas négliger, ces expériences participent aussi à l’appropriation de la technologie (de manière globale) par les journalistes. Ces derniers devenant plus aptes à questionner une société dans laquelle les données croissent de manière exponentielle et les algorithmes déterminent de plus en plus d’éléments de nos vies quotidiennes.

Autres articles de la série :
- Data et presse régionale (2/3) : L’importance des questionnements et des choix éditoriaux
- Data et presse régionale (3/3): Assurer la qualité et la pérennité des données