Cours semaine 1: vidéo 4


Cours semaine 1, vidéo 4
Comment devenir un bon datajournaliste
Chapitre 1 :"trouver les données :où, quand, comment"
Bonjour à tous dans cette 4ème vidéo de la première semaine du Mooc.


Une question revient souvent quand on se lance dans le datajournalisme de données, comment trouver des données ?

Aujourd'hui nous allons faire le tour des sources de données disponibleS. 

Chapitre 1 :"Les statistiques officielles"

"trouver les données :où, quand, comment"
Le journalisme c'est souvent remonter à la source d'une donnée ou d'une information.

La datajournalisme ne fait pas exception et les endroits intéressants pour chercher des données sont les créateur de données ceux qui collectent des informations et les traitent directement en FRANCE c'est l'institut national de la statistique qui en est le principal exemple.

Collecter directement les données cela signifie qu'ils créent directement les questionnaires qui sont envoyés à la population comme le recensement que vous avez peut-être déjà rempli. Stadebel en Belgique office fédéral de la statistique;office fédéral de la statistique à neuchâtel en Suisse ou l'institut national de la statistique à ouadougou au Burgina faso jouent le même rôle collecter de l'information c'est très cher, imaginez la logistique pour obtenir les informations sur l'ensemble de la population, le recencement de 1999 en France a par exemple coûté 180 millions d'euros et nécessité l'emploi de 100.000 agents peu d'organismes ont les moyens d'organiser cette mission et le journal de données doit les connaître et il doit trouver des contacts de confiance, en effet si vous avez une question sur une série de données seul les statiticiens qui les ont collectés pourront vous répondre précisemment. Les offices statistiques sont surtout responsable du recensement la collecte spécifique a d'autres missions, se fait au sein des administrations concernées, les données de la criminalité en France sont ainsi publiées par l'Observatoire de la délinquance et des réponses pénales qui dépend du 1ER Ministre , un espace publique l'agence nationale pour les déchets radio-actifs a elle pour objectif de compiler les statistiques sur l'ensemble des déchets radio-actifs en France.


Chapitre 2 :les agrégateurs de données 

"trouver les données :où, quand, comment"

A côté des collecteurs de données primaires, les agrégateurs de données sont d'autres agences de données gouvernementales ou internationales dont le rôle est de rassembler et de comparer des données statistiques, eurostat le service statistique de la communauté europénne a pour principale mission de rendre comparable les statistiques nationales.
la banque mondiale joue ce même rôle au niveau planétaire tout comme les Nations-Unis et ces agences. Ces fournisseurs de données secondaires sont extrêmement pratiques. Vous chercher l'espérance de vie des femmes en France, en France et en Colombie en 1990 en quelques clics, vous trouvez les informations sur le site de la Banque Mondiale.

Le nombre de décès à la tuberculose par pays aller sur le site de l'office mondiale de la santé.

 aujourd'hui la plupart des agences ont des répertoires de données ouvertes  pour les trouver de préférences en anglais, le nom de l'organisme suivi de DATA pour les données du fonds monétaire internationales par exemple, qui produit régulièrement des estimations de croissance et de déficits publique, tapez IMF data.

S'ils sont très pratiques les agrégateurs de données présentent un problème de taille. Ils mélangent les sources de données.

Nous reviendront demain sur les pièges que l'on peut trouver mais regardons un jeu de données typiques sur le site de la banque mondiale. 
Nous avons ici le nombre de naissances chez les adolescentes de quinze à 19 ans dans le monde, la source étant indiquée comme la division démographique de la division de la population du département économique et sociale de l'ONU, on peut retrouver cette division où vous comparer les chiffres de la banque mondiale avec ceux de l' ONU.
On constate là que l'ONU ne donne pas un chiffre absolu mais une série de variantes qui correspondent aux différents scénarios démographiques. En effet, s'il est possible de connaître précisément le nombre de naissances, en France ou en Suisse, il n'en va pas de même en Afganistan... Par ailleurs l'ONU travaille sur des périodes de 5 ans alors que la banque mondiale travaille sur des données par année , les agrégateurs utilisent des techniques de lissage de données afin de rendre les données plus visibles. 

Prenons la mortalité infantile en Roumanie. En orange vous voyez les données par les sources statistiques roumains en bleu les mêmes données lissées par la banque mondiale.

Cette statistique est tout à fait valide si on s'intéresse aux tendance de longs termes, comme le va le faire la banque mondiale.

Pourtant si on s'intéresse à des événements en particulier. Comme c'est souvent le cas du journaliste. le message n'est pas adapté. 
On voit en orange une courbe anti-avortement décidé par le Gouvernement .... en 1966 qui a fait bondir le nombre de décès, ce pic n'est pas visible chez la banque mondiale.
 
On voit la facilité d’utilisation des données sur les sites des agrégateurs fait au détriment de la justesse des informations.
Faut-il pour autant ne pas les utiliser ? Non car ces ressources sont précieuses pour connaître des ordres de grandeur et les tendances sur plusieurs années. En revanche si vous avez besoin d'informations sur plusieurs points précis. Remontez toujours à la source des données.

Chapitre 1 :"Les géants du web 

"trouver les données :où, quand, comment"

De nombreuses entreprises collectent des données pour fonctionner c'est le cas de Google, Facebook, Twitter et consors...et aussi de la plupart des grosses sociétés. Souvent des points d’accès à leurs données sont disponibles.

Prenons l'exemple de GOOGLE qui précisément cherche quoi et quand, un service Google Trends donne accès à un indicateur de popularité de certaines thèmes on peut consulter les indicateurs de popularité pour les termes que je cherche Leffe et Kronenbourg en France.

On constate que la plupart des brasseurs de Strasbourg est en chute libre quand celle de la bière Belge croît depuis plusieurs années.

On peut consulter les recherches par régions, constater l'encrage forte de ces 2 marques forte dans certains territoires au delà du côté magazine l'intérêt des internautes pour tel ou tel sujet peut-être une source d'informations, on peut comparer la popularité de personnalités dans le temps ou celles de produits , Google trends tente de reconnaître ce qui est cherché au delà des simples mots afin de polluer les résultats avec les homonymes, les visites sur les pages wikipédia sont un autre indicateur de popularité qui peut-être utile de savoir ce qui intéresse  de votre audience.
L'encyclopédie en ligne publie ces statistiques et vous pouvez les consulter sur le site de http://stats.grok.se/
un déveoppeur suédois, les acteurs privés peuvent avoir d'autres données , je parlais dans le second cours de la Globalizum databay maintenu par l'université du maryland, pour l'internet vous pouvez aller voir du côté de la internet moovies databay, pour les prix de l'immobilier en France et les notaires et le site immoprix
pour le prix des loyers le site des petites annonces ou vous trouverez les informations, sorti des organismes nationaux et internationaux de nombreux organismes privés ont souvent des base de données auxquelles vous pouvez souvent avoir accès, les meilleures informations sur les performances en athlétismes par exemple sont disponible sur le site de Peter Larson, pour ce qui est des feux de forêts de l'agence de la Nasa met en ligne toutes les informations qu'elle collecte grâce à ces satellites, land matrix un consortium de scientifiques et d'ONG, des données sur l'accaparement des terres comme on le verra sur le tutoriel CART O DB.

Vous l'avez compris sur chaque thématique, il existe des bases de données, il faut pour sur les sujets que vous travaillez  en discuter avec vos sources, moteur de recherche, et surtout les explorer et les étudier pour savoir d'où viennent les données et quelles confiances vous pouvez leur accorder. Nous avons vu hier comment le fait de structurer une information permettait de faire de nouvelelles analyses et d'enrichir une enquête, vous pouvez progressivement élaborer votre propre base de données à partir de sources ouvertes, c'est à dire à partir de données déjà publié.

Le journaliste italien Gabriel  Degrande  maintient depuis plus de 10 ans des bases de données sur les migrants morts ou en essayant d'y rester. 
A partir d'articles de presse, il a pu constituer une base de données en Europe qui n'existait pas auparavant.
Pas besoin d'outils compliqués pour commencer. Un logiciel de tableur comme Google Spredsheet suffit. Il existe d'autres bases de données pour des études plus complexes.      
La journalisum ++ la société que j'ai co-fondé a développé un outils open source spécialement pour ces enquêtes en ressources ouvertes.

Aucun commentaire:

Enregistrer un commentaire