Le potentiel des donnees ouvertes pour l'histoire politique.

Auteur:Milligan, Ian
 
EXTRAIT GRATUIT

Les initiatives pour un gouvernement ouvert, une tendance recente, offrent aux chercheurs en sciences humaines numeriques une nouvelle source de documentation fort interessante. Ces chercheurs peuvent obtenir du contexte a meme ces vastes ensembles de donnees grace a la >. Dans le present article, l'auteur fournit des exemples de certains outils a la disposition des chercheurs afin de mieux comprendre le contexte historique politique du pays ainsi que la nature en constante evolution des institutions parlementaires et des debats qui y ont lieu. Pour conclure, il fait des propositions afin de tirer le maximum des donnees diffusees.

**********

Que pourrait on apprendre si on examinait dans le hansard les variations de la frequence des divers sujets au fil du temps? Quelles tendances pourrait on observer si on etait en mesure de connaitre la profession de tous les aspirants candidats au pouvoir depuis 1867? Quel type de valeur inconnue, de cette epoque jusqu'a aujourd'hui, recele cet ensemble de donnees extremement vaste? Les reponses a toutes ces questions sont prometteuses.

Les nouveaux ensembles de donnees de sources parlementaires, recemment numerises, offrent tout un potentiel aux historiens, aux politologues et aux autres chercheurs s'interessant a l'histoire politique. L'essor des sciences humaines numeriques--un regroupement difficile a definir de chercheurs en sciences humaines qui explorent les possibilites des nouveaux medias et des nouvelles technologies et presentent des methodes tres interessantes pour analyser d'enormes quantites d'information--ainsi que la diffusion de donnees ouvertes fort interessantes--amenent de nouvelles possibilites pour comprendre le passe. Dans le present article, je decris certaines des possibilites offertes par les ensembles volumineux de donnees aux chercheurs qui s'interessent a l'histoire parlementaire. Je conclus en proposant ce que les gouvernements et les organismes de financement pourraient faire pour appuyer ce nouveau domaine de recherche.

Gouvernement ouvert et sciences humaines numeriques

Le concept de > repose sur un principe : rendre les donnees accessibles au public afin qu'elles puissent etre utilisees par tous, que ce soit en vue de les reutiliser, de les modifier ou de s'en servir pour creer des plateformes, notamment. Le concept de > est rattache a celui de >, qui lui repose sur le principe selon lequel la population d'un pays doit pouvoir acceder aux donnees qui y sont produites, les consulter et les manipuler (dans leurs propres applications et de la facon dont elle l'entend). Le gouvernement federal actuel est alle serieusement dans cette direction en lancant en 2011 l'Initiative pour un gouvernement ouvert (1). Quand on pense aux donnees ouvertes, ce ne sont probablement pas les travaux de recherche historique qui nous viennent a l'esprit. De facon generale, la plupart des donnees ouvertes diffusees sont de nature scientifique, technique ou tres concrete; il s'agit, par exemple, d'information concernant des itineraires d'autobus ou de l'information geospatiale sur divers secteurs et infrastructures. Pourtant, certaines de ces nouvelles donnees diffusees sont de plus en plus pertinentes pour les historiens, y compris celles mentionnees plus haut. Pensons par exemple a tous les candidats aux elections federales et a la frequence des mots figurant dans les transcriptions des debats parlementaires.

Avant l'avenement de ce genre d'initiatives, ces volumineux ensembles de donnees n'auraient pas ete accessibles a bon nombre de chercheurs en sciences humaines. Or, le debut de l'ere des sciences humaines numeriques a donne lieu a de nouvelles possibilites d'analyse fort interessantes. Par exemple, selon le professeur de litterature anglaise Franco Moretti, la > permet de comprendre l'essor du roman victorien. Au lieu de mobiliser ses efforts sur un corpus de quelque 200 livres, des methodes computationnelles permettent d'etudier des dizaines de milliers de romans a la fois (2). Si, pour mettre a l'epreuve des theories litteraires et analyser la prose d'un ecrivain, il est fondamental de lire des ouvrages, il est impossible de les lire tous. La lecture a distance permet donc de placer les ouvrages lus dans un contexte plus large.

Voyons, au moyen d'exemples tires des ensembles de donnees parlementaires, ce qu'un humaniste numerique peut faire pour acceder a toutes ces donnees.

Modelisation des sujets et lecture a distance du hansard, de 1994 a 2012.

Le gouvernement federal a rendu accessible, en format numerique, l'integralite des transcriptions des debats depuis 1994 (3). Les transcriptions forment un ensemble de donnees plein texte relativement volumineux, mais non insurmontable : 800 megabits de texte brut. Pourtant, il serait impossible de les lire integralement, en particulier si occuper son temps a autre chose!

Evidemment, on peut faire des recherches en texte integral. Nous sommes nombreux a effectuer ce genre de recherches depuis des annees, et a bon escient dans les travaux de recherche sur l'histoire parlementaire qui ont ete publies. Cependant, il est toujours difficile d'effectuer des recherches concretes en texte integral puisqu'un chercheur doit savoir assez bien ce qu'il recherche. Le fait d'utiliser des mots cles trop courants ou des termes abreges ou encore de commettre une seule petite erreur typographique peut eliminer de nombreux resultats. Bien souvent, il faut deja en savoir beaucoup sur un sujet avant meme d'effectuer sa recherche. Et la plupart du temps, sur certains moteurs de recherche, les resultats des recherches en texte integral peuvent etre fausses a cause des algorithmes de classement utilises, ce qui fait en sorte que l'ordre de presentation des resultats peut etre incomprehensible a la plupart des chercheurs (4). Par contre, quand on cherche un debat sur un sujet precis, que ce soit une greve de travail ou un projet de loi en particulier, les recherches en texte integral peuvent etre extremement utiles. Pour tenter une recherche en texte integral dans le hansard, rendez vous a http://www.parl.gc.ca/housechamberbusiness/ ChamberHome.aspx?Language=F et cliquez sur Rechercher et explorer par sujet dans la colonne de gauche.

Les chercheurs peuvent reutiliser le texte integral dans lequel ils effectuent des recherches par sujet pour manipuler et explorer eux-memes le hansard. La > est particulierement efficace sur de volumineux corpus; il s'agit d'une methode d'analyse textuelle fondee sur le concept mathematique de l'allocation Dirichlet Latent (5). Voici ce que Shawn Graham, Scott Weingart et moi avons ecrit a cet egard dans Programming Historian :

Les programmes de modelisation thematique ne tiennent absolument pas compte du sens des mots en contexte. La composition (par un redacteur) de chaque fragment de texte est plutot fondee sur la selection de mots a partir de paniers probables de mots, dans lesquels chaque panier correspond a un sujet. Si...

Pour continuer la lecture

INSCRIPTION GRATUITE