Le potentiel des donn

AuthorMilligan, Ian

Que pourrait on apprendre si on examinait dans le hansard les variations de la fréquence des divers sujets au fil du temps? Quelles tendances pourrait on observer si on était en mesure de connaître la profession de tous les aspirants candidats au pouvoir depuis 1867? Quel type de valeur inconnue, de cette époque jusqu'à aujourd'hui, recèle cet ensemble de données extrêmement vaste? Les réponses à toutes ces questions sont prometteuses.

Les nouveaux ensembles de données de sources parlementaires, récemment numérisés, offrent tout un potentiel aux historiens, aux politologues et aux autres chercheurs s'intéressant à l'histoire politique. L'essor des sciences humaines numériques--un regroupement difficile à définir de chercheurs en sciences humaines qui explorent les possibilités des nouveaux médias et des nouvelles technologies et présentent des méthodes très intéressantes pour analyser d'énormes quantités d'information--ainsi que la diffusion de données ouvertes fort intéressantes--amènent de nouvelles possibilités pour comprendre le passé. Dans le présent article, je décris certaines des possibilités offertes par les ensembles volumineux de données aux chercheurs qui s'intéressent à l'histoire parlementaire. Je conclus en proposant ce que les gouvernements et les organismes de financement pourraient faire pour appuyer ce nouveau domaine de recherche.

Gouvernement ouvert et sciences humaines numériques

Le concept de > repose sur un principe : rendre les données accessibles au public afin qu'elles puissent être utilisées par tous, que ce soit en vue de les réutiliser, de les modifier ou de s'en servir pour créer des plateformes, notamment. Le concept de > est rattaché à celui de >, qui lui repose sur le principe selon lequel la population d'un pays doit pouvoir accéder aux données qui y sont produites, les consulter et les manipuler (dans leurs propres applications et de la façon dont elle l'entend). Le gouvernement fédéral actuel est allé sérieusement dans cette direction en lançant en 2011 l'Initiative pour un gouvernement ouvert (1). Quand on pense aux données ouvertes, ce ne sont probablement pas les travaux de recherche historique qui nous viennent à l'esprit. De façon générale, la plupart des données ouvertes diffusées sont de nature scientifique, technique ou très concrète; il s'agit, par exemple, d'information concernant des itinéraires d'autobus ou de l'information géospatiale sur divers secteurs et infrastructures. Pourtant, certaines de ces nouvelles données diffusées sont de plus en plus pertinentes pour les historiens, y compris celles mentionnées plus haut. Pensons par exemple à tous les candidats aux élections fédérales et à la fréquence des mots figurant dans les transcriptions des débats parlementaires.

Avant l'avènement de ce genre d'initiatives, ces volumineux ensembles de données n'auraient pas été accessibles à bon nombre de chercheurs en sciences humaines. Or, le début de l'ère des sciences humaines numériques a donné lieu à de nouvelles possibilités d'analyse fort intéressantes. Par exemple, selon le professeur de littérature anglaise Franco Moretti, la > permet de comprendre l'essor du roman victorien. Au lieu de mobiliser ses efforts sur un corpus de quelque 200 livres, des méthodes computationnelles permettent d'étudier des dizaines de milliers de romans à la fois (2). Si, pour mettre à l'épreuve des théories littéraires et analyser la prose d'un écrivain, il est fondamental de lire des ouvrages, il est impossible de les lire tous. La lecture à distance permet donc de placer les ouvrages lus dans un contexte plus large.

Voyons, au moyen d'exemples tirés des ensembles de données parlementaires, ce qu'un humaniste numérique peut faire pour accéder à toutes ces données.

Modélisation des sujets et lecture à distance du hansard, de 1994 à 2012.

Le gouvernement fédéral a rendu accessible, en format numérique, l'intégralité des transcriptions des débats depuis 1994 (3). Les transcriptions forment un ensemble de données plein texte relativement volumineux, mais non insurmontable : 800 mégabits de texte brut. Pourtant, il serait impossible de les lire intégralement, en particulier si occuper son temps à autre chose!

Évidemment, on peut faire des recherches en texte intégral. Nous sommes nombreux à effectuer ce genre de recherches depuis des années, et à bon escient dans les travaux de recherche sur l'histoire parlementaire qui ont été publiés. Cependant, il est toujours difficile d'effectuer des recherches concrètes en texte intégral puisqu'un chercheur doit savoir assez bien ce qu'il recherche. Le fait d'utiliser des mots clés trop courants ou des termes abrégés ou encore de commettre une seule petite erreur typographique peut éliminer de nombreux résultats. Bien souvent, il faut déjà en savoir beaucoup sur un sujet avant même d'effectuer sa recherche. Et la plupart du temps, sur certains moteurs de recherche, les résultats des recherches en texte intégral peuvent être faussés à cause des algorithmes de classement utilisés, ce qui fait en sorte que l'ordre de présentation des résultats peut être incompréhensible à la plupart des chercheurs (4). Par contre, quand on cherche un débat sur un sujet précis, que ce soit une grève de travail ou un projet de loi en particulier, les recherches en texte intégral peuvent être extrêmement utiles. Pour tenter une recherche en texte intégral dans le hansard, rendez vous à http://www.parl.gc.ca/housechamberbusiness/ ChamberHome.aspx?Language=F et cliquez sur Rechercher et explorer par sujet dans la colonne de gauche.

Les chercheurs peuvent réutiliser le texte intégral dans lequel ils effectuent des recherches par sujet pour manipuler et explorer eux-mêmes le hansard. La > est particulièrement efficace sur de volumineux corpus; il s'agit d'une méthode d'analyse textuelle fondée sur le concept mathématique de l'allocation Dirichlet Latent (5). Voici ce que Shawn Graham, Scott Weingart et moi avons écrit à cet égard dans Programming Historian :

Les programmes de modélisation thématique ne tiennent absolument pas compte du sens des mots en contexte. La composition (par un rédacteur) de chaque fragment de texte est plutôt fondée sur la sélection de mots à partir de paniers probables de mots, dans lesquels chaque panier correspond à un sujet. Si c'est vrai, il devient alors possible de décomposer mathématiquement un texte en paniers d'où ils venaient probablement au départ. L'outil répète systématiquement le processus jusqu'à l'établissement de la distribution la plus probable de mots en paniers, que nous appelons sujets (6). Autrement dit, imaginez que vous rédigez un mémoire sur les travailleuses. Les passages concernant les syndicats comporteraient des mots tels que >, >, > ou >. Ceux concernant les femmes comporteraient probablement des mots comme >, >, > et >. Imaginez que tous ces mots se trouvent dans de petits paniers sur votre bureau. Une fois le texte rédigé, les paniers seraient vides. La modélisation thématique veut inverser le processus, c'est à dire remettre les mots dans les paniers d'où il est très probable qu'ils viennent.

Dans l'idée de montrer un exemple de modélisation par sujet, j'ai téléchargé les transcriptions du hansard en anglais de 1994 à ce jour et tenté de les catégoriser par sujets au moyen de l'outil MAchine Learning for LanguagE Toolkit, ou MALLET. Tous peuvent...

To continue reading

Request your trial

VLEX uses login cookies to provide you with a better browsing experience. If you click on 'Accept' or continue browsing this site we consider that you accept our cookie policy. ACCEPT