Enseigner les données ouvertes

17 Décembre 2015 - 3:08pm

Mike Smit est professeur à la School of Information Management à l'Université Dalhousie, à Halifax au Canada. Ses travaux de recherche et d'enseignement portent sur la gestion des données quant aux données ouvertes et volumineuses, la littératie en matière de données, l'incidence de l'information ouverte sur l'engagement civique, et l'interaction entre l'information et les nouvelles technologies (notamment l'informatique en nuage et l'Internet des objets).

Ce qui est formidable au sujet des données ouvertes, c'est qu'elles ne sont pas habituellement diffusées dans un but précis. Nous ne pouvons prédire quel usage les gens feront des données brutes, le pouvoir des données ouvertes résidant dans leur utilisation imprévue qui va au‑delà des intérêts, de la portée et des capacités des gouvernements.

J'utilise les données ouvertes pour enseigner. En tant que professeur à la School of Information Management (École de gestion de l'information) (en anglais) de l'Université Dalhousie, j'enseigne aux étudiants de la maîtrise en bibliothéconomie et en science de l'information (MBSI) et aux professionnels à la mi-carrière inscrits à la maîtrise en gestion de l'information. Travailler avec des données est un aspect important de ces deux grades universitaires, et la visualisation efficace des données est un important résultat d'apprentissage.

Au cours des derniers mois, j'ai demandé aux étudiants de consulter le site ouvert.canada.ca, de trouver un ensemble de données et d'utiliser de manière efficace la visualisation des données pour me raconter quelque chose d'intéressant. Qu'est-ce que j'entends par « quelque chose d'intéressant »? Heureusement pour les étudiants, je trouve beaucoup de choses intéressantes. Ce que je veux, c'est apprendre des choses que j'ignorais et qui ne sont pas évidentes en regardant les données.

Chaque semestre, je suis émerveillé par la créativité des étudiants qui fouillent le portail des données ouvertes du gouvernement du Canada à la recherche d'un ensemble de données qui capte leur attention. Pour les étudiants du Canada, il s'agit d'une occasion de mieux comprendre leur pays d'origine; pour les étudiants étrangers, ils en apprennent un peu plus sur leur pays hôte.

En revoyant de façon générale les objectifs du devoir, il y a lieu de réfléchir à ce qu'un effectif moderne et un bassin moderne de diplômés devraient savoir au sujet du travail avec les données. L'intérêt croissant pour les données ouvertes, combiné au problème de mégadonnées, et le pouvoir de la science des données et des analyses de données, indique que le monde devient de plus en plus riche en données. Toutefois, les données brutes ont un usage limité; nous libérons le potentiel des données lorsque nous pouvons les analyser, les visualiser, créer de l'information et des connaissances à partir d'elles, et ultimement, favoriser la prise de décisions fondées sur des éléments probants.

Je fais partie d'une équipe de chercheurs à l'Université Dalhousie, qui a récemment reçu du financement du Conseil de recherches en sciences humaines pour qu'elle étudie la question suivante : « Comment les institutions d'enseignement postsecondaires au Canada peuvent‑elles outiller les diplômés des connaissances, de la compréhension et des compétences nécessaires pour l'économie du savoir riche en données? Quel niveau de ce que nous appelons « littératie en matière de données » voulons‑nous que les Canadiens possèdent alors que nous envisageons l'avenir des données ouvertes et du gouvernement ouvert?

Ce sont là de grandes questions. Pour l'instant, je dirais que le devoir de visualisation des données ouvertes (en anglais) est un bon début. J'ai inséré un lien vers une copie du devoir que chacun peut utiliser et adapter. Plus bas, j'ai inclus certaines visualisations de données que les étudiants de MBSI ont créées pour que vous puissiez voir de quelle façon les étudiants ont relevé le défi d'extraire des ensembles de données complexes pour en faire des messages clairs.

Figure [01]: Moyennes saisonnières de l'épaisseur de la glace marine

Figure [01] - Version textuelle

Graphique de l'épaisseur moyenne de la glace marine, par mois, de 1947 à 2002. Les lignes de couleurs foncées indiquent la glace la plus épaisse, et le graphique montre que, bien que l'épaisseur de la glace marine varie au cours de l'année, la tendance générale veut que la glace soit plus mince au fil du temps.

Emily Colford (MBSI 2015) a utilisé les données du Programme d'épaisseur de glace canadien, lequel a permis de mesurer l'épaisseur de la glace marine de 1947 à 2002. Puisqu'elle s'est servi de lignes de couleurs claires pour les données les plus récentes, vous pouvez aisément voir l'épaisseur de la glace qui diminue au cours des années (même s'il est difficile de voir chaque ligne, l'objectif principal est de montrer la tendance globale).

Figure [02]: Comparaison des taux hypothécaires et du loyer moyen à Halifax

Figure [02] - Version textuelle

Graphique des taux hypothécaires exprimés en pourcentage et coût de location des loyers à Halifax, de 1987 à 2012. Il illustre une tendance à la hausse du coût de location au fil du temps pour les types d'habitation (trois chambres, deux chambres, une chambre et studio) et un déclin des taux hypothécaires.

Carlisle Kent (maîtrise en gestion des ressources et de l'environnement/MBSI 2016) s'est servi des données de la Société canadienne d'hypothèques et de logement pour comparer les taux hypothécaires avec le loyer moyen à Halifax au cours des 25 dernières années, ce qui a permis d'illustrer l'avantage d'acheter une propriété plutôt que de la louer, et la façon dont cet avantage a changé au fil du temps.

(Sources : Taux des prêts hypothécaires ordinaires, terme de 5 ans et Loyers moyens pour les régions de 10 000 habitants et plus)

Figure [03]: L'utilisation d'Internet par âge et par revenu

Figure [03] - Version textuelle

Un graphique illustrant le pourcentage de gens ayant un accès régulier à Internet, réparti en revenu familial dans le quartile supérieur et en revenu familial dans le quartile inférieur, et par âge.

Accès régulier à Internet, par âge et par revenu
  Revenu familial dans le quartile inférieur Revenu familial dans le quartile supérieur
Individus âgés de 16 à 24 ans 94,65 % 99,1 %
Individus âgés de 25 à 44 ans 88,1 % 98,35 %
Individus âgés de 45 à 64 ans 61,7 % 92,65 %
Individus âgés de 65 ans et plus 26,75 % 68,6 %

Harrison Enman a montré que le fossé numérique (séparation entre les gens ayant un accès Internet régulier et ceux ne l'ayant pas) atteint un sommet chez les personnes âgées dont le revenu familial se situe dans le quartile inférieur (dans les 25 % inférieurs).

(Source : Enquête canadienne sur l'utilisation d'Internet, utilisation d'Internet, selon le lieu et la fréquence d'utilisation)

Remarque : Normalement, on ne relierait pas ces catégories dans un graphique linéaire simple, mais l'effet visuel réussi excuse cette maladresse.

Figure [04]: Situation de famille des hommes incarcérés en comparaison avec celle des hommes canadiens de plus de 18 ans

Figure [04] - Version textuelle

Un diagramme en barres sur la situation de famille, exprimée en pourcentage, d'hommes en liberté par rapport aux hommes canadiens incarcérés de plus de 18 ans, répartie selon les catégories célibataire, union de fait, marié, ex partenaire et inconnu. Proportionnellement, un plus grand nombre d'hommes incarcérés sont célibataires ou en union de fait que dans la population générale. Moins d'hommes incarcérés sont mariés, et environ le même nombre d'hommes sont d'ex partenaires.

Keriann Dowling (MBSI 2014) a souligné, avec ironie, qu'en pourcentage, un nombre beaucoup plus grand d'hommes en prison sont célibataires que dans la population générale.

(Sources : Profil des délinquants 2013-2014 et Estimations de la population, selon l'état matrimonial, le groupe d'âge et le sexe au 1er juillet, Canada, provinces et territoires)

Figure [05]: Les dépenses en alcool par rapport au taux de chômage

Figure [05] - Version textuelle

Un diagramme en barres comparant les dépenses annuelles moyennes en alcool et le taux de chômage en pourcentage au Canada.

Dépenses annuelles moyennes en alcool Taux de chômage en pourcentage
622 $ 8,5 %
672 $ 8,7 %
677 $ 8,5 %
712 $ 8,2 %
721 $ 7,7 %
806 $ 7,3 %
837 $ 6,8 %

Finalement, dans une autre analyse ludique, Andrea Kampen (MBSI 2015) s'est demandé s'il y avait un lien entre le montant d'argent que les Canadiens dépensent en alcool et le taux de chômage. En bref, on peut voir que lorsqu'un plus grand nombre de Canadiens ont un emploi, les dépenses liées à l'alcool augmentent. Je laisserai ici le lecteur tirer ses propres conclusions sur ce fait.

(Sources : Enquête sur les dépenses des ménages, dépenses des ménages au titre des produits du tabac et des boissons alcoolisées, selon les provinces et territoires)

Ajouter un commentaire *

La communication de l’information demandée sur ce formulaire n’est pas obligatoire. L’information est recueillie dans le but de répondre à votre demande de renseignements ou à vos commentaires et d’améliorer notre ensemble de produits et de services en ligne. Les renseignements personnels que vous fournissez sont protégés en vertu de la Loi sur la protection des renseignements personnels, une loi fédérale. Veuillez ne pas inclure de renseignements personnels à caractère délicat dans le message, comme votre numéro d’assurance sociale, des renseignements financiers personnels et vos antécédents médicaux ou professionnels.

 
Lisez la Déclaration sur la protection des renseignements personnels du présent site Web.

La collecte et l’utilisation de vos renseignements personnels sont autorisées en vertu de l’article 7 de la Loi sur la gestion des finances publiques. La collecte et l’utilisation de vos renseignements personnels pour donnees.gc.ca se feront conformément à la Loi sur la protection des renseignements personnels, une loi fédérale. Vos renseignements personnels sont utilisés pour répondre à vos demandes de renseignements, s’il y a lieu, et peuvent être utilisés pour évaluer l’efficacité du programme quand vient le temps de répondre aux besoins des clients. Dans des circonstances exceptionnelles (p. ex., enquête sur les pirates informatiques ou sur les personnes qui font des menaces ou des remarques méprisantes, etc.), des renseignements personnels peuvent être communiqués sans votre consentement aux termes du paragraphe 8(2) de la Loi sur la protection des renseignements personnels.

Tous les renseignements personnels qui peuvent être recueillis sont décrits dans le fichier de renseignements personnels ordinaire intitulé Communications publiques (POU 914), qui se trouve dans la publication Info Source du Secrétariat du Conseil du Trésor du Canada (SCT). Les renseignements personnels recueillis seront conservés par le SCT pendant une période de 18 mois seulement après l’achèvement de l’activité, après quoi tous les renseignements d’identification seront supprimés.

En vertu de la Loi sur la protection des renseignements personnels, vous avez le droit de demander l’accès à vos renseignements personnels et de les modifier si vous en avez fourni. Notez toutefois que, pour exercer l’un ou l’autre de ces droits, vous devez présenter une demande d’accès à vos renseignements personnels avant la fin de la période de conservation. Pour obtenir de plus amples renseignements sur votre droit d’accès, s’il vous plaît lire À propos du programme d’accèss à l’information.

Si vous avez besoin de précisions au sujet de cette déclaration, veuillez communiquer avec le coordonnateur de la protection des renseignements personnels du SCT au 613-957-7154. Pour obtenir de plus amples renseignements au sujet de vos droits en matière de protection des renseignements personnels et de la Loi sur la protection des renseignements personnels, consultez le commissaire à la protection de la vie privée par le site du commissariat à la protection de la vie privée du canada ou au 1-800-282-1376.

I commend and support this direction in LIS programs. We should be teaching students how to act as responsible data interpreters -- not just for "innovation" purposes, but so they can help their communities begin to use such information to hold parties to account and to address community needs.

I would prefer it if we could do this responsibly, by ensuring that basic numeracy lessons, and a fundamental understanding of statistics and research methods are not divorced from the process. Such understanding is necessary so that visualisations are not just "fun" but also reasonable interpretations of reality.

Based on the examples in this post, I have some concerns. Most of the above examples appear to be "lying with statistics" -- implying ready associations between semi-arbitrary variables, overlooking confounding variables or methodological data constraints, graphically representing different indices/scales as though they're comparable units of measurement, representing categorical variables as though they're continuous variables, etc. Not to mention a lack of labeling and some missing source citations. Essentially, the students' work (as presented) appears to be a showcase of everything we're afraid of when it comes to sharing data.

Maybe this can be addressed by discussing all these issues after the students' "first pass" and then having them re-visit the assignment. But the aim as a whole requires more than a data visualisation course if we hope to produce competent data stewards, facilitators, and users. I hope that we are moving in that direction.

Naomi, thanks for your comments - the short response is you do not need to be concerned. A blog post is a very small window into a large curriculum, and while I chose to focus on the "have fun with data" portion of one assignment, being critical consumers and users of data is a core part of my course and the broader curriculum. For example, we talk about spurious correlations, and how data exploration can show correlations and aid in the development of theories, but cannot account for various moderating/confounding variables alone, and many other aspects of being critical thinkers. We talk about how the data we have is the tip of an iceberg, and all the ways in which data can deviate from reality (just like 5 images and a blog post can give the wrong idea about the depth of a curriculum!).

Even in the context of data visualization, we talk about different audiences: are you trying to make a point, or inform generally? Are you exploring, or communicating?

I am glad you are interested and concerned, though! You may be interested in reading our report on data literacy, http://hdl.handle.net/10222/64578. I would welcome your input.

In case anyone else is concerned: this post is not intended to suggest any kind of conclusions about the data. This is about people having fun playing with open data, learning something basic from that data, and more importantly learning about working with and manipulating data in numeric and visual form.

Date de modification :