Aujourd’hui il existe plusieurs outils pour vous aider, vous simplifier le travail avec les données. La bonne nouvelle c’est que beaucoup d’entre elles sont gratuites. Nous pourrions nommer un des premiers dans la queue l’omniprésent Google avec son DataStudio, un outil gratuit jusqu’à une certaine limite de données. Voici plus de joueurs à remarquer : Infogram, Piktochart, DataHero, Rawgraphs, Chart.js… et la liste n’est pas exhaustive. Bien que ces outils aient énormément simplifié la vie, ces systèmes ont toujours besoin des humains qui les auraient dirigés dans le bon sens en donnant les instructions : quelles données à mettre en avant, quels indicateurs à comparer etc.
Ainsi, une fois les données sont disponibles, c’est la peur de la page blanche qui pourrait nous bloquer. Alors, la première chose à faire est de se poser la question “Pourquoi ces données ont été récoltées, qu’est-ce qu’il y a d’intéressant dans ces données et quelle histoire ces données pourraient nous raconter ?’’ En effet, la partie la plus difficile est d’identifier la question à laquelle vous voulez répondre. Plus la question est concrète, plus claire sera la visualisation. A ne pas paniquer car poser la bonne question ça s’apprend, il y a sa méthodologie selon Ben Fry, l’auteur du livre Visualization Data. Dans son livre il vous guide comment arriver vers la bonne question.
Ben Fry identifie sept étapes dans le processus de visualisation de données :
Acquérir les données. Cette étape peut être simple, si vous disposez déjà des données sur un format exploitable, par exemple, un fichier texte ou si vous pouvez en avoir accès facilement parce qu’il s’agit des données publiques accessibles sur Internet. Mais il peut s’avérer que les données ne sont pas disponibles, et la tâche de les récupérer peut être plus complexe.
Analyser. Il s’agit d’établir la relation existante entre les différentes mesures présentes dans les données collectés : par exemple savoir s’il s’agit des étiquettes, des valeurs numériques, des coordonnés géographiques, etc.
Filtrer. Dans cette étape on détermine ce qu’on veut utiliser pour raconter l’histoire, de quoi s’agira la visualisation.
Extraire. On utilise des méthodes statistiques pour obtenir des résultats utilisables pour la création des représentations graphiques. Il peut s’agir de grouper les données, les ranger ou classer.
Représenter. On commence par une visualisation en utilisant des graphiques courants tels que les diagrammes de barres, lignes, camembert ou autres pour se faire une première idée de comment on peut mieux communiquer les réponses aux questions qu’on veut répondre avec la visualisation.
Raffiner. On commence à travailler avec des graphistes pour arriver à une représentation attirante et claire.
Interagir. On enrichit la visualisation avec la possibilité pour l’utilisateur de naviguer à travers les données retenues lors du filtrage pour comprendre plus des détails associés.
Ce processus de « 7 steps » très complet peut s’avérer nécessaire si vous êtes un data scientiste ou vous faites des visualisations des données pour des projets d’envergure considérables. Dans d’autres cas on peut ne pas avoir besoin de toutes ces étapes ou bien ne pas disposer de temps ou de ressources pour les appliquer. Par exemple, l’étape du raffinement demande typiquement des compétences à la fois dans le graphisme mais aussi dans les outils tels que HTML et CSS qui ne sont pas forcément maîtrisés par tout le monde. Souvent, pour la plupart d’utilisateurs, les possibilités offertes par les outils de visualisation cités tout au début de cet article suffisent.
Il est important de garder à l’esprit les étapes ci-dessous :
D’abord : en ayant sous la main les données, se poser la bonne question : A quelle question je veux répondre ? Une fois cette question est clairement identifiée, il est possible de suivre un parcours dans les lignes des étapes suivantes :
- L’analyse initiale des indicateurs
A identifier les variables sur lesquelles on veut baser l’analyse et les tendances qui pourraient exister. Par exemple, y a-t-il une croissance, une décroissance, une corrélation, ou autre lien entre les données qu’il faudra remarquer ? Dans cette étape on fait des itérations pour choisir une liste d’indicateurs candidats qui sont susceptibles de contribuer à l’histoire.
- Nettoyer et normaliser
Une fois les indicateurs sont choisis, il faut vérifier que les données qui ont souvent les sources et la provenance variées soient toutes exprimées de la même manière. Par exemple, on utilise toujours le même nom pour une ville ou un pays ? Les unités de mesure ou le format des dates sont-ils les mêmes pour les données provenant des deux côtés de l’Atlantique ? Souvent il y a un travail important à faire pour reformater les données, renommer les colonnes et ainsi finir avec un ensemble de données dont les statistiques ont du sens et expriment les mêmes notions de la même manière.
- Formuler des hypothèses
Comme on l’a déjà évoqué, la visualisation arrive quand une simple description de données avec des graphiques ne suffit pas parce qu’il y a les tendances ou les observations qui ne sont pas évidentes au premier abord ou pour un public qui n’aurait pas une familiarité préalable d’analyser les données. On procède donc à formuler des hypothèses qu’on veut ensuite confirmer ou démentir avec ces données.
- Vérifier les hypothèses
Quand on formule les hypothèses et on travaille avec les données pour vérifier si ces dernières correspondent à l’hypothèse formulée, on parle, alors, d’analyse exploratoire, puis qu’on regarde les données de différentes manières, combinant les indicateurs variés pour voir si notre hypothèse est correcte ou bien si on trouve d’autres relations qui peuvent devenir une nouvelle hypothèse. Il arrive qu’on construise des outils de visualisation dont l’objectif est justement de permettre l’exploration des données, comme comparer des pays par rapport à des indicateurs différentes, explorer l’évolution des populations ou adoption des produits, plutôt que suivre une narrative préétablie. L’utilisateur est invité à choisir des variables et à explorer les données pour tirer ses propres conclusions.
- Choisir une histoire
Un autre type d’analyse est celui qu’on peut appeler explicative. Dans ce cas-là, on décide la narrative de l’histoire à l’avance et la visualisation sert à illustrer et à prouver la conclusion qu’on espère être aussi claire pour l’observateur qui utilise la visualisation.