“Dataviz”, “infographie”, “charts”, “graphiques”,… Ces analyses, et leurs rendus souvent visuels, dont nous sommes friands et très partagées sur les réseaux sociaux, sont parfois peu scientifiques, et donc peu exploitables ou crédibles. Comment procéder ? Explications du Professeur OG !
Le Professeur OG explique quelles sont les règles qu’il respecte afin de vous proposer des analyses scientifiquement correctes.
Xavier : Bonjour Professeur OG, peux-tu nous expliquer de A à Z les étapes permettant de proposer une étude, quel que soit son format et en laquelle nous pourrions avoir confiance ?
Professeur OG :
Il y a 2 façons de faire :
1/ Soit je pars d’une hypothèse que je veux vérifier ;
2/ Soit je suis en train d’analyser les données et j’observe un résultat qui pourrait être intéressant.
Dans le 1er cas, si on veut vérifier une hypothèse, il faut avant tout exprimer clairement cette hypothèse, c’est-à-dire le résultat qu’on veut exposer. On met ensuite en place un process qui va nous permettre de vérifier ou de contredire notre hypothèse :
1/ Partir d’un jeu de données qui soit suffisamment représentatif de la globalité de la population (c’est-à-dire le nombre minimal à partir duquel l’ajout de données ne fait plus varier le résultat) ;
2/ Nettoyer le jeu de données en supprimant les outliers (les valeurs qui statistiquement arrivent le moins fréquemment) ;
3/ Comparer le résultat attendu par rapport au résultat réel obtenu à partir de ces données ;
4/ Conclure sur l’hypothèse : cette conclusion peut prendre plusieurs formes, on peut par exemple avoir complètement affirmé ou infirmé l’hypothèse mais on peut également devoir la restreindre (ou moins souvent étendre) en fonction des résultats obtenus. Ce n’est pas grave du moment que l’on reste clair sur ce qui a été prouvé par l’étude.
Dans le 2nd cas, nous n’avons pas d’hypothèse a priori, mais en étudiant un jeu de data, par exemple en comparant l’évolution de certaines variables par rapport à d’autres, on essaye d’exposer une corrélation qui pourrait être intéressante. A partir de là, on peut émettre l’hypothèse et repartir au cas 1 en faisant bien attention, évidemment, de vérifier les résultats sur un nouveau set de data.
Xavier : Quelles sont les règles élémentaires qui permettent à des scientifiques comme toi de proposer des résultats cohérents ?
Professeur OG :
1/ Avoir un échantillon suffisamment grand et représentatif ;
2/ Ne pas essayer de prouver l’hypothèse à tout prix ;
3/ Tester avec 2 échantillons différents ;
4/ Être sûr de comparer ce qui est comparable ;
5/ Bien différencier ce qui est admis au départ (axiomes) de ce qui est prouvé par l’étude.
Dans l’absolu, le plus important est de rester honnête et d’exposer clairement la démarche de l’étude.
Xavier : Lorsque l’on est un lecteur lambda, quels points sont à surveiller afin de voir immédiatement la crédibilité de l’étude ?
Professeur OG :
1/ avoir une description de l’échantillon (taille, période d’observation, …),
2/ être capable d’identifier facilement les hypothèses de départ,
3/ dans l’idéal, être capable de suivre la démarche suivie par l’auteur de bout en bout. Plus le process est clair et reproductible, plus l’étude peut être considérée comme crédible.
Xavier : Peux-tu nous recommander une étude publiée récemment ?
Professeur OG : Cette étude Uber, par Ren Lu, qui tente de prédire la destination finale des clients Uber, sur la base de l’endroit où ils se sont arrêtés : http://blog.uber.com/passenger-destinations
Le Professeur OG est le gardien de l’analytics Over-Graph. Son équipe, la #DataTeam_OG, a réalisé par exemple en juillet 2014 cette étude, sur l’activité des CM sur Facebook et Twitter reprise des milliers de fois sur les réseaux sociaux. Elle travaille aussi sur la prédiction de l’engagement généré par les publications Facebook et les Tweets des utilisateurs OG en fonction de l’heure et du jour de publication.