Entrer dans la démarche analytique RH : les données, les données, les données !!
Dans la démarche analytique RH, les données sont la matière première. A ce titre, leur qualité est primordiale. On le dit souvent mais l’exemple suivant l’illustre cruellement…
On le doit à un statisticien, et il porte le nom de son auteur : le quartet d’Anscombe (1978).
Celui-ci imagine 4 séries de données (reproduites ci-dessous). Les observer ne présente qu’un intérêt limité et à moins, tel Néo dans « Matrix », de savoir « lire la matrice », on ne voit guère quelles informations on pourrait en tirer (vous pouvez toutefois essayer…).
Pour tenter de produire de la connaissance, on peut imaginer élaborer quelques statistiques, notamment en établissant une corrélation entre les variables X et Y qui constituent la série.
Toute la force de cet exemple tient au fait que ces statistiques sont exactement identiques pour les 4 séries (tableau ci-dessous). Quelle que soit la série, on devrait donc aboutir à la même conclusion en usant (imprudemment) de la statistique.
Pourtant les relations unissant X à Y sont très différentes, comme l’illustrent cette fois les 4 graphiques ci-dessous.
- Le 1er graphique décrit le cas standard que l’on recherche dans une démarche analytique RH : la relation entre X et Y est vraie, mais imparfaite. Les observations sont dispersées autour d’une tendance centrale que l’analyse statistique vient précisément révéler.
- Le 2èmegraphique illustre une erreur classique : le statisticien a spécifié une relation linéaire, alors qu’elle est en réalité parabolique (ou d’une autre nature). L’erreur est dommageable à double égard : la véritable nature de la relation entre X et Y est ignorée et le modèle perd en qualité.
- Le 3èmegraphique décrit une première conséquence de la prise en compte d’observations aberrantes, résultant potentiellement d’une mauvaise qualité des données : une perte de précision importante et une surestimation de la tendance.
- Enfin le 4èmegraphique illustre la situation la plus grave découlant de données de mauvaise qualité : alors qu’aucune relation n’existe réellement entre X et Y, la présence d’un point aberrant vient créer une « relation fantôme » sur laquelle le gestionnaire pourrait être amené à prendre des décisions sans fondements.
Comment éviter alors de tomber dans de tels écueils ?
- La visualisation des données est outil puissant tant en terme de contrôle de leur qualité (on voit tout de suite les 3 problèmes soulignés ici), que de présentation des résultats. Elle s’intègre de fait naturellement comme une étape importante dans la démarche analytique.
- La prudence, l’attention portée au processus de production et de récupération des données sont indispensables. Quelques données aberrantes peuvent conduire à des conclusions totalement erronées : cultivez votre paranoïa !