Différence entre les données manquantes MAR, MCAR et MNAR

Différence entre les données manquantes MAR, MCAR et MNAR

Pourquoi les données manquantes sont-elles une préoccupation ?

Les données manquantes peuvent présenter un risque majeur de produire des conclusions incorrectes en raison de l’absence d’informations pertinentes, ce qui conduit à des résultats non valides. Les résultats de toute analyse statistique ne peuvent être aussi bons que la qualité des données. Les données manquantes peuvent se produire pour de nombreuses raisons, telles que le non-réponse, la perte de données ou les modèles de saut dans les enquêtes. Permettez-nous de nous familiariser avec les types les plus courants de données manquantes.

Données manquantes complètement au hasard (MCAR)

L’analyse des données manquantes complètement au hasard (MCAR) suppose que l’absence de données est indépendante de toute donnée non observée (réponse et covariables), ce qui signifie que la probabilité d’une valeur de données manquantes est indépendante de toute observation dans l’ensemble de données. Dans ce cas, les observations manquantes et observées sont générées à partir de la même distribution, ce qui signifie qu’il n’existe aucun mécanisme systématique qui rendrait les données manquantes plus nombreuses que d’autres. Lorsque cette hypothèse est confirmée, vous pouvez effectuer une analyse de cas complète (CC) sur les données observées. MCAR produit des estimations fiables et non biaisées, mais il y a toujours une perte de puissance due à une mauvaise conception, mais pas en raison de l’absence de données.

Données manquantes au hasard (MAR)

Considérons l’exemple suivant :

  • Les hommes sont plus susceptibles de vous dire leur âge que les femmes.
  • Les hommes sont plus susceptibles de vous dire leur poids que les femmes.
  • Les hommes sont plus susceptibles de se désister des essais cliniques que les femmes.
  • Les hommes sont moins susceptibles de remplir une enquête sur la dépression, mais cela n’a rien à voir avec leur niveau de dépression, après avoir tenu compte de leur masculinité.

Familier, non ? Ce type de données manquantes est appelé “manquantes au hasard”. Les données manquantes au hasard (MAR) sont plus courantes que les données manquantes complètement au hasard (MCAR) dans toutes les disciplines. Dans ce cas, il est clair que les observations manquantes et observées ne proviennent plus de la même distribution, et c’est une distinction cruciale entre les deux méthodes.

Données manquantes non au hasard (MNAR)

Par exemple, lorsque la plupart des personnes manquantes au travail sont les plus malades, que les personnes ayant le niveau d’éducation le plus bas manquent d’éducation, ce type de manquants est appelé “manquants non au hasard” (MNAR). Les analyses MNAR posent problème car la distribution des observations manquantes dépend non seulement des valeurs observées, mais aussi des valeurs non observées. Dans ce cas, il n’est pas nécessaire de modéliser la partie aléatoire et cela peut être facilement ignoré.

Quelles sont les méthodes statistiques pour gérer les données manquantes ?

L’imputation multiple et la vraisemblance maximale (ML) sont couramment utilisées pour traiter les données manquantes, et elles supposent toutes deux qu’au moins les données manquantes sont au hasard et ne peuvent pas être ignorées dans le processus de modélisation (absolument pas MNAR).

Meilleures pratiques pour prévenir les données manquantes

Les méthodes les plus efficaces pour gérer les données manquantes sont les suivantes :

  • “Une bonne conception peut ne pas éliminer le problème des données manquantes, mais… elle peut le réduire, de sorte que les outils analytiques modernes puissent être utilisés pour extraire une signification statistique des données de l’étude. En revanche, nous notons que lorsque l’attention portée aux données manquantes lors de la conception est insuffisante, cela peut entraîner des problèmes d’inférence impossibles à résoudre lors de la phase d’analyse statistique.” – Lavori, et al. (2008)
  • Réduire les données manquantes en minimisant les abandons

Points à retenir !

  • Dans l’analyse MCAR, vous pouvez analyser les observations observées et ignorer les observations manquantes.
  • Si les hypothèses MCAR ne sont pas respectées, l’utilisation de l’analyse de cas complète (CC) produit des résultats biaisés.

Références et recommandations:

Image

Image