When Clean Data Is Actually Dirty
Échec de l'ajout au panier.
Veuillez réessayer plus tard
Échec de l'ajout à la liste d'envies.
Veuillez réessayer plus tard
Échec de la suppression de la liste d’envies.
Veuillez réessayer plus tard
Échec du suivi du balado
Ne plus suivre le balado a échoué
-
Narrateur(s):
-
Auteur(s):
-
StatHarbor Analytics
À propos de cet audio
We often treat data cleaning as a neutral step.
Delete missing rows. Fill gaps with the mean. Move on.
But cleaning is not neutral. It is a modeling decision.
In this episode, we unpack the statistical consequences of deletion and simple imputation, and why what looks “clean” can fundamentally alter your estimand, distort variance, and bias inference.
We walk through:
- The formal role of the missingness indicator
- The difference between MCAR, MAR, and MNAR
- Why complete-case analysis is rarely as safe as it seems
- How mean imputation collapses variance and attenuates regression slopes
- When multiple imputation and inverse probability weighting are appropriate
- Why sensitivity analysis becomes essential under MNAR
If you cannot defend MCAR, deletion and mean imputation are high-risk defaults.
Cleaning is not preprocessing.
Cleaning is inference.
This episode is for data scientists, statisticians, epidemiologists, and analysts who want to bring rigor back to real-world data.
StatHarbor Analytics
Épisodes
-
Feb 16 20266 minÉchec de l'ajout au panier.
Veuillez réessayer plus tardÉchec de l'ajout à la liste d'envies.
Veuillez réessayer plus tardÉchec de la suppression de la liste d’envies.
Veuillez réessayer plus tardÉchec du suivi du balado
Ne plus suivre le balado a échoué
Pas encore de commentaire