**单一均值插补**通常会低估插补估计量的方差。以下是对该结论的详细解释: ### 单一均值插补导致方差低估的原因 1. **数据集中化**:单一均值插补将所有缺失值替换为样本均值,导致插补后的数据集集中在均值附近。方差反映数据的离散程度,这种人为的“集中化”会直接减少数据波动性,使得计算出的方差小于真实方差。 2. **独立性假设失效**:常规方差公式的分母为$n-1$,其假设所有数据均为独立观测值。但插补后的部分数据(被填补的缺失值)本质上是基于已有数据的推导结果,并非独立生成,这可能导致自由度估计失真。 3. **忽略分布范围**:单一均值插补仅用单一值填补缺失值,未考虑缺失值可能的分布范围。若真实缺失值服从某个分布,常规方差公式无法体现这种潜在变异性,从而低估方差。 ### 理论支持与案例分析 * **理论分析**:缺失值占比越高,插补后的方差偏差越大。假设原始数据方差为$\sigma^2$,插补比例为$p$,则插补后方差的理论值可能接近$\sigma^2(1-p)$,明显小于真实值。 * **案例分析**:在实际应用中,若某数据集缺失比例较高,且采用单一均值插补,计算出的方差往往会显著低于通过其他方法(如多重插补)得到的方差估计。 ### 其他插补方法的方差估计特性 * **冷卡替代**:冷卡替代使用前期调研数据或相关历史数据直接对目标变量进行插补。其估计量的方差估计是目标变量方差的一致估计量,因此不会低估方差。 * **随机热卡插补**:随机热卡插补通过对某一变量的回答单元进行有放回的简单随机抽样获得插补值。虽然随机热卡插补可能高估估计量方差,但这是通过特定抽样策略实现的,与单一均值插补导致的低估有本质区别。 * **最近距离插补**:最近距离插补利用辅助变量定义距离函数,在与缺失值临近的回答样本中选择插补值。其方差估计特性取决于辅助变量的选择和距离函数的定义,通常不会系统性低估方差。

点赞(0)
×
关注公众号,登录后继续创作
或点击进入高级版AI
扫码关注后未收到验证码,回复【登录】二字获取验证码
发表
评论
返回
顶部