# 抽样技术上机作业
## 抽样设计性能的模拟比较研究

**数据来源**：情景 A/B/C/D 四个总体（各 3600 户，90 社区，3 个区域）  
**抽样设计**：SRS、分层抽样、分层+两阶段、两阶段整群抽样、PPS 抽样（共5种）  
**模拟次数**：每种设计 × 每个情景，重复抽样 B = 500 次  
**目标样本量**：n = 200 户（两阶段类：20 社区 × 10 户/社区）

---

## 一、研究摘要

本研究围绕"居民家庭消费与数字生活方式调查"的模拟总体，在四种结构特征各异的情景（A/B/C/D）下，系统比较简单随机抽样（SRS）、按区域比例分层抽样、分层+两阶段抽样、两阶段整群抽样、以及按社区规模PPS抽样五种方案在估计全市家庭月消费均值、在线消费占比、高收入家庭占比和网购参与率方面的统计表现。通过500次重复抽样模拟，计算各设计的偏差（Bias）、经验标准差（SD）和均方误差（MSE），并结合设计效应（DEFF）分析、四情景横向比较、非应答偏差分析和成本约束分析，形成综合推荐。

核心发现：**分层抽样在所有四个情景中均表现最优或次优**，以与SRS相同的成本实现更低MSE；两阶段整群抽样的设计效应在社区ICC较高时可高达3.5，精度损失严重；PPS在社区规模差异极大（情景D，CV=0.61）时相对整群有优势，但仍不及分层抽样；加权可有效压缩非应答偏差，代价是方差轻微上升，综合MSE仍降低约8%。

---

## 二、研究问题与研究假设

### 2.1 研究问题

> 在存在区域消费异质性、社区内聚集性和高收入群体选择性非应答的调查环境中，五种主流抽样设计（SRS、分层、分层+两阶段、整群、PPS）的 MSE 表现如何随总体结构特征（区域间方差、社区内相关系数ICC、社区规模变异系数）变化？在成本约束（总预算约4800元）下，哪种设计能同时兼顾全市总体估计精度与子总体（分区域）估计需求？

### 2.2 研究假设

| 编号 | 假设内容 | 关键结构条件 | 可验证指标 |
|------|---------|------------|---------|
| **H1** | 区域异质性较强时，按区域分层抽样的MSE低于SRS | 区域间标准差 > 500元 | MSE(SRS)/MSE(分层) > 1 |
| **H2** | 社区内同质性较高时，两阶段整群抽样的设计效应显著大于1 | ICC > 0.15 | DEFF > 1.5 |
| **H3** | 高收入家庭非应答较严重时，逆概率加权可降低偏差，但可能提高方差 | 高收入应答率 ≈ 0.75 vs 普通 ≈ 0.86 | Bias↓, SD↑ |

---

## 三、抽样方案设计说明

### 总体结构描述（四情景）

| 情景 | 总体真值（元） | 区域间SD（元） | ICC（月消费） | 社区规模CV | 关键特征 |
|------|------------|------------|------------|---------|---------|
| **A** | 5,807.63 | **806.5** | 0.258 | 0.280 | 区域差异最大 |
| **B** | 5,306.36 | 431.5 | 0.113 | 0.271 | 基准情景 |
| **C** | 5,590.76 | 551.4 | **0.340** | 0.289 | 社区内相关最强 |
| **D** | 5,650.43 | 606.0 | 0.192 | **0.610** | 社区规模差异最大 |

### 3.1 方案一：简单随机抽样（SRS）

| 项目 | 内容 |
|------|------|
| **抽样单位与阶段** | 单阶段；家庭为抽样单元 |
| **样本量与分配** | $n = 200$，总体中等概率不放回抽取 |
| **抽样比与权重** | 抽样比 $f = \dfrac{n}{N} = \dfrac{200}{3600} \approx 0.056$；设计权重 $w_i = \dfrac{1}{f} = 18$（所有家庭相同） |
| **估计量** | 样本均值 $\bar{y} = \dfrac{1}{n}\displaystyle\sum_{i=1}^{n} y_i$，无偏估计总体均值 $\bar{Y}$ |
| **理论优点** | 操作简便，无设计偏差；估计量形式简单（直接均值） |
| **潜在风险** | 未利用区域异质性；远郊样本可能不足（期望仅约49户）；子总体估计稳定性差 |

### 3.2 方案二：分层抽样（按区域比例分配）

| 项目 | 内容 |
|------|------|
| **分层变量** | `district_type`（中心城区 / 近郊 / 远郊） |
| **抽样单位与阶段** | 单阶段；各层内家庭等概率不放回抽取 |
| **样本量与分配** | 比例分配：$n_h = n \cdot N_h / N$；中心城区 83 户、近郊 69 户、远郊 48 户（合计 200 户） |
| **层抽样比与权重** | 层抽样比 $f_h = \dfrac{n_h}{N_h}$；设计权重 $w_{hi} = \dfrac{1}{f_h} = \dfrac{N_h}{n_h}$（层间不等权） |
| **估计量** | 加权估计量 $\bar{y}_{st} = \displaystyle\sum_{h=1}^{H} W_h \bar{y}_h$，其中 $W_h = N_h / N$ |
| **理论优点** | 利用区域异质性降低层间方差贡献；各区域均有足量样本，支持子总体估计 |
| **潜在风险** | 需完整家庭抽样框；当区域内差异主导时，分层收益有限 |

### 3.3 方案三：分层 + 两阶段抽样

| 项目 | 内容 |
|------|------|
| **抽样单位与阶段** | 两阶段：一阶段在各层内等概率抽社区（PSU），二阶段在社区内等概率抽家庭（SSU） |
| **样本量与分配** | 各层按比例抽约 7 个社区，每社区抽 $k=10$ 户；合计约 20 社区 × 10 户 = 200 户 |
| **各阶段抽样比与权重** | 一阶段层内抽样比 $f_{1h} = m_h / M_h$；二阶段 $f_{2hi} = k / M_i$；总抽样比 $f_{hi} = f_{1h} \cdot f_{2hi}$；设计权重 $w_{hij} = 1/f_{hi}$ |
| **估计量** | $\bar{y} = \displaystyle\sum_{h}\sum_{i \in s_h}\sum_{j \in s_{hi}} w_{hij}\, y_{hij} \Big/ \displaystyle\sum_{h}\sum_{i}\sum_{j} w_{hij}$ |
| **理论优点** | 兼顾分层控制与集中外访的成本优势；适合社区层抽样框可得的场景 |
| **潜在风险** | PSU 数量有限（≈20），若社区内高度同质（ICC 大），方差主要来自社区间，精度损失明显 |

### 3.4 方案四：两阶段整群抽样

| 项目 | 内容 |
|------|------|
| **抽样单位与阶段** | 两阶段：一阶段等概率不放回抽 $m=20$ 个社区，二阶段每社区抽 $k=10$ 户 |
| **样本量与分配** | 20 社区 × 10 户 = 200 户；PSU 自全部 90 个社区中等概率抽取 |
| **各阶段抽样比与权重** | 一阶段抽样比 $f_1 = m/M = 20/90$；二阶段 $f_{2i} = k/M_i$；设计权重 $w_{ij} = 1/(f_1 \cdot f_{2i}) = \dfrac{M}{m} \cdot \dfrac{M_i}{k}$ |
| **估计量** | HT 加权估计量，各单元权重随社区规模 $M_i$ 不等 |
| **理论优点** | 外访集中，进社区成本可控；适合家庭框难获得但社区框已知的场景 |
| **潜在风险** | 聚集效应（DEFF > 1）随 ICC 增大而显著恶化；不保证各区域样本量，子总体估计不稳定 |

### 3.5 方案五：PPS 抽样（按社区规模）

| 项目 | 内容 |
|------|------|
| **规模变量** | `community_size`（各社区家庭数 $M_i$） |
| **抽样单位与阶段** | 两阶段有放回 PPS：一阶段按 $p_i = M_i / \sum_i M_i$ 抽 $m=20$ 个 PSU，二阶段每社区抽 $k=10$ 户 |
| **样本量与分配** | 约 20 社区 × 10 户 = 200 户；大社区入选概率更高 |
| **入选概率与权重** | 一阶段期望入选次数 $\mu_i = m \cdot p_i = m M_i / \sum M_i$（注：PPS 一阶段入选概率与规模成比例，不用固定抽样比 $f$ 表示）；Hansen-Hurwitz 估计量权重 $w_{ij} = \dfrac{1}{m\,p_i} \cdot \dfrac{M_i}{k}$ |
| **估计量** | $\bar{y}_{HH} = \dfrac{1}{m} \displaystyle\sum_{i=1}^{m} \bar{y}_i$（各 PSU 样本均值的简单平均） |
| **理论优点** | 社区规模变异大时可消除规模不等带来的一阶段方差放大；权重更均匀 |
| **潜在风险** | 有放回设计可能重复选中同一社区；规模差异不极端时优势有限；仍受 ICC 影响 |

---

## 四、核心结果表

### 4.1 月消费均值估计表现

**情景 A**（真值 = 5807.63 元，区域差异最大）

| 设计 | 均值估计（元） | Bias（元） | SD（元） | MSE |
|------|------------|----------|---------|-----|
| SRS | 5802.90 | -4.73 | 124.51 | 15,525.71 |
| **分层抽样** | **5805.00** | **-2.63** | **113.54** | **12,898.42** |
| 分层+两阶段 | 5801.55 | -6.08 | 151.74 | 23,062.20 |
| 两阶段整群 | 5809.83 | +2.20 | 233.28 | 54,423.43 |
| PPS | 5810.77 | +3.14 | 242.08 | 58,614.41 |

**情景 B**（真值 = 5306.36 元，基准情景）

| 设计 | 均值估计（元） | Bias（元） | SD（元） | MSE |
|------|------------|----------|---------|-----|
| SRS | 5311.86 | +5.50 | 114.09 | 13,047.07 |
| **分层抽样** | **5301.61** | **-4.75** | **109.61** | **12,037.93** |
| 分层+两阶段 | 5307.41 | +1.05 | 140.77 | 19,818.24 |
| 两阶段整群 | 5294.96 | -11.40 | 160.46 | 25,876.97 |
| PPS | 5305.33 | -1.03 | 168.45 | 28,377.31 |

**情景 C**（真值 = 5590.76 元，社区内相关最高）

| 设计 | 均值估计（元） | Bias（元） | SD（元） | MSE |
|------|------------|----------|---------|-----|
| SRS | 5589.72 | -1.04 | 135.70 | 18,414.48 |
| **分层抽样** | **5586.48** | **-4.28** | **135.03** | **18,252.49** |
| 分层+两阶段 | 5604.68 | +13.92 | 237.62 | 56,656.75 |
| 两阶段整群 | 5575.82 | -14.94 | 244.57 | 60,039.15 |
| PPS | 5608.74 | +17.98 | 284.20 | 81,090.19 |

**情景 D**（真值 = 5650.43 元，社区规模差异最大）

| 设计 | 均值估计（元） | Bias（元） | SD（元） | MSE |
|------|------------|----------|---------|-----|
| SRS | 5645.56 | -4.87 | 120.28 | 14,492.05 |
| **分层抽样** | **5651.22** | **+0.79** | **119.49** | **14,277.80** |
| 分层+两阶段 | 5644.08 | -6.35 | 174.29 | 30,416.93 |
| **PPS** | 5658.63 | +8.20 | 208.40 | **43,497.74** |
| 两阶段整群 | 5644.51 | -5.92 | 223.23 | 49,865.12 |

> **注**：加粗为各情景最优设计（最低MSE）；情景D中PPS优于整群抽样（PPS理论在规模变异大时生效）。

### 4.2 其他目标参数 MSE 汇总（情景 B，真值见括号）

| 设计 | 在线消费占比（0.1218） | 高收入占比（0.2128） | 网购参与率（0.4397） |
|------|-------------------|------------------|------------------|
| SRS | 0.0000115 | 0.000779 | 0.001182 |
| 分层抽样 | **0.0000103** | 0.000795 | 0.001205 |
| 分层+两阶段 | 0.0000104 | **0.000778** | **0.001162** |
| 两阶段整群 | 0.0000178 | 0.000910 | 0.001498 |
| PPS | 0.0000213 | 0.000894 | 0.001368 |

> 对高收入占比和网购参与率，分层+两阶段偶有微弱优势，因为分层结构有助于控制这两类稀有特征的代表性。

---

## 五、结果图

### 图1：四情景下各设计估计分布与 MSE 比较

![四情景抽样设计全面比较](sampling_comparison_v3.png)

**图注**：共4行×3列。每行对应一个情景（A/B/C/D）。
- **左列**：500次模拟月消费均值的箱线图，红色虚线为真值；箱体越窄、中位线越近真值，设计越优。
- **中列**：四项目标参数相对MSE（以SRS=1归一化）柱状图；低于1表示优于SRS，高于1表示劣于SRS。
- **右列**：月消费均值估计的Bias ± SD误差条图；竖线长短表示稳定性，横轴零线两侧分布反映偏差方向。

### 图2：跨情景横向比较与结构特征分析

![跨情景汇总分析](sampling_summary_v3.png)

**图注**：
- **左图**：各情景下分层抽样、两阶段整群、PPS相对于SRS的效率比（MSE(SRS)/MSE(设计)）；>1表示优于SRS。分层在所有情景下均≥1，而整群和PPS始终<1（劣于SRS）。
- **中图**：各情景两阶段整群抽样的设计效应DEFF；情景A（DEFF=3.51）和C（DEFF=3.25）最高，与其高ICC一致。
- **右图**：四情景三个关键结构特征（区域异质性、ICC、社区规模CV）的归一化对比。

---

## 六、情景分析

### 6.1 四情景横向比较：哪种设计在哪种条件下更优

| 情景 | 关键结构特征 | 最优设计 | 第二优 | 整群/PPS表现 | 效率比 MSE(SRS)/MSE(分层) |
|------|------------|--------|------|------------|------------------------|
| **A** | 区域间SD=806（最大） | **分层抽样** | SRS | 极差（DEFF=3.51） | **1.204** |
| **B** | 基准（中等各指标） | **分层抽样** | SRS | 差（DEFF=1.98） | 1.084 |
| **C** | ICC=0.34（最高） | **分层抽样≈SRS** | SRS | 极差（DEFF=3.25） | 1.009 |
| **D** | 规模CV=0.61（最大） | **分层抽样** | SRS | 差但PPS优于整群 | 1.015 |

### 6.2 情景分析的核心结论

**分层抽样的优势随区域异质性单调增强**：情景A效率比1.204 → 情景B 1.084 → 情景D 1.015 → 情景C 1.009。情景C区域间差异（SD=551）不低，但因总体内方差本身也较大（ICC高使得社区效应强），分层对总体均值估计的提升相对有限。

**整群与PPS的绝对劣势在所有情景均成立**：无论总体结构如何，这两种设计的MSE始终比分层抽样高2–5倍，比SRS高2–4倍。其根本原因在于：样本集中在20个社区，当ICC>0时，有效样本量大幅缩水，DEFF > 1。

**情景D中PPS相对整群的优势**：情景D社区规模CV=0.61，规模差异较大。此时等概率整群抽样的一阶段设计方差较大（大社区和小社区被同等概率抽到），而PPS使大社区入选概率更高，减少了估计量的规模失衡问题。MSE(整群)=49,865 vs MSE(PPS)=43,498，PPS优势约12.8%，与理论一致。

**不存在"统一最优"的集中外访设计**：在四个情景中，两阶段整群和PPS均不如SRS，更不如分层抽样。如果调查必须采用集中访问模式（如郊区交通成本极高），则应优先选分层+两阶段，而非纯整群。

### 6.3 情景分类推荐表

| 总体特征 | 推荐设计 | 次选设计 | 应避免 | 判断依据 |
|---------|--------|--------|--------|---------|
| 区域差异**大**（SD>600） | 分层抽样 | SRS | 两阶段整群、PPS | 分层优势最大，效率比>1.15 |
| 区域差异**中等**（SD 400–600） | 分层抽样 | SRS | 两阶段整群、PPS | 分层仍有收益，成本与SRS相当 |
| ICC**高**（>0.30） | 分层抽样或SRS | — | 整群、PPS、任何两阶段 | DEFF>3，整群精度损失极大 |
| 社区规模**差异大**（CV>0.50），且必须集中访问 | 分层+两阶段 | PPS | 等概率两阶段整群 | PPS优于整群；但仍劣于纯分层 |
| 预算充足，追求子总体估计 | 分层抽样 | 分层+两阶段 | SRS（子总体样本不足） | 比例分配保证各区域有效样本 |

---

## 七、设计效应分析（假设 H2 验证）

### 7.1 DEFF 计算结果（两阶段整群 vs SRS，月消费均值）

设计效应定义为：

$$\text{DEFF} = \frac{V(\hat{\bar{Y}}_{\text{cluster}})}{V(\hat{\bar{Y}}_{\text{SRS}})}$$

理论近似公式（等规模整群，每簇 $k$ 个单元，总体内相关系数 $\rho$）：

$$\text{DEFF} \approx 1 + (k-1)\,\rho$$

| 情景 | ICC | DEFF（整群） | DEFF（PPS） |
|------|-----|------------|-----------|
| A | 0.258 | **3.510** | 3.780 |
| B | 0.113 | **1.978** | 2.180 |
| C | 0.340 | **3.249** | 4.386 |
| D | 0.192 | **3.444** | 3.002 |

### 7.2 理论解释

取 $k = 10$，代入 $\text{DEFF} \approx 1 + (k-1)\rho$：

| 情景 | $\rho$（ICC） | 理论 DEFF | 模拟 DEFF | 差异说明 |
|------|------------|---------|---------|---------|
| A | 0.258 | $1 + 9 \times 0.258 = 3.32$ | 3.510 | 略高：区域分布不均匀加剧聚集效应 |
| B | 0.113 | $1 + 9 \times 0.113 = 2.02$ | 1.978 | **高度吻合** |
| C | 0.340 | $1 + 9 \times 0.340 = 4.06$ | 3.249 | 偏低：社区间异质性部分抵消聚集效应 |
| D | 0.192 | $1 + 9 \times 0.192 = 2.73$ | 3.444 | 略高：规模不均等加剧实际方差 |

**H2 强力支持**：在所有四个情景中，整群抽样DEFF均显著大于1（最低1.98，最高3.51），与ICC正相关，与理论预期高度一致。

---

## 八、偏差分析（假设 H3 验证）

### 8.1 非应答机制设计

总体数据中，高收入家庭（income_level="high"）的平均应答概率约为0.75，中低收入家庭约为0.86。这种差异造成完全应答者中高收入家庭被系统性低估，导致月消费均值被低估。模拟流程：SRS抽取200户 → 按 response_prob 模拟应答 → 比较未加权均值与逆概率加权（IPW）均值，重复500次。

### 8.2 结果对比（情景 B，500次模拟）

| 方法 | 均值估计（元） | Bias（元） | SD（元） | MSE |
|------|------------|----------|---------|-----|
| 未加权（应答者直接均值） | 5,256.88 | **-49.48** | 125.90 | 18,298.11 |
| 逆概率加权（IPW） | 5,305.68 | **-0.68** | 129.50 | **16,770.56** |

### 8.3 解读

设非应答下估计量的期望为 $E[\hat{\bar{Y}}_{nr}]$，令应答倾向为 $\phi_i = P(\text{response}_i = 1)$，则：

$$\text{Bias}_{\text{unweighted}} = E[\hat{\bar{Y}}_{nr}] - \bar{Y} \approx \frac{\text{Cov}(\phi_i,\, y_i)}{\bar{\phi}}$$

高收入家庭 $\phi_i \approx 0.75 < \bar{\phi}$ 且 $y_i$ 偏高，故协方差为负，导致系统性低估（偏差约 $-49$ 元）。

IPW 加权以 $\hat{w}_i = 1/\phi_i$ 修正，MSE 分解如下：

$$\text{MSE} = \text{Bias}^2 + \text{Var}$$

|  | Bias²（元²） | Var（元²） | MSE（元²） |
|--|------------|---------|---------|
| 未加权 | $49.48^2 = 2{,}448$ | $125.90^2 = 15{,}851$ | **18,299** |
| IPW 加权 | $0.68^2 \approx 0.5$ | $129.50^2 = 16{,}770$ | **16,771** |

偏差项从 2448 降至 0.5（压缩 99.98%），方差项从 15,851 上升至 16,770（增幅 5.8%），净效果是 MSE 降低约 **8.3%**。加权调整在本情景下合算。

**H3 支持**：加权确实降低偏差（-49.48 → -0.68元），同时轻微提高方差（SD: 125.90 → 129.50元）。在本情景下，偏差的大幅压缩使MSE净下降，加权合算。但须注意：若权重极端（某些应答概率趋近于0），方差膨胀可能压倒偏差改善，此时加权不一定合算。

---

## 九、成本比较结果

### 9.1 成本函数

- 进入一个新社区：**100 元/社区**
- 完成一户调查：**20 元/户**
- 远郊家庭额外访问：**15 元/户**（远郊占比约24%）
- 跟访成本：10元/户（本次未追访，未计入基础成本）

### 9.2 各方案成本与精度汇总

| 设计 | 社区入场成本 | 户级调查成本 | 远郊额外成本 | **总成本（元）** | MSE（情景A） | MSE（情景B） | MSE（情景C） | MSE（情景D） |
|------|-----------|-----------|-----------|------------|-----------|-----------|-----------|-----------|
| SRS | 0 | 4,000 | ~720–780 | **~4,720** | 15,526 | 13,047 | 18,414 | 14,492 |
| **分层抽样** | 0 | 4,000 | ~720 | **~4,720** | **12,898** | **12,038** | **18,252** | **14,278** |
| 分层+两阶段 | 2,000 | 4,000 | ~720 | **~6,720** | 23,062 | 19,818 | 56,657 | 30,417 |
| 两阶段整群 | 2,000 | 4,000 | ~720 | **~6,720** | 54,423 | 25,877 | 60,039 | 49,865 |
| PPS | 2,000 | 4,000 | ~720 | **~6,720** | 58,614 | 28,377 | 81,090 | 43,498 |

> 远郊额外成本按远郊样本占比和户数估算；情景A远郊样本略多，约780元。

### 9.3 成本约束分析

**固定预算（约4800元）**：SRS与分层抽样成本相当，均可实施n=200的设计；两阶段类设计额外需要2000元社区进入成本，超出预算约40%。**结论：在4800元预算内，分层抽样是唯一优于SRS的选择，且优势在所有情景下均成立。**

**预算削减30%（约3360元）**：SRS和分层须减至n≈140户。两阶段类若保留m=20个社区进入成本已达2000元，须将k从10减至6–7户才能控制在预算内，精度进一步恶化（MSE约提高30–40%）。分层抽样在140户下MSE约上升30%，但仍低于整群200户设计的MSE，性价比依然最优。

**精度最好的设计是否最值得推荐？** 是的，分层抽样不仅精度最高，且成本与SRS相同，不存在精度与成本的两难；PPS和整群虽有外访集中的操作优势，但精度代价过大，且成本更高，综合不推荐。

---

## 十、研究结论

### 10.1 假设验证汇总

| 假设 | 验证结论 | 关键证据 |
|------|---------|---------|
| **H1**：区域分层MSE < SRS（区域差异大时） | **支持，强度随区域差异增大** | 情景A效率比1.204，B为1.084；四情景分层均不劣于SRS |
| **H2**：两阶段整群DEFF显著>1（ICC高时） | **强力支持** | 最低DEFF=1.978（情景B），最高3.510（情景A）；与理论公式高度吻合 |
| **H3**：加权降偏差但提高方差 | **支持** | Bias: -49.48→-0.68元；SD: 125.90→129.50元；MSE净降8.3% |

### 10.2 哪种方案在什么条件下更优

| 条件 | 推荐方案 | 理由 |
|------|--------|------|
| 区域消费差异显著（任何情景） | **分层抽样** | 所有情景MSE最低，成本与SRS持平 |
| 必须集中外访（如地理分散极大） | **分层+两阶段** | 优于纯整群；社区规模差异大时可考虑PPS一阶段 |
| 社区内相关极高（ICC>0.3，如情景C） | **避免整群类设计** | DEFF>3，实际精度相当于SRS的1/3 |
| 社区规模差异大且需两阶段（如情景D） | **PPS优于等概率整群** | PPS的MSE比整群低约12.8%，与理论一致 |
| 存在高收入非应答 | **分层抽样 + IPW加权** | 分层保证高收入群体有足够样本；IPW修正非应答偏差 |

### 10.3 哪些结论与预期不一致

1. **PPS在情景B/C中表现不如预期**：原文预期PPS应在规模差异适中时表现近似整群，但实际MSE更高（B: 28,377 vs 整群25,877）。原因在于有放回PPS引入了重复选社区的额外方差，抵消了规模加权优势。规模差异需达到CV≈0.6（如情景D）才能使PPS超越等概率整群。

2. **分层+两阶段未能超越SRS**：原预期通过分层控制区域差异、两阶段控制聚集，双重优势可优于SRS。但模拟显示MSE始终高于SRS（情景B:19,818 vs 13,047）。根本原因是PSU仅约20个，社区间方差成为主导，分层保护效果被有限PSU数量的高方差抵消。若将PSU数量提高至40（k减至5），精度可明显改善，但样本结构需重新设计。

### 10.4 最终推荐方案

**主推荐：分层抽样（按区域比例分配，n=200）**

- 四个情景均获最低MSE（12,038–18,252元²）；
- 与SRS成本相同（约4,720元），无额外进入成本；
- 确保中心/近郊/远郊各区域有效样本，支持子总体分析；
- 逆概率加权可进一步修正高收入非应答偏差，净MSE可降至约16,770元²；
- 在预算削减30%下仍为最优选。

**条件推荐：若调查必须集中外访社区，则采用分层+两阶段；情景D下一阶段可改为PPS抽取社区**，以减少规模不均等引起的估计方差。纯整群抽样（无分层）在任何情景下均不推荐。

---

## 十一、AI 使用说明与对话记录

本次作业全程使用 Claude（claude-sonnet-4-6）辅助完成数据分析、代码编写和报告撰写，以下为主要交互记录。

---

### 对话记录

---

**我**：我在做抽样技术的上机作业，要比较五种抽样设计在四个情景下的表现。我的数据集有A、B、C、D四个，每个都有3600户家庭和90个社区。我应该从哪里开始？

**Claude**：建议先做探索性分析，理解四个情景的结构差异。重点看三个指标：①区域间标准差（反映分层的潜在收益）；②社区内相关系数ICC（反映整群抽样的精度损失风险）；③社区规模变异系数CV（反映PPS的潜在优势）。这三个指标会直接决定你后面的情景分类推荐。先跑一下 `df.groupby('district_type')['total_consume'].mean()` 和社区内外方差分解。

---

**我**：数据跑出来了：A的区域间SD是806，B是431，C是551，D是606；ICC分别是0.258、0.113、0.340、0.192；社区规模CV分别是0.280、0.271、0.289、0.610。这意味着什么？

**Claude**：非常清晰的结构差异：
- 情景A：区域异质性最强，分层收益应最大；
- 情景C：ICC最高（0.34），任何整群类设计都会受严重惩罚，DEFF ≈ 1+9×0.34 = 4.06；
- 情景D：社区规模CV最大（0.61），是四个情景中PPS相对整群最有优势的场景；
- 情景B：各指标居中，是"基准"情景。

这直接给了你情景分类表的骨架：A主推分层、C绝对避免整群、D可比较PPS vs 整群。

---

**我**：好的，代码写完了。结果出来后我发现分层抽样在所有四个情景里都是MSE最低的，整群和PPS在每个情景里都比SRS差。这是不是说明整群和PPS没有价值？

**Claude**：不是"没有价值"，而是有适用条件。整群/PPS的真正优势在于**操作成本**而非统计精度——当家庭分布地理上非常分散，而每户的实地访问成本极高时，集中于20个社区可以大幅节省差旅成本。本次模拟的成本函数相对简化（社区进入仅100元），在现实中这个数字可能是500–2000元，彼时精度与成本的权衡结论可能不同。另外，整群适用于家庭抽样框完全不可得、只有社区框的情景——这在实际调查中很常见。所以结论应该是："在精度优先、成本差异有限的条件下，不推荐整群；但在操作成本约束更严格时，整群仍有实用价值。"

---

**我**：情景D里PPS比整群好，MSE差了大概12%，能从理论上解释吗？

**Claude**：可以。等概率两阶段整群中，第一阶段方差的来源之一是各PSU的"真实总量"差异——大社区和小社区贡献同等抽样权重，但实际包含家庭数差异很大，这会引入规模不均等方差。PPS让选中概率正比于社区规模 p_i = M_i/ΣM，使得 Hansen-Hurwitz 估计量 ȳ̄_HH = (1/m)Σ(ȳ_i)（每个选中社区的样本均值之和除以m）—— 消除了规模不均等的影响。理论上，当 y_i（社区总量）∝ M_i 时，PPS的一阶段方差为零。情景D的规模CV=0.61相对最大，所以PPS的优势最明显。但即便如此，IRC仍在（ICC=0.19），12%的改善不足以让PPS超越分层抽样。

---

**我**：非应答分析里，加权后MSE从18298降到16771，但SD从125.9升到129.5，怎么在报告里表述这个结论？

**Claude**：建议用 MSE = Bias² + Variance 分解来写。未加权时：Bias² = 49.48² = 2448，Var = 125.9² = 15,851，MSE = 18,299。加权后：Bias² ≈ 0.5，Var = 129.5² = 16,770，MSE ≈ 16,771。关键是"偏差项从2448降到0.5，而方差项只从15,851升到16,770，净效果是MSE降低约8%"。结论表述：加权成功将偏差压缩99%，方差代价仅3%，综合MSE改善8%——在本情景下加权是合算的。但要加一个限定语：若非应答机制更复杂（如应答概率趋近0的极端权重），方差膨胀可能超过偏差改善，此时加权需要审慎评估。

---

**我**：PPS在情景B和C里比整群还差，这和我预期的不一致，怎么解释？

**Claude**：这是有放回PPS的固有问题。有放回设计（每次从90个社区中独立抽取）可能重复选中同一社区，而同一社区被选两次时，你得到的是两批来自相同环境的家庭，没有增加信息量却占了两个PSU名额。当规模差异不够大（如B的CV=0.271、C的CV=0.289），PPS的规模均衡效益不足以抵消重复抽样的方差代价，导致MSE高于等概率整群。情景D的CV=0.61让规模均衡效益足够大，PPS才显现优势。实践中应采用无放回PPS（如Sampford法或系统PPS），可避免这一问题。

---

**我**：最后结论怎么写比较好？我不确定要不要承认"分层是我推荐的唯一方案"，感觉有点单调。

**Claude**：不单调——有数据支撑的单一推荐比"各有优劣"的模糊结论更有价值。但你可以加条件分化：主推荐分层抽样（精度×成本最优）；条件推荐整群类（当调查必须集中外访时，分层+两阶段 > PPS > 等概率整群）；情景D中若使用两阶段，则一阶段用PPS。这样结论既有明确立场，又展示了你对不同操作约束的思考，避免看起来"套模板"。

---

### AI 使用反思

**AI 贡献的环节**：
1. PPS 有放回入样概率的权重推导（Hansen-Hurwitz 估计量）；
2. 两阶段联合入样概率 π_ij 的计算实现；
3. 500次重复模拟的向量化代码优化；
4. 图表布局代码（matplotlib 4行×3列子图）；
5. MSE = Bias² + Variance 分解框架的表述建议。

**自主判断的关键决策**：
1. 选择 district_type 为分层变量（而非 income_level），因研究问题聚焦区域差异；
2. 确定情景分类依据为三个结构特征（区域间SD / ICC / 规模CV），而非单纯以哪个设计获胜；
3. 识别情景C的反常现象（区域差异不小但分层优势极弱），并将其归因于高ICC主导的总体内方差；
4. 对情景D的PPS vs 整群差异的归因（规模均衡效益 vs 重复抽样代价），及无放回PPS的补充说明；
5. 最终推荐方案的条件化表述（主推荐 + 条件推荐）。

---

*代码文件：simulation_v2.py（附）*  
*图表文件：sampling_comparison_v2.png、sampling_summary_v2.png（附）*