\documentclass[a4paper, 10.5pt, twoside, openany]{book}
\usepackage{amsfonts}
\usepackage{array}
\usepackage{boxedminipage, fancybox}
\usepackage{caption}
\usepackage{color}
\usepackage[colorlinks,linkcolor=blue]{hyperref}
\usepackage{ctex}
\usepackage{datetime}
\usepackage[dvipsnames]{xcolor}
\usepackage{enumerate}
\usepackage{epsfig,graphicx,subfigure}
\usepackage{extarrows}
\usepackage{fancyheadings}
\usepackage{float}
\usepackage{geometry}
\usepackage{listings}
\usepackage{longtable}
\usepackage{makeidx}
\usepackage{mathrsfs}
\usepackage{multirow}
\usepackage{natbib}
\usepackage{pifont}
\usepackage{rotating}
\usepackage{setspace}
\usepackage{shadow}
\usepackage{stmaryrd, amssymb, amsmath}
\usepackage{tabularx}
\usepackage{url}
\usepackage{varioref}
\usepackage{verbatim}
\usepackage{wrapfig}
\usepackage{xcolor}
\geometry{left=2.0cm, right=2.0cm, top=2.5cm, bottom=2.5cm}
\linespread{1.5}
\definecolor{mygray}{rgb}{0.85, 0.85, 0.85}
\newcommand{\codeinline}[1]{\colorbox{mygray}{\lstinline|#1|}}
%% ----------------------------------------------------------------------------------------------------------------------------------------------------------------------
\title{\Huge \bf 《多元统计分析》课后作业}
\author{\kaishu 姓名:\underline{\quad 你的姓名 \quad} \\[5mm]
\kaishu 学号:\underline{\quad 你的学号 \quad} \\[5mm]
\kaishu 班级:\underline{\quad 统计 23-X 班 \quad} \\[50mm]
\kaishu 中国石油大学(北京)克拉玛依校区文理学院数学与统计系
}
\date{\today}
\begin{document}
% -------------------------------------------- 封面页 --------------------------------------------
\frontmatter
\maketitle
% -------------------------------------------- 作业要求 --------------------------------------------
\chapter{作业要求}
\begin{enumerate}
\item 可以和其他同学讨论作业当中的问题,但应当自己独立完成作业
\item 计算、证明等要有过程,要有主要步骤的说明
\item 请将计算、绘图所用的 R 代码以及生成的结果和图像一并添加在作业文件当中
\item 请使用 \LaTeX 编辑并生成 PDF 格式的文件,第 X 周作业文件命名方式:学号-姓名-X.pdf
\item 评分标准:每一问得分 $\in \left\{ 2 ,\, 1 ,\, 0 \right\}$
\begin{itemize}
\item 2:~ 按时完成并上交作业,且答案基本正确
\item 1:~ 按时完成并上交作业,且答案部分正确
\item 0:~ 答案完全错误,或者迟交作业(规定时间72小时之后)
\end{itemize}
\item 请将完成的 PDF 格式的作业文件发送至邮箱:xiaolei@cup.edu.cn
\item 每位同学可以有一次迟交作业的机会,但不得晚于规定时间三日之后
\item 第 11 周作业截止时间:2026年5月29日24:00
\end{enumerate}
\tableofcontents
% -------------------------------------------- 正文部分 --------------------------------------------
\mainmatter
% -------------------------------------------- 第 1 周作业 --------------------------------------------
\pagenumbering{arabic}
\chapter{第 1 周作业}
\vspace{10mm}
\begin{enumerate}
\item {\color{TealBlue} [2 分]} 最大值一定是异常值吗?
{\color{red} 【解】}
\item {\color{TealBlue} [2 分]} 均值或中位数是否有可能位于四分位数之外?
{\color{red} 【解】}
\item {\color{TealBlue} [2 分]} 假设数据来自标准正态分布 $N(0,1)$. 你预计会有百分之多少的数据可能是异常值呢?
{\color{red} 【解】}
\item 关于五数总括中的五个数字.
\begin{enumerate}
\item {\color{TealBlue} [2 分]} 有没有可能五个数字全部相等呢?
{\color{red} 【解】}
\item {\color{TealBlue} [2 分]} 如果可能的话,会在什么情况下发生呢?
{\color{red} 【解】}
\end{enumerate}
\item 对于瑞银纸币的对角线变量而言.
\begin{enumerate}
\item {\color{TealBlue} [2 分]} 使用带宽选择准则来计算对角线变量的最优选定带宽 $h$ 并作核密度估计的图形.
{\color{red} 【解】}
\item {\color{TealBlue} [2 分]} 为这两组 (真钞、假钞) 数据设置同一个带宽会更好吗?
{\color{red} 【解】}
\end{enumerate}
\item {\color{TealBlue} [2 分]} 设 $\left| \mathcal{A} \right| = 0$. 问矩阵 $\mathcal{A}$ 的所有特征值都有可能是正数吗?
{\color{red} 【解】}
\item {\color{TealBlue} [2 分]} 设矩阵 $\mathcal{A}$ (方阵) 的所有特征值都不为零. 问矩阵 $\mathcal{A}$ 是否一定可逆?
{\color{red} 【解】}
\item 设有矩阵 $\mathcal{A}$ 如下:
\begin{equation}
\mathcal{A} = \begin{pmatrix} 1 & 2 & 3 \\ 2 & 1 & 2 \\ 3 & 2 & 1 \end{pmatrix}
\end{equation}
\begin{enumerate}
\item {\color{TealBlue} [2 分]} 利用 R 计算矩阵 $\mathcal{A}$ 的行列式 $\left| \mathcal{A} \right|$.
{\color{red} 【解】}
\begin{verbatim}
请将计算用到的 R 代码拷贝到这里并删除本行,例如:
x = c(1, 2, 3, 2, 1, 2, 3, 2, 1)
A = matrix(x, nrow = 3, byrow = TRUE)
\end{verbatim}
\item {\color{TealBlue} [2 分]} 利用 R 求矩阵 $\mathcal{A}$ 的特征值与特征向量.
{\color{red} 【解】}
\begin{verbatim}
请将计算用到的 R 代码拷贝到这里并删除本行的内容:
\end{verbatim}
\item {\color{TealBlue} [2 分]} 利用 R 验证矩阵 $\mathcal{A}$ 的 Jordan 分解 (定理 2.1).
{\color{red} 【解】}
\begin{verbatim}
请将验证用到的 R 代码拷贝到这里并删除本行的内容:
\end{verbatim}
\end{enumerate}
\end{enumerate}
% -------------------------------------------- 第 2 周作业 --------------------------------------------
\pagenumbering{arabic}
\chapter{第 2 周作业}
\vspace{10mm}
\begin{enumerate}
\item 设 $\boldsymbol{a}$ 是一个 $( p \times 1 )$ 向量,$\mathcal{A} = \mathcal{A}^{\rm T}$ 是一个对称的 $( p \times p )$ 矩阵.
\begin{enumerate}
\item {\color{TealBlue} [2 分]} 证明
\begin{equation}
\dfrac{\partial \boldsymbol{a}^{\rm T} \boldsymbol{x}}{\partial \boldsymbol{x}} =
\dfrac{\partial \boldsymbol{x}^{\rm T} \boldsymbol{a}}{\partial \boldsymbol{x}} = \boldsymbol{a}
\end{equation}
{\color{red} 【证明】}
\item {\color{TealBlue} [2 分]} 证明
\begin{equation}
\dfrac{\partial \boldsymbol{x}^{\rm T} \mathcal{A} \boldsymbol{x}}{\partial \boldsymbol{x}} = 2 \mathcal{A} \boldsymbol{x}
\end{equation}
{\color{red} 【证明】}
\item {\color{TealBlue} [2 分]} 证明二次型 $Q ( \boldsymbol{x} ) = \boldsymbol{x}^{\rm T} \mathcal{A} \boldsymbol{x}$
的 Hessian 矩阵为
\begin{equation}
\dfrac{\partial^2 \boldsymbol{x}^{\rm T} \mathcal{A} \boldsymbol{x}}{\partial \boldsymbol{x} \partial \boldsymbol{x}^{\rm T}} = 2 \mathcal{A}
\end{equation}
{\color{red} 【证明】}
\end{enumerate}
\item {\color{TealBlue} [2 分]} 证明一个投影矩阵的特征值仅取值于集合 $\left\{ 0 ,\, 1 \right\}$ 中.
{\color{red} 【证明】}
\item {\color{TealBlue} [2 分]} 作度量矩阵为 $\mathcal{A} = \mathnormal{\Sigma}^{-1}$ 的某个等距椭球体的图形,其中
\begin{equation}
\mathnormal{\Sigma} = \begin{pmatrix} 1 & \rho \\ \rho & 1 \end{pmatrix}
\end{equation}
{\color{red} 【解】}
\begin{verbatim}
请将作图用到的 R 代码拷贝到这里并删除本行:
\end{verbatim}
\item 对于课堂中讨论过的汽车数据集,
\begin{enumerate}
\item {\color{TealBlue} [2 分]} 计算变量 $X_2 = \text{miles per gallon}$ 与 $X_8 = \text{weight}$ 的协方差.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 你期待协方差的符号是正还是负,为什么?
{\color{red} \heiti 【解】}
\end{enumerate}
\item 一位纺织店经理研究“经典蓝色”套头衫在 $10$ 个不同时期的销售情况. 他调查了销量 $\left( X_1 \right)$;价格的变化 $\left( X_2 \right)$,单位:欧元;
当地报纸的广告费用 $\left( X_3 \right)$,单位:欧元;以及是否有促销员 $\left( X_4 \right)$,促销员的时长,单位:小时. 所得观测数据矩阵如下:
\begin{equation}
\mathcal{X} = \begin{pmatrix} 230 & 125 & 200 & 109 \\ 181 & 99 & 55 & 107 \\ 165 & 97 & 105 & 98 \\ 150 & 115 & 85 & 71 \\ 97 & 120 & 0 & 82 \\
192 & 100 & 150 & 103 \\ 181 & 80 & 85 & 111 \\ 189 & 90 & 120 & 93 \\ 172 & 95 & 110 & 86 \\ 170 & 125 & 130 & 78 \end{pmatrix}
\end{equation}
\begin{enumerate}
\item {\color{TealBlue} [2 分]} 计算 $\mathcal{X}$ 的样本相关矩阵.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 就相关系数的符号进行说明.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 检验假设 $\rho_{_{X_1 X_2}} = 0$.
{\color{red} \heiti 【解】}
\end{enumerate}
\item {\color{TealBlue} [2 分]} 证明 ${\rm rank}(\mathcal{H}) = {\rm tr}(\mathcal{H}) = n - 1$, 其中
$\mathcal{H} = \mathcal{I}_p - \dfrac{1}{n} \boldsymbol{1}_n \boldsymbol{1}_n^{\rm T}$.
{\color{red} \heiti 【证明】}
\item 设 $\mathcal{X}$ 表示课堂中讨论过的钞票数据集当中伪钞数据的观测矩阵.
\begin{enumerate}
\item {\color{TealBlue} [2 分]} 计算 $\mathcal{X}$ 的样本协方差矩阵 $\mathcal{S} = {\rm Cov}(\mathcal{X} )$.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 作 $\mathcal{S}$ 的 Jordan 分解.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 为什么所有的特征值均为正?
{\color{red} \heiti 【解】}
\end{enumerate}
\end{enumerate}
% -------------------------------------------- 第 3 周作业 --------------------------------------------
\chapter{第 3 周作业}
\vspace{10mm}
\begin{enumerate}
\item 设 $\boldsymbol{X} = \left( X_1 \,,\, X_2 \right)^{\rm T}$ 是二维随机向量,且
\begin{equation*}
\mathbb{E} (\boldsymbol{X}) = \begin{pmatrix} 0 \\ 0 \end{pmatrix} \,, \quad \mathbb{V}{\rm ar} (\boldsymbol{X}) = \begin{pmatrix} 1 & 0 \\ 0 & 2 \end{pmatrix}
\end{equation*}
\begin{enumerate}
\item {\color{TealBlue} [2 分]} 定义 $Y = X_1 + X_2$,则 $Y$ 是 $\boldsymbol{X}$ 的一个线性变换,写出变换矩阵 $\mathcal{A}$.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 计算 $\mathbb{V}{\rm ar} (Y)$.
{\color{red} \heiti 【解】}
\end{enumerate}
\item {\color{TealBlue} [2 分]} 设 $\boldsymbol{X} = \left( X_1 \,,\, X_2 \right)^{\rm T}$ 的联合概率密度函数为
\begin{equation}
f \left( x_1 \,,\, x_2 \right) = \begin{cases} {\rm e}^{-\left( x_1 + x_2 \right)} \,, & x_1 > 0 \,,\, x_2 > 0 \\ 0 \,, & \text{其它} \end{cases}
\end{equation}
令 $U_1 = X_1 + X_2$,$U_2 = X_1 - X_2$,求 $\boldsymbol{U} = \left( U_1 \,,\, U_2 \right)^{\rm T}$ 的联合概率密度函数.
{\color{red} \heiti 【解】}
\item 假设
\begin{equation}
f \left( x_1 \,,\, x_2 \,,\, x_3 \right) = \begin{cases} k \, \left( x_1 + x_2 \, x_3 \right) \,, & 0 < x_1 \,,\, x_2 \,,\, x_3 < 1 \\ 0 \,, & \text{其它} \end{cases}
\end{equation}
\begin{enumerate}
\item {\color{TealBlue} [2 分]} 确定 $k$ 的值,使得 $f$ 是 $\boldsymbol{X} = \left( X_1 \,,\, X_2 \,,\, X_3 \right)^{\rm T}$ 的概率密度函数.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 计算 $\Sigma_{\boldsymbol{X}} = \mathbb{V}{\rm ar} (\boldsymbol{X})$.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 给定 $X_1 = x_1$ 时,计算 $\left( X_2 \,,\, X_3 \right)$ 的条件协方差矩阵.
{\color{red} \heiti 【解】}
\end{enumerate}
\item 设有概率密度函数
\begin{equation}
f \left( x_1 \,,\, x_2 \right) = \begin{cases} \dfrac{1}{2} \, {\rm e}^{-x_1} \,, & x_1 > \left| x_2 \right| \\ 0 \,, & \text{其它} \end{cases}
\end{equation}
\begin{enumerate}
\item {\color{TealBlue} [2 分]} 计算 $\mathbb{E} (\boldsymbol{X})$ 与 $\mathbb{V}{\rm ar} (\boldsymbol{X})$.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 计算 $\mathbb{E} \left( X_1 \left| X_2 \right. \right)$ 与 $\mathbb{E} \left( X_2 \left| X_1 \right. \right)$.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 计算 $\mathbb{V}{\rm ar} \left( X_1 \left| X_2 \right. \right)$ 与 $\mathbb{V}{\rm ar} \left( X_2 \left| X_1 \right. \right)$.
{\color{red} \heiti 【解】}
\end{enumerate}
\item 设有概率密度函数
\begin{equation}
f \left( x_1 \,,\, x_2 \right) = \begin{cases} \dfrac{3}{4} \, x_1^{-\frac{1}{2}} \,, & 0 < x_1 < x_2 < 1 \\ 0 \,, & \text{其它} \end{cases}
\end{equation}
\begin{enumerate}
\item {\color{TealBlue} [2 分]} 计算 $\mathbb{P} \left( X_1 < 0.25 \right)$.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 计算 $\mathbb{P} \left( X_2 < 0.25 \right)$.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 计算 $\mathbb{P} \left( X_2 < 0.25 \left| \, X_1 < 0.25 \right. \right)$.
{\color{red} \heiti 【解】}
\end{enumerate}
\item 设 $\boldsymbol{X} \sim N_2 ( \boldsymbol{\mu} ,\, \mathnormal{\Sigma} )$,其中
\begin{equation}
\boldsymbol{\mu} = \begin{pmatrix} 1 \\ 2 \end{pmatrix} \,, \qquad \mathnormal{\Sigma} = \begin{pmatrix} 2 & a \\ a & 2 \end{pmatrix} \,.
\end{equation}
\begin{enumerate}
\item {\color{TealBlue} [2 分]} 当 $a = 0 ,\, -\dfrac{1}{2} ,\, +\dfrac{1}{2} ,\, 1$ 时,分别作 $\boldsymbol{X}$ 的密度曲面的等值线椭圆的图形.
{\color{blue} \kaishu 注意:要给出代码以及对应的图形!}
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 对 $a = \dfrac{1}{2}$,确定以$\boldsymbol{\mu}$ 为中心的 $\boldsymbol{X}$ 的区域,该区域以 $0.90$ 的概率覆盖真实参数 $\boldsymbol{\mu}$,
画出该区域的图形.
{\color{red} \heiti 【解】}
\end{enumerate}
\item 设有概率密度函数
\begin{equation}
f \left( x_1 \,,\, x_2 \right) = \begin{cases} \dfrac{1}{8x_2} \, {\rm e}^{-\left( \frac{x_1}{2x_2} + \frac{x_2}{4} \right)} \,, & x_1 \,,\, x_2 >0 \\ 0 \,, & \text{其它} \end{cases}
\end{equation}
\begin{enumerate}
\item {\color{TealBlue} [2 分]} 计算 $f_{X_2} \left( x_2 \right)$.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 计算 $f \left( x_1 \left| x_2 \right. \right)$.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 给出利用 $X_2$ 的一个函数对 $X_1$ 的最佳逼近.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 计算最佳逼近的误差的方差.
{\color{red} \heiti 【解】}
\end{enumerate}
\end{enumerate}
% -------------------------------------------- 第 4 周作业 --------------------------------------------
\chapter{第 4 周作业}
\begin{enumerate}
\item {\color{TealBlue} [2 分]} 证明
\begin{equation}
f_{\boldsymbol{Y}} (\boldsymbol{y}) = \begin{cases} \dfrac{1}{2} \, y_1 - \dfrac{1}{4} \, y_2 \,, & 0 \leq y_1 \leq 2 ,\, \left| y_2 \right| \leq 1 - \left| 1 - y_1 \right| \,, \\[2mm]
0 \,, & \text{其它} \end{cases}
\end{equation}
是一个概率密度函数.
{\color{red} \heiti 【证明】}
\item 设 $\boldsymbol{X} = \left( X_1 ,\, X_2 \right)^{\rm T}$ 的概率密度函数为
\begin{equation}
f \left( x_1 \,,\, x_2 \right) = \begin{cases} 4 \, x_1 x_2 \, {\rm e}^{-x^2_1} \,, & x_1 > 0 \,,\, 0< x_2 < 1 \,, \\ 0 \,, & \text{其它.} \end{cases}
\end{equation}
\begin{enumerate}
\item {\color{TealBlue} [2 分]} 计算 $\mathbb{E} (\boldsymbol{X})$ 与 $\mathbb{V}{\rm ar} (\boldsymbol{X})$.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 计算 $\mathbb{E} \left( X_1 \left| X_2 \right. \right)$ 与 $\mathbb{E} \left( X_2 \left| X_1 \right. \right)$.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 计算 $\mathbb{V}{\rm ar} \left( X_1 \left| X_2 \right. \right)$ 与 $\mathbb{V}{\rm ar} \left( X_2 \left| X_1 \right. \right)$.
{\color{red} \heiti 【解】}
\end{enumerate}
\item {\color{TealBlue} [2 分]} 设 $\boldsymbol{X} = \left( X_1 ,\, X_2 \right)^{\rm T}$ 的概率密度函数为
\begin{equation}
f \left( x_1 \,,\, x_2 \right) = \begin{cases} \dfrac{1}{2 \pi} \,, & 0 < x_1 < 2 \pi \,,\, 0 < x_2 < 1 \,, \\[2mm] 0 \,, & \text{其它.} \end{cases}
\end{equation}
令
\begin{equation}
\begin{cases} U_1 = \left( \sin X_1 \right) \sqrt{-2 \, \ln X_2} \\[2mm] U_2 = \left( \cos X_1 \right) \sqrt{-2 \, \ln X_2} \end{cases}
\end{equation}
求 $\boldsymbol{U} = \left( U_1 ,\, U_2 \right)^{\rm T}$ 的概率密度函数 $g \left( u_1 \,,\, u_2 \right)$.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 设 $\boldsymbol{X} \sim N_p ( \boldsymbol{\mu} ,\, \mathnormal{\Sigma})$,其概率密度函数为
\begin{equation}
f (\boldsymbol{x}) = \left| 2 \pi \mathnormal{\Sigma} \right|^{-1/2} \exp
\left\{ -\dfrac{1}{2} (\boldsymbol{x} - \boldsymbol{\mu})^{\rm T} \mathnormal{\Sigma}^{-1} (\boldsymbol{x} - \boldsymbol{\mu}) \right\} \,.
\end{equation}
若 $\mathcal{A}$ 为 $p \times p$ 的非奇异矩阵,$\boldsymbol{c} \in \mathbb{R}^p$ 为常数向量. 证明:
\begin{equation}
\boldsymbol{Y} = \mathcal{A} \, \boldsymbol{X} + \boldsymbol{c} \sim N_p \left( \mathcal{A} \, \boldsymbol{\mu} + \boldsymbol{c} ,\,
\mathcal{A} \, \mathnormal{\Sigma} \mathcal{A}^{\rm T} \right) \,.
\end{equation}
{\color{red} \heiti 【证明】}
\item 考虑矩不存在的 Cauchy 分布,从而中心极限定理 (CLT) 无法应用.
\begin{enumerate}
\item {\color{TealBlue} [2 分]} 取三个不同的样本容量 $n$,对来自 Cauchy 分布总体的样本均值 $\overline{\boldsymbol{x}}$ 进行模拟,作直方图以及相应的核密度曲线图.
{\color{red} \bf 提示:} {\kaishu Cauchy 分布可以通过 rcauchy(n, location = 0, scale = 1) 进行模拟.}
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 当 $n \rightarrow \infty$ 时,你预期会出现什么情况?.
{\color{red} \heiti 【解】}
\end{enumerate}
\end{enumerate}
% -------------------------------------------- 第 5 周作业 --------------------------------------------
\chapter{第 5 周作业}
\begin{enumerate}
\item {\color{TealBlue} [2 分]} 假设 $\boldsymbol{X} \sim N_2 (\boldsymbol{\mu} \,,\, \mathnormal{\Sigma})$,其中
\begin{equation}
\boldsymbol{\mu} = \begin{pmatrix} 2 \\ 2 \end{pmatrix} \,, \qquad \mathnormal{\Sigma} = \begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix}
\end{equation}
令
\begin{equation}
\mathcal{A} = \left( 1 \,,\, 1 \right) \,, \qquad \mathcal{B} = \left( 1 \,,\, -1 \right)
\end{equation}
证明 $\mathcal{A} \, \boldsymbol{X}$ 与 $\mathcal{B} \, \boldsymbol{X}$ 相互独立.
{\color{red} \heiti 【证明】}
\item 假设
\begin{equation}
\boldsymbol{X} \sim N_2 \left( \begin{pmatrix} 1 \\ 2 \end{pmatrix} \,,\, \begin{pmatrix} 2 & 1 \\ 1 & 2 \end{pmatrix} \right) \,,\quad
\left( \boldsymbol{Y} \left| \boldsymbol{X} \right. \right) \sim N_2 \left( \begin{pmatrix} X_1 \\ X_1 + X_2 \end{pmatrix} \,,\, \begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix} \right)
\end{equation}
\begin{enumerate}
\item {\color{TealBlue} [2 分]} 确定 $Y_2 \left| \, Y_1 \right.$ 的分布.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 确定 $\boldsymbol{W} = \boldsymbol{X} - \boldsymbol{Y}$ 的分布.
{\color{red} \heiti 【解】}
\end{enumerate}
\item 假设
\begin{equation}
\left( \begin{array}{c} X \\ Y \\ Z \end{array} \right) \sim N_3 ( \boldsymbol{\mu} \,,\, \mathnormal{\Sigma})
\end{equation}
若已知
\begin{align}
Y \left| \, Z \right. & \sim N_1 (-Z \,,\, 1) \\[2mm]
\mu_{_{Z \left| Y \right.}} & = - \dfrac{1}{3} - \dfrac{1}{3} Y \\[2mm]
(X \left| \, Y \,,\, Z \right. ) &\sim N_1 (2 + 2Y + 3Z \,,\, 1)
\end{align}
\begin{enumerate}
\item {\color{TealBlue} [2 分]} 计算 $\boldsymbol{\mu}$ 和 $\mathnormal{\Sigma}$.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 确定 $X \left| \, Y \right.$ 的分布.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 确定 $X \left| \, Y + Z \right.$ 的分布.
{\color{red} \heiti 【解】}
\end{enumerate}
\item 已知
\begin{align}
Z & \sim N_1 (0 \,,\, 1) \\[2mm]
Y \left| \, Z \right. & \sim N_1 (1 + Z \,,\, 1) \\[2mm]
( X \left| \, Y \,,\, Z \right. ) & \sim N_1 (1 - Y \,,\, 1)
\end{align}
\begin{enumerate}
\item {\color{TealBlue} [2 分]} 确定 $\left( \begin{array}{c} X \\ Y \\ Z \end{array} \right)$ 的分布.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 确定 $( Y \left| \, X \,,\, Z \right. )$ 的分布.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 确定 $\left( \begin{array}{c} U \\ V \end{array} \right) = \left( \begin{array}{c} 1 + Z \\ 1 - Y \end{array} \right)$ 的分布.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 计算 $\mathbb{E} \left( Y \left| \, U = 2 \right. \right)$.
{\color{red} \heiti 【解】}
\end{enumerate}
\item 已知
\begin{equation}
\boldsymbol{X} \sim N_3 \left( \begin{pmatrix} 1 \\ 2 \\ 3 \end{pmatrix} \,,\,
\left( \begin{array}{rrr} 11 & -6 & 2 \\ -6 & 10 & -4 \\ 2 & -4 & 6 \end{array} \right) \right)
\end{equation}
\begin{enumerate}
\item {\color{TealBlue} [2 分]} 利用 $X_1$ 与 $X_2$ 的一个线性函数,求 $X_3$ 的最佳线性逼近.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 计算 $X_3$ 与 $\left( X_1 \,,\, X_2 \right)$ 的多重相关系数.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 令 $Z_1 = X_2 - X_3$,$Z_2 = X_2 + X_3$,如果 $\left( Z_3 \left| \, Z_1 \,,\, Z_2 \right. \right) \sim N_1 \left( Z_1 + Z_2 \,,\, 10 \right)$,
确定 $\left( \begin{array}{c} Z_1 \\ Z_2 \\ Z_3 \end{array} \right)$ 的分布.
{\color{red} \heiti 【解】}
\end{enumerate}
\item 假设 $(X \,,\, Y \,,\, Z)^{\rm T}$ 服从三维正态分布,且
\begin{align}
(Y \left| \, Z \right. ) & \sim N_1 (2Z \,,\, 24) \\[2mm]
(Z \left| \, X \right. ) & \sim N_1 (2X + 3 \,,\, 14) \\[2mm]
X & \sim N_1 (1 \,,\, 4) \\[2mm]
\rho_{_{XY}} & = 0.5
\end{align}
\begin{enumerate}
\item {\color{TealBlue} [2 分]} 确定 $(X \,,\, Y \,,\, Z)^{\rm T}$ 的分布.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 对于给定的 $Z$ 值,计算 $X$ 与 $Y$ 的偏相关系数.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 你认为利用 $Y$ 和 $Z$ 的一个线性函数逼近 $X$ 是否合理?
{\color{red} \heiti 【解】}
\end{enumerate}
\item 设
\begin{equation}
\boldsymbol{X} \sim N_4 \left( \left( \begin{array}{c} 1 \\ 2 \\ 3 \\ 4 \end{array} \right) \,,\,
\left( \begin{array}{rrrr} 4 & 1 & 2 & 4 \\ 1 & 4 & 2 & 1 \\ 2 & 2 & 16 & 1 \\ 4 & 1 & 1 & 9 \end{array} \right) \right)
\end{equation}
\begin{enumerate}
\item {\color{TealBlue} [2 分]} 给出用 $\left( X_1 \,,\, X_4 \right)$ 的一个函数对 $X_2$ 的最佳线性逼近,并解释逼近的效果.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 给出用 $\left( X_1 \,,\, X_3 \,,\, X_4 \right)$ 的一个函数对 $X_2$ 的最佳线性逼近,与 (a) 的结果进行对比.
{\color{red} \heiti 【解】}
\end{enumerate}
\end{enumerate}
% -------------------------------------------- 第 6 周作业 --------------------------------------------
\chapter{第 6 周作业}
\begin{enumerate}
\item 设有二维分布总体,其概率密度函数为
\begin{equation}
f \left( x_1 ,~ x_2 \right) = \frac{1}{\theta_1 \theta_2} \, \exp \left( - \frac{x_1}{\theta_1} - \frac{x_2}{\theta_2} \right) ~, \quad x_1 ~,~ x_2 > 0
\end{equation}
从中抽取一个容量为 $n$ 的简单随机样本.
\begin{enumerate}
\item {\color{TealBlue} [2 分]} 求 $\boldsymbol{\theta} = \left( \theta_1 ~,~ \theta_2 \right)^{\rm T}$ 的极大似然估计量.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 确定其 Cramer-Rao 下界.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 能否找到 $\boldsymbol{\theta}$ 的一个最小方差无偏估计量?
{\color{red} \heiti 【解】}
\end{enumerate}
\item 考虑总体 $N_p \left( \boldsymbol{\mu} ,\, \mathnormal{\Sigma}_0 \right)$,其中 $\mathnormal{\Sigma}_0$ 已知,设 $\left\{ \boldsymbol{x}_i \right\}_{i=1}^n$ 是取自该总体的一个简单随机样本.
\begin{enumerate}
\item {\color{TealBlue} [2 分]} 计算 $\boldsymbol{\mu}$ 的 Cramer-Rao 下界.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 能否给出 $\boldsymbol{\mu}$ 的一个最小方差无偏估计量?
{\color{red} \heiti 【解】}
\end{enumerate}
\item 假设 $\boldsymbol{X} \sim N_p ( \boldsymbol{\mu} \,,\, \mathnormal{\Sigma} )$,其中 $\mathnormal{\Sigma}$ 未知,但我们已知
$\mathnormal{\Sigma} = \text{diag} \left( \sigma_{11} ,\, \sigma_{22} ,\, \ldots ,\, \sigma_{pp} \right)$,
如果 $\left\{ \boldsymbol{x}_i \right\}_{i=1}^n$ 是取自该总体的容量为 $n$ 的一个简单随机样本
\begin{enumerate}
\item {\color{TealBlue} [2 分]} 求 $\boldsymbol{\mu}$ 的极大似然估计.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 求 $\mathnormal{\Sigma}$ 的极大似然估计.
{\color{red} \heiti 【解】}
\end{enumerate}
\item {\color{TealBlue} [2 分]} 证明定理 6.1.
\begin{boxedminipage}[t]{16.0cm}
{\bf 定理 6.1}: 设 $\boldsymbol{s} = \boldsymbol{s} \left( \mathcal{X} ;~ \boldsymbol{\theta} \right)$ 是评分函数,
如果 $\widehat{\boldsymbol{\theta}} = \boldsymbol{t} = \boldsymbol{t} \left( \mathcal{X} ;~ \boldsymbol{\theta} \right)$ 是 $\mathcal{X}$
与 $\boldsymbol{\theta}$ 的任一函数,则在正则条件下有
\begin{equation}
\mathbb{E} \left( \boldsymbol{st}^{\rm T} \right) = \frac{\partial}{\partial \boldsymbol{\theta}} \mathbb{E} \left( \boldsymbol{t}^{\rm T} \right) -
\mathbb{E} \left( \frac{\partial \boldsymbol{t}^{\rm T}}{\partial \boldsymbol{\theta}} \right).
\end{equation}
\end{boxedminipage}
{\bf 提示}:从
$$ \dfrac{\partial}{\partial \boldsymbol{\theta}} \, \mathbb{E} \left( \boldsymbol{t}^{\rm T} \right) = \dfrac{\partial}{\partial \boldsymbol{\theta}} \int
\boldsymbol{t}^{\rm T} \left( \mathcal{X} ;~ \boldsymbol{\theta} \right) \cdot L \left( \mathcal{X} ;~ \boldsymbol{\theta} \right) {\rm d} \mathcal{X} $$
出发,注意到
$$ \boldsymbol{s} \left( \mathcal{X} ;\, \boldsymbol{\theta} \right) = \dfrac{1}{L \left( \mathcal{X} ;\, \boldsymbol{\theta} \right)} \cdot
\dfrac{\partial}{\partial \boldsymbol{\theta}} \, L \left( \mathcal{X} ;\, \boldsymbol{\theta} \right) \,. $$
{\color{red} \heiti 【证】}
\item 设 $\boldsymbol{s} ( \mathcal{X} ;~ \boldsymbol{\theta} )$ 是评分函数,$\widehat{\boldsymbol{\theta}} = \boldsymbol{t} = \boldsymbol{t} \left( \mathcal{X} \right)$
是 $\boldsymbol{\theta}$ 的任意一个无偏估计量,即 $\mathbb{E} (\boldsymbol{t}) = \boldsymbol{\theta}$.
\begin{enumerate}
\item {\color{TealBlue} [2 分]} 证明
\begin{equation}
{\rm E} \left[ \boldsymbol{s} \left( {\mathcal{X} ;~ \boldsymbol{\theta}} \right) \right] = \boldsymbol{0} \,.
\end{equation}
{\color{red} \heiti 【证】}
\item {\color{TealBlue} [2 分]} 证明
\begin{equation}
\mathbb{E} \left( \boldsymbol{st}^{\rm T} \right) = \mathbb{C}{\rm ov} \left( \boldsymbol{s} ,~ \boldsymbol{t} \right) = \mathcal{I}_k ~.
\end{equation}
{\color{red} \heiti 【证】}
\end{enumerate}
\item 设 $\boldsymbol{X} \sim N_2 \left( \boldsymbol{\mu},~ \mathnormal{\Sigma} \right)$,其中已知
\begin{equation}
\mathnormal{\Sigma} = \left( \begin{array}{rr} 2 & -1 \\ -1 & 2 \end{array} \right)
\end{equation}
我们从该总体抽取了容量 $n=6$ 的一个简单随机样本,计算得
\begin{equation}
\overline{\boldsymbol{x}} = \left( \begin{array}{c} 1 \\[3mm] \dfrac{1}{2} \end{array} \right)
\end{equation}
\begin{enumerate}
\item {\color{TealBlue} [2 分]} 求解下述假设检验问题.
\begin{equation}
H_0:\, \boldsymbol{\mu} = \left( \begin{array}{c} 2 \\[3mm] \dfrac{2}{3} \end{array} \right) ~\longleftrightarrow~
H_1:\, \boldsymbol{\mu} \not= \left( \begin{array}{c} 2 \\[3mm] \dfrac{2}{3} \end{array} \right)
\end{equation}
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 作拒绝域的可视化图形.
{\color{red} \heiti 【解】}
\end{enumerate}
\item 设 $\boldsymbol{X} \sim N_2 \left( \boldsymbol{\mu},~ \mathnormal{\Sigma} \right)$,其中 $\mathnormal{\Sigma}$ 未知.
从中抽取了容量 $n=6$ 的一个样本,计算得样本均值和样本方差如下:
\begin{equation}
\overline{\boldsymbol{x}} = \left( \begin{array}{c} 1 \\[3mm] \dfrac{1}{2} \end{array} \right) \,, \quad
\mathcal{S} = \left( \begin{array}{rr} 2 & -1 \\ -1 & 2 \end{array} \right)
\end{equation}
\begin{enumerate}
\item {\color{TealBlue} [2 分]} 求解下述检验问题.
\begin{equation}
H_0:~ \boldsymbol{\mu} = \left( \begin{array}{c} 2 \\[3mm] \dfrac{2}{3} \end{array} \right) ~\longleftrightarrow~
H_1:~ \boldsymbol{\mu} \not= \left( \begin{array}{c} 2 \\[3mm] \dfrac{2}{3} \end{array} \right)
\end{equation}
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 作拒绝域的可视化图形.
{\color{red} \heiti 【解】}
\end{enumerate}
\end{enumerate}
% -------------------------------------------- 第 7 周作业 --------------------------------------------
\chapter{第 7 周作业}
\begin{enumerate}
\item 从二元正态分布总体模拟抽样一个简单随机样本,其中
\begin{equation}
\boldsymbol{\mu} = \left( \begin{array}{c} 1 \\ 2 \end{array} \right) ~, \quad \mathnormal{\Sigma} = \left( \begin{array}{rr} 1 & 0.5 \\ 0.5 & 2 \end{array} \right)
\end{equation}
检验假设 $H_0:~ 2 \, \mu_1 - \mu_2 = 0.2$.
\begin{enumerate}
\item {\color{TealBlue} [2 分]} 首先,假设 $\mathnormal{\Sigma}$ 已知.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 其次,假设 $\mathnormal{\Sigma}$ 未知.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 比较上述结果.
{\color{red} \heiti 【解】}
\end{enumerate}
\item 对上课用到的美国公司数据集.
\begin{enumerate}
\item {\color{TealBlue} [2 分]} 使用 $X_1$ 至 $X_6$ 全部六个变量的观测数据,检验能源行业的均值向量与制造业的均值向量是否相同.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 计算均值差的联合置信区间.
{\color{red} \heiti 【解】}
\end{enumerate}
\item 设 $\boldsymbol{X} \sim N_2 \left( \boldsymbol{\mu} ,\, \mathnormal{\Sigma} \right)$,其中 $\mathnormal{\Sigma}$ 已知
\begin{equation}
\mathnormal{\Sigma} = \left( \begin{array}{rr} 2 & -1 \\ -1 & 2 \end{array} \right)
\end{equation}
从中抽取了容量 $n = 6$ 的一个简单随机样本,计算得
\begin{equation}
\overline{\boldsymbol{x}} = \left( \begin{array}{c} 1 \\[3mm] \dfrac{1}{2} \end{array} \right)
\end{equation}
\begin{enumerate}
\item {\color{TealBlue} [2 分]} 求解假设检验问题 $H_0:~ \mu_1 + \mu_2 = \dfrac{7}{2} ~\longleftrightarrow~
H_1:~ \mu_1 + \mu_2 \not= \dfrac{7}{2}$.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 作拒绝域的可视化图形.
{\color{red} \heiti 【解】}
\end{enumerate}
\item 设 $\boldsymbol{X} \sim N_2 \left( \boldsymbol{\mu} ,\, \mathnormal{\Sigma} \right)$,其中 $\mathnormal{\Sigma}$ 未知.
从中抽取了容量 $n = 6$ 的一个简单随机样本,计算得
\begin{equation}
\overline{\boldsymbol{x}} = \left( \begin{array}{c} 1 \\[3mm] \dfrac{1}{2} \end{array} \right) \,, \quad
\mathcal{S} = \left( \begin{array}{rr} 2 & -1 \\ -1 & 2 \end{array} \right)
\end{equation}
\begin{enumerate}
\item {\color{TealBlue} [2 分]} 求解假设检验问题 $H_0:~ \mu_1 - \mu_2 = \dfrac{1}{2} ~\longleftrightarrow~
H_1:~ \mu_1 - \mu_2 \not= \dfrac{1}{2}$.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 作拒绝域的可视化图形.
{\color{red} \heiti 【解】}
\end{enumerate}
\item 已知 $\boldsymbol{X} \sim N_3 \left( \boldsymbol{\mu} ,\, \mathnormal{\Sigma} \right)$. 从中抽取了容量 $n=10$ 的一个简单随机样本,算得
\begin{equation}
\overline{\boldsymbol{x}} = \left( \begin{array}{c} 1 \\ 0 \\ 2 \end{array} \right)~, \quad \mathcal{S} = \left( \begin{array}{ccc} 3 & 2 & 1 \\ 2 & 3 & 1 \\ 1 & 1 & 4 \end{array} \right)
\end{equation}
\begin{enumerate}
\item {\color{TealBlue} [2 分]} 已知 $\mathcal{S}$ 的特征值为整数,给出 $\boldsymbol{\mu}$ 的置信度为 $95\%$ 一个置信域.
\noindent
{\color{blue} 【提示】为计算特征值,可以利用下式:
\begin{equation}
\left| \mathcal{S} \right| = \prod_{j=1}^3 \, \lambda_j ~, \quad {\rm tr} (\mathcal{S}) = \sum_{j=1}^3 \, \lambda_j
\end{equation} }
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 计算 $\mu_1$,$\mu_2$,以及 $\mu_3$ 的联合置信区间.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 可否认为 $\mu_1$ 等于 $\mu_2$ 与 $\mu_3$ 的平均?
{\color{red} \heiti 【解】}
\end{enumerate}
\item 对取自两个二元正态分布总体、容量均为 $10$ 的两个独立样本,计算得
\begin{equation}
\overline{\boldsymbol{x}}_1 = \left( \begin{array}{c} 3 \\ 1 \end{array} \right) \,,\quad \mathcal{S}_1 = \left( \begin{array}{rr} 4 & -1 \\ -1 & 2 \end{array} \right) \,, \quad
\overline{\boldsymbol{x}}_2 = \left( \begin{array}{c} 1 \\ 1 \end{array} \right) \,,\quad \mathcal{S}_2 = \left( \begin{array}{rr} 2 & -2 \\ -2 & 4 \end{array} \right)
\end{equation}
求解以下假设检验问题:
\begin{enumerate}
\item {\color{TealBlue} [2 分]} $H_0:~ \boldsymbol{\mu}_1 = \boldsymbol{\mu}_2 ~\longleftrightarrow~ H_1:~ \boldsymbol{\mu}_1 \not= \boldsymbol{\mu}_2$.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} $H_0:~ \mu_{11} = \mu_{21} ~\longleftrightarrow~ H_1:~ \mu_{11} \not= \mu_{21}$.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} $H_0:~ \mu_{12} = \mu_{22} ~\longleftrightarrow~ H_1:~ \mu_{12} \not= \mu_{22}$.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 比较上述结果并作简要分析.
{\color{red} \heiti 【解】}
\end{enumerate}
\item {\color{TealBlue} [2 分]} 对于课堂中讨论过的美国公司数据集,利用 $X_1 \sim X_6$ 的全部六个变量的观测数据,检验能源行业和制造业的协方差矩阵是否相等.
{\color{red} \heiti 【解】}
\item 对于瑞士银行钞票数据集 (mclust 包中的 banknote 数据集) 当中的伪钞数据,我们想知道钞票对角线的长度 $X_6$ 是否可以由 $X_1 \sim X_5$ 的一个线性模型来预测.
\begin{enumerate}
\item {\color{TealBlue} [2 分]} 拟合线性模型,给出拟合结果.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 检验回归系数是否显著不等于零 (取显著水平 $\alpha = 0.05$).
{\color{red} \heiti 【解】}
\end{enumerate}
\end{enumerate}
% -------------------------------------------- 第 8 周作业 --------------------------------------------
\chapter{第 8 周作业}
\begin{enumerate}
\item 利用数据矩阵的因子分解方法,简要分析瑞士银行钞票数据集 (mclust 包中的 banknote 数据集).
\begin{enumerate}
\item {\color{TealBlue} [2 分]} 利用 R 中的 scale() 函数对数据进行标准化,将标准化之后的数据集记为 $\mathcal{X}$.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 为处理更为规范,我们将 $\mathcal{X}$ 的所有元素除以 $\sqrt{n-1}$,其中 $n$ 为样本容量,得到的数据矩阵记为 $\mathcal{Y}$,
现在 $\mathcal{Y}$ 即是我们要分析的数据矩阵.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 求矩阵 $\mathcal{R} = \mathcal{Y}^{\rm T} \mathcal{Y}$ 的特征值及其对应的单位特征向量. 矩阵 $\mathcal{R} = \mathcal{Y}^{\rm T} \mathcal{Y}$
是原始数据的相关矩阵.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 因子变量是数据矩阵 $\mathcal{Y}$ 的六个变量 $Y_1 \sim Y_6$ 的线性组合,写出前两个因子变量 $Z_1$ 和 $Z_2$ 的表达式.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 计算前两个因子变量 $Z_1$ 和 $Z_2$ 对应的特征值之和占所有特征值之和的比例.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 计算观测数据 (行) 在前两个因子变量 $Z_1$ 和 $Z_2$ 上的坐标值.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 作观测数据在前两个因子变量 $Z_1$ 和 $Z_2$ 上的散点图,将真钞与伪钞的数据点分别用不同的颜色表示,你能看到什么现象.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 计算变量数据 (列) 在前两个因子变量 $W_1$ 和 $W_2$ 上的坐标值.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 作变量点在前两个因子变量 $W_1$ 和 $W_2$ 上的散点图,你能看到什么现象.
{\color{red} \heiti 【解】}
\end{enumerate}
\end{enumerate}
% -------------------------------------------- 第 9 周作业 --------------------------------------------
\chapter{第 9 周作业}
\begin{enumerate}
\item 美国犯罪数据集 (uscrime.csv) 的主成分分析.
该数据集由 $11$ 个变量的 $50$ 个观测值组成,它提供了 1985 年美国 $50$ 个州报告的犯罪数量及其它一些信息,
我们利用其中 $7$ 个变量 $\left( X_3 ,\, \ldots ,\, X_9\right)$ 的数据来作主成分分析. 数据集当中各个变量的定义如表 \ref{uscrime} 所示.
\begin{table}[!hbt]
\centering
\caption{美国犯罪数据集的变量含义.}
\label{uscrime}
\setlength{\extrarowheight}{2mm}
\begin{tabular}{r|c|l}
\hline $X_1$ & land area & 占地面积 \\[2mm]
\hline $X_2$ & popu 1985 & 1985年 的人口数量 \\[2mm]
\hline $X_3$ & murder & 凶杀 \\[2mm]
\hline $X_4$ & rape & 强奸 \\[2mm]
\hline $X_5$ & robbery & 抢劫 \\[2mm]
\hline $X_6$ & assault & 人身袭击 \\[2mm]
\hline $X_7$ & burglary & 入室盗窃 \\[2mm]
\hline $X_8$ & larceny & 偷盗 \\[2mm]
\hline $X_9$ & autotheft & 汽车盗窃 \\[2mm]
\hline $X_{10}$ & region & 美国各州所处地区 \\[2mm]
\hline $X_{11}$ & division & 美国各州所属分部 \\[2mm]
\hline
\end{tabular}
\end{table}
\begin{enumerate}
\item {\color{TealBlue} [2 分]} 读入原始数据,提取拟分析的数据集 $\mathscr{X}$.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 由于数据集 $\mathscr{X}$ 中各变量的数据尺度有较大差异,我们先对其作标准化处理,
将标准化后的数据集记为 $\mathscr{Y}$.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 计算数据集 $\mathscr{Y}$ 的样本协方差矩阵 $\mathscr{S}$,并与数据集 $\mathscr{X}$ 的相关矩阵 $\mathscr{R}$ 进行比较.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 对相关矩阵 $\mathscr{R}$ 作谱分解 $\mathscr{R} = \mathnormal{\Gamma \, \Lambda} \, \mathnormal{\Gamma}^{\rm T}$,
给出谱分解的结果并作验证运算.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 画碎石图,问各个主成分的贡献率是多少? 前 2 个主成分的累积贡献率是多少,前 3 个主成分的累积贡献率又是多少.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 计算各变量可以用前 2 个主成分解释的比例.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 作变量在前 2 个主成分平面上的散点图,对结果进行解释.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 作每个州的观测数据在前 2 个主成分平面上的散点图,能否看出美国四个地区存在不同? 各州所在地区由变量 $X_{10}$ 提供.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 是否有必要考虑第 3 个主成分?
{\color{red} \heiti 【解】}
\end{enumerate}
\item 乳腺癌数据集 (Breast Cancer Wisconsin Data.csv) 的主成分分析.
数据集 (Breast Cancer Wisconsin Data.csv) 来自 Wisconsin 大学附属医院,由 William H. Wolberg 博士提供.
数据集由 $11$ 个变量的 $699$ 个观测值组成,数据集当中各个变量的定义见表 \ref{Wisconsin}.
我们用其中的 $9$ 个变量 $\left( X_2 ,\, \ldots ,\, X_{10} \right)$ 的数据来作主成分分析.
\begin{table}[!hbt]
\centering
\caption{乳腺癌数据集的变量含义.}
\label{Wisconsin}
\setlength{\extrarowheight}{2mm}
\begin{tabular}{r|c|l}
\hline \hline 变量 & Definition & 中文含义 \\[2mm]
\hline \hline $X_1$ & Sample code number & 样本代码编号 \\[2mm]
\hline $X_2$ & Clump Thickness & 肿块厚度 \\[2mm]
\hline $X_3$ & Uniformity of Cell Size & 细胞大小的一致性 \\[2mm]
\hline $X_4$ & Uniformity of Cell Shape & 细胞形状的一致性 \\[2mm]
\hline $X_5$ & Marginal Adhesion & 边缘黏附(用于描述细胞边缘与周围组织的黏附程度) \\[2mm]
\hline $X_6$ & Single Epithelial Cell Size & 单个上皮细胞大小 \\[2mm]
\hline $X_7$ & Bare Nuclei & 裸露的细胞核 \\[2mm]
\hline $X_8$ & Bland Chromatin & 良性染色质 \\[2mm]
\hline $X_9$ & Normal Nucleoli & 正常核仁 \\[2mm]
\hline $X_{10}$ & Mitoses & 有丝分裂 \\[2mm]
\hline $X_{11}$ & Class & 分类 (2 表示良性,4 表示恶性) \\[2mm]
\hline \hline
\end{tabular}
\end{table}
\begin{enumerate}
\item {\color{TealBlue} [2 分]} 读入数据集“Breast Cancer Wisconsin Data.csv”,根据上述定义对每一个变量进行命名 (建议用英文单词或字母缩写).
检查所有变量的类型,最后一个变量 $\left( X_{11} \right)$ 是分类变量,将它的属性转变为因子. 其余变量均为数值型,
若读入的数据集中有变量非数值型,将它转变为数值型.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 数据集当中有 $16$ 个数据含有单一缺失值,这些缺失值在原数据集中用 “?” 来表示. 找到含有缺失数据的观测值,将它们从数据集当中剔除.
从剔除缺失数据的数据集当中提取变量 $\left( X_2 ,\, \ldots ,\, X_{10} \right)$ 的数据子集,它就是我们要作主成分分析的对象.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 将得到的数据集进行标准化,计算相关矩阵并给出结果.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 作相关矩阵的谱分解,给出谱分解的结果并作验证运算.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 画碎石图,问各个主成分的贡献率是多少? 前 2 个主成分的累积贡献率是多少,前 3 个主成分的累积贡献率又是多少.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 计算初始变量与前 2 个主成分的相关系数并给出结果. 前 2 个主成分对每个变量解释的比例是多少?
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 作变量在前 2 个主成分平面上的散点图,对结果进行解释.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 变量 Class $\left( X_{11} \right)$ 是分类变量,分别对应于良性与恶性. 作观测数据在前 2 个主成分平面上的散点图,能否看出良性与恶性的表现存在不同?
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 是否有必要考虑第 3 个主成分?
{\color{red} \heiti 【解】}
\end{enumerate}
\end{enumerate}
% -------------------------------------------- 第 10 周作业 --------------------------------------------
\chapter{第 10 周作业}
\begin{enumerate}
\item 数据文件 \codeinline{2018-Mean Expenditure of Urban Residents.csv} 包含了 2018 年中国 31 个省 (市) 的城镇居民人均生活费用,各变量的含义如下:
Province 省市名称,Food 食品,Cloth 衣着, Residential 居住, Expenditure 生活用品与服务,Trans-Com (交通通讯), Education (教育娱乐),
Healthcare (医疗保健), and Others (其它). 作上述变量的因子分析.
\begin{enumerate}
\item {\color{TealBlue} [2 分]} 读入数据,从相关矩阵出发作因子分析.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 确定公共因子数量并给出理由.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 给出因子旋转之后的因子载荷矩阵.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 作变量在公共因子平面上的散点图,对公共因子作出解释.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 利用因子得分,作观测数据在公共因子平面上的散点图.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 利用第 1 个公共因子的得分对我国 31 个省 (市) 进行排序并作简要分析.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 利用第 2 个公共因子的得分对我国 31 个省 (市) 进行排序并作简要分析.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 利用第 1、第 2 两个公共因子的得分对我国 31 个省 (市) 城镇居民人均生活费用进行综合排序,并作简要分析.
{\color{red} \heiti 【解】}
\end{enumerate}
\item 有 48 人申请到某公司就业. 该公司对申请者的 15 项指标进行打分,这 15 项指标分别是:
FL (求职信的形式),APP (外貌),AA (专业能力),LA (讨人喜欢程度),SC (自信心),LC (洞察力),HON (诚实度),
SMS (推销能力),EXP (经验),DRV (驾驶水平),AMB (事业心),GSP (理解能力),POT (潜在能力),
KJ (社交能力),SUIT (适应能力). 结果见数据文件 \codeinline{Applicants.csv}.
\begin{enumerate}
\item {\color{TealBlue} [2 分]} 读入数据,从相关矩阵出发作因子分析.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 确定公共因子数量并给出理由.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 给出因子旋转之后的因子载荷矩阵.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 作变量在公共因子平面上的散点图,对公共因子作出解释.
{\color{red} \heiti 【解】}
\item {\color{TealBlue} [2 分]} 该公司准备录用其中 6 人,利用公共因子得分对该公司的录用结果给出建议.
{\color{red} \heiti 【解】}
\end{enumerate}
\end{enumerate}
% -------------------------------------------- 第 11 周作业 --------------------------------------------
\chapter{第 11 周作业}
{\kaishu \color{blue} 第 11 周作业截止时间:} 2026年5月29日24:00
{\kaishu \color{blue} 第 11 周作业完成时间:} \today \space \currenttime % 请勿编辑、删除本行!
\vspace{5mm}
\begin{enumerate}
\item {\color{magenta} [2 分]} 假设 $x \in \left\{ 0 ,\, 1 ,\, 2 ,\, 3 ,\, 4 ,\, 5 ,\, 6 ,\, 7 ,\, 8 ,\, 9 ,\, 10 \right\}$,并且
\begin{align*}
\mathnormal{\Pi}_1 &: \quad X \sim b (10 ,\, 0.2) \quad \text{先验概率} ~ \pi_1 = 0.5 ; \\
\mathnormal{\Pi}_2 &: \quad X \sim b (10 ,\, 0.3) \quad \text{先验概率} ~ \pi_2 = 0.3 ; \\
\mathnormal{\Pi}_3 &: \quad X \sim b (10 ,\, 0.5) \quad \text{先验概率} ~ \pi_3 = 0.2.
\end{align*}
利用 Bayes 决策法则,确定集合 $R_1$, $R_2$ 及 $R_3$.
{\color{blue} \heiti 【解】}
\item 数据 \codeinline{breast cancer wisconsin.csv} 来自 University of Wisconsin Hospitals (July, 1992).
共有 $699$ 个观测数据,每一列对应下述 $11$ 个变量之一:
\begin{itemize}
\item 样本编号.
\item 肿块厚度 (取值 $1 \sim 10$).
\item 细胞大小的均匀性 (取值 $1 \sim 10$).
\item 细胞形状的均匀性 (取值 $1 \sim 10$).
\item 边缘附着力 (取值 $1 \sim 10$).
\item 单个上皮细胞大小 (取值 $1 \sim 10$).
\item 裸核 (取值 $1 \sim 10$).
\item 乏味染色体 (取值 $1 \sim 10$).
\item 正常核 (取值 $1 \sim 10$).
\item 线粒体 (取值 $1 \sim 10$).
\item 分类: (2 代表良性,4 代表恶性).
\end{itemize}
\noindent 分析该数据集并回答以下问题:
\begin{enumerate}
\item \label{missing} {\color{magenta} [2 分]} 有若干个观测数据含有一个标记为 “?” 的缺失值 (即,无可用数值),找到它们,
并将相应的观测值从数据集当中移除. 还剩下多少观测值?
{\color{blue} \heiti 【解】}
\item 最后一列给出了诊断结论:良性 (表示为 $2$) 与恶性 (表示为 $4$). 利用 \codeinline{MASS} 包的函数 \codeinline{lda()}
对 \ref{missing} 中得到的数据 (除去样本编号) 作线性判别分析.
\begin{enumerate}
\item {\color{magenta} [2 分]} 对这两类而言,你的先验概率是多少.
{\color{blue} \heiti 【解】}
\item {\color{magenta} [2 分]} 写出线性判别函数的表达式.
{\color{blue} \heiti 【解】}
\item {\color{magenta} [2 分]} 利用 \codeinline{plot()} 函数,使用参数 \codeinline{dimen = 1} 以及 \codeinline{type = "both"},
对你的判别结果进行可视化.
{\color{blue} \heiti 【解】}
\item {\color{magenta} [2 分]} 应用你的判别规则于整个数据集,计算误判的数目,给出混淆矩阵和总误判率.
{\color{blue} \heiti 【解】}
\item {\color{magenta} [2 分]} 数据集 \codeinline{breast cancer new.csv} 是 $16$ 个新患者的检查结果,利用你的判别规则对其进行判别,有多少患者属于良性?
有多少患者属于恶性?
{\color{blue} \heiti 【解】}
\end{enumerate}
\end{enumerate}
\end{enumerate}
\end{document}