\documentclass[a4paper, 10.5pt, twoside, openany]{book}
\usepackage{amsfonts}
\usepackage{array}
\usepackage{boxedminipage, fancybox}
\usepackage{caption}
\usepackage{color}
\usepackage[colorlinks,linkcolor=blue]{hyperref}
\usepackage{ctex}
\usepackage{datetime}
\usepackage[dvipsnames]{xcolor}
\usepackage{enumerate}
\usepackage{epsfig,graphicx,subfigure}
\usepackage{extarrows}
\usepackage{fancyheadings}
\usepackage{float}
\usepackage{geometry}
\usepackage{listings}
\usepackage{longtable}
\usepackage{makeidx}
\usepackage{mathrsfs}
\usepackage{multirow}
\usepackage{natbib}
\usepackage{pifont}
\usepackage{rotating}
\usepackage{setspace}
\usepackage{shadow}
\usepackage{stmaryrd, amssymb, amsmath}
\usepackage{tabularx}
\usepackage{url}
\usepackage{varioref}
\usepackage{verbatim}
\usepackage{wrapfig}
\usepackage{xcolor}
\geometry{left=2.0cm, right=2.0cm, top=2.5cm, bottom=2.5cm}
\linespread{1.5}
\definecolor{mygray}{rgb}{0.85, 0.85, 0.85}
\newcommand{\codeinline}[1]{\colorbox{mygray}{\lstinline|#1|}}
%% ----------------------------------------------------------------------------------------------------------------------------------------------------------------------
\title{\Huge \bf 《多元统计分析》课后作业}
\author{\kaishu 姓名:\underline{\quad 李倩倩 \quad} \\[5mm]
\kaishu 学号:\underline{\quad 2024017349 \quad} \\[5mm]
\kaishu 班级:\underline{\quad 统计 24-1班 \quad} \\[50mm]
\kaishu 中国石油大学(北京)克拉玛依校区文理学院数学与统计系
}
\date{\today}
\begin{document}
% -------------------------------------------- 封面页 --------------------------------------------
\frontmatter
\maketitle
% -------------------------------------------- 作业要求 --------------------------------------------
\chapter{作业要求}
\begin{enumerate}
\item 可以和其他同学讨论作业当中的问题,但应当自己独立完成作业
\item 计算、证明等要有过程,要有主要步骤的说明
\item 请将计算、绘图所用的 R 代码以及生成的结果和图像一并添加在作业文件当中
\item 请使用 \LaTeX 编辑并生成 PDF 格式的文件,第 X 周作业文件命名方式:学号-姓名-X.pdf
\item 评分标准:每一问得分 $\in \left\{ 2 ,\, 1 ,\, 0 \right\}$
\begin{itemize}
\item 2:~ 按时完成并上交作业,且答案基本正确
\item 1:~ 按时完成并上交作业,且答案部分正确
\item 0:~ 答案完全错误,或者迟交作业(规定时间72小时之后)
\end{itemize}
\item 请将完成的 PDF 格式的作业文件发送至邮箱:xiaolei@cup.edu.cn
\item 每位同学可以有一次迟交作业的机会,但不得晚于规定时间三日之后
\item 第 11 周作业截止时间:2026年5月29日24:00
\end{enumerate}
\tableofcontents
% -------------------------------------------- 正文部分 --------------------------------------------
\mainmatter
% -------------------------------------------- 第 11 周作业 --------------------------------------------
\chapter{第 11 周作业}
{\kaishu \color{blue} 第 11 周作业截止时间:} 2026年5月29日24:00
{\kaishu \color{blue} 第 11 周作业完成时间:} \today \space \currenttime % 请勿编辑、删除本行!
\vspace{5mm}
\begin{enumerate}
\item {\color{magenta} [2 分]} 假设 $x \in \left\{ 0 ,\, 1 ,\, 2 ,\, 3 ,\, 4 ,\, 5 ,\, 6 ,\, 7 ,\, 8 ,\, 9 ,\, 10 \right\}$,并且
\begin{align*}
\mathnormal{\Pi}_1 &: \quad X \sim b (10 ,\, 0.2) \quad \text{先验概率} ~ \pi_1 = 0.5 ; \\
\mathnormal{\Pi}_2 &: \quad X \sim b (10 ,\, 0.3) \quad \text{先验概率} ~ \pi_2 = 0.3 ; \\
\mathnormal{\Pi}_3 &: \quad X \sim b (10 ,\, 0.5) \quad \text{先验概率} ~ \pi_3 = 0.2.
\end{align*}
利用 Bayes 决策法则,确定集合 $R_1$, $R_2$ 及 $R_3$.
{\color{blue} \heiti 【解】}
\item 数据 \codeinline{breast cancer wisconsin.csv} 来自 University of Wisconsin Hospitals (July, 1992).
共有 $699$ 个观测数据,每一列对应下述 $11$ 个变量之一:
\begin{itemize}
\item 样本编号.
\item 肿块厚度 (取值 $1 \sim 10$).
\item 细胞大小的均匀性 (取值 $1 \sim 10$).
\item 细胞形状的均匀性 (取值 $1 \sim 10$).
\item 边缘附着力 (取值 $1 \sim 10$).
\item 单个上皮细胞大小 (取值 $1 \sim 10$).
\item 裸核 (取值 $1 \sim 10$).
\item 乏味染色体 (取值 $1 \sim 10$).
\item 正常核 (取值 $1 \sim 10$).
\item 线粒体 (取值 $1 \sim 10$).
\item 分类: (2 代表良性,4 代表恶性).
\end{itemize}
\noindent 分析该数据集并回答以下问题:
\begin{enumerate}
\item \label{missing} {\color{magenta} [2 分]} 有若干个观测数据含有一个标记为 “?” 的缺失值 (即,无可用数值),找到它们,
并将相应的观测值从数据集当中移除. 还剩下多少观测值?
{\color{blue} \heiti 【解】}
\item 最后一列给出了诊断结论:良性 (表示为 $2$) 与恶性 (表示为 $4$). 利用 \codeinline{MASS} 包的函数 \codeinline{lda()}
对 \ref{missing} 中得到的数据 (除去样本编号) 作线性判别分析.
\begin{enumerate}
\item {\color{magenta} [2 分]} 对这两类而言,你的先验概率是多少.
{\color{blue} \heiti 【解】}
\item {\color{magenta} [2 分]} 写出线性判别函数的表达式.
{\color{blue} \heiti 【解】}
\item {\color{magenta} [2 分]} 利用 \codeinline{plot()} 函数,使用参数 \codeinline{dimen = 1} 以及 \codeinline{type = "both"},
对你的判别结果进行可视化.
{\color{blue} \heiti 【解】}
\item {\color{magenta} [2 分]} 应用你的判别规则于整个数据集,计算误判的数目,给出混淆矩阵和总误判率.
{\color{blue} \heiti 【解】}
\item {\color{magenta} [2 分]} 数据集 \codeinline{breast cancer new.csv} 是 $16$ 个新患者的检查结果,利用你的判别规则对其进行判别,有多少患者属于良性?
有多少患者属于恶性?
{\color{blue} \heiti 【解】}
\end{enumerate}
\end{enumerate}
\end{enumerate}
\end{document}