不同资料的统计描述

作者

Simonzhou

发布于

2025年2月23日

1 不同资料的统计描述

1.1 定量资料的描述指标

1.1.1 集中趋势指标

指标	定义→本质	表示方法	计算方法	应用条件
算术均数	先求和再平均	(1)样本均数:$\bar x$ (2)总体均数:$\mu$	(1)直接法：$\bar X=\frac{\sum{X_{i}}}{n}$ (2)加权法：$\bar X = \frac{\sum{f_{i}X_{i}}}{\sum{f}}$，（$X$为组中值，$f$为频数）	(1)对称分布，尤其是正态分布 (2)不含极端值
几何均数	先乘积再开方	$G$	(1)直接法：$G=\sqrt[n]{x_{1}·x_{2}·x_{3}\cdots}x_{n}$ (2)加权法：$G=\ln^{-1}(\frac{\sum{f_{i}\ln X_{i}}}{\sum{f_{i}}})$	(1)数据呈倍数变化或对数正态分布→正偏态分布 (2)观察值中不能有零且不能同时有正数和负数→对数性质
中位数	从小到大找中间还要注意奇偶性	$M$	(1)直接法：n为奇数，$M=X_{\frac{n+1}{x}}$ n为偶数，$M=\frac{1}{2} (X_{\frac{n}{2}}+X_{\frac{n}{2}+1})$ (2)加权法：百分位数法$P_{X}=L_{X}+\frac{i}{f_{x}}(nX\%-\sum{f_{i}})$	任何资料
众数	出现次数最多	\	(1)直接法：一组数据中出现次数最多的数值加权法：f最多的组段的组中值$X$	任何数据

1.1.2 均数、中位数和众数大小的关系变化

对称分布：算术均数$\approx$中位数
右偏态：算术均数$>$中位数
左偏态：算术均数$<$中位数

1.2 离散数据的描述指标

1.2.1 离散趋势指标

指标	本质→定义	表示方式	计算公式	适用条件
极差	$X_{Max}-X_{Min}$	$R$
四分位间距/范围	位置指标	$IQR$	$IQR=P_{75}-P_{25}$	任何资料
方差	离均差平方和求平均	样本：$s^{2}$ 总体：$\sigma^{2}$	$s^{2}=\frac{\sum(x_{i}-x)^2}{(n-1)}$	对称分布，尤其是正态分布;不含极端值
标准差	方差开根号	样本：$s$ 总体：$\sigma$	$s=\sqrt{\frac{\sum(x_{i}-x)^2}{(n-1)}}$	同上
变异系数	测量数据变异程度的相对统计量	$CV$	$CV=\frac{s}{\bar x}×100%$	(1)单位相同：但均数相差悬殊； (2)单位不同

1.2.2 标准差（standard deviation）的计算

直接法 \[s=\sqrt{\frac{\sum\limits_{i=1}^nx_i^2-\frac{\left(\sum\limits_{i=1}^nx_i\right)^2}{n}}{n-1}}\]
加权法：与讨算均数的方法类似，对频数表资料采用加权法，讨算公式为

\[s=\sqrt{\frac{\sum\limits_{k=1}^gf_kx_{mk}^2-\left(\sum\limits_{k=1}^gf_kx_{mk}\right)^2 \left(\sum\limits_{k=1}^gf_k\right)}{\sum\limits_{k=1}^gf_k-1}}\]

1.3 分类资料的描述指标

1.3.1 分类资料的统计描述指标

指标	相对比	构成比	频率型指标	强度性指标
定义	两个有关联的指标之比	某一部分与总体之比	某时期内累计出现的频率	单位时间内某件事发生的频率
计算公式	$\frac{A指标}{B指标}$	$\frac{某一事物总体中某一部分}{某一事物所有组成部分的总体}×100\%$	$\frac{同时期实际发生某现象的观察单位数}{某时期可能发生某现象的观察单位总数}×K$	$\frac{发生某件事的观察单位数}{\sum(观察单位×观察时间)}×K$
量纲	可有可无	一般无量纲	无	有
取值	没有限制	[0,1]	[0,1]	可大于1
举例	RR,变异系数CV	死因构成比	病死率，累计发病率	发病率，发病密度

1.3.2 动态数列

绝对量指标
- 累计增长量
- 逐年增长量
定基类指标
- 定基发展速度
- 定基增长速度
环比类指标
- 环比发展速度
- 环比增长速度
平均类指标
- 平均发展速度
- 平均增长速度

1.3.3 应用相对数的注意事项

频率型指标的解释要紧扣总体和属性
计算相对数分母应该有足够的观察单位数 -如果观察例数太少，则相对数波动较大
- 若因实际因素，观察例数确实过少，建议直接采用绝对数
正确计算合计率：分子分母分别相加，再求合计率
不能用结构相对数代替强度相对数，不能混淆频率型指标和强度型指标，不能以比代率
注意资料的可比性
不能仅用样本率比较，因为样本和总体之间存在抽样误差，需要进行假设检验推断总体的情况

1.4 率的标准化

指标	参照人数	目标人群	过程
直接标化法	人口构成	率	各年龄组期望死亡数→期望死亡合计数→直接标化率
简介标化法	率	人口构成	各年龄组期望死亡数→期望死亡合计数→变化死亡比→间接标化率

notice：

变化标化比$SMR=\frac{实际死亡人数}{期望死亡人数}$
直接标准化选择的标准是：各年龄组标准人口构成比或各年龄组标准人口数

1.5 常见统计图

1.5.1 资料类型

连续型变量
- 计量资料
- 定量资料
离散型变量
- 不具有分类性质的资料
- 离散型定量资料
分类资料
- 有序分类资料
- 等级资料
- 半定量资料
- 无序分类资料
- 名义变量

notice：一般来说，统计图的选择，是综合考量了变量取值特点+研究目的。

1.5.2 统计图使用类型及目的

统计图	资料类型	分析目的
圆图和百分条图	构成比资料	用圆的扇形面积或直条各段的长度表示事物各组成部分的构成情况
直条图	相互独立资料	用直条长短表示相互独立的各指标的数值大小，一般用于比较不同组别的指标大小
直方图	连续型变量的频数分布	用矩阵面积表示各组段的频数（频率）
箱式图	连续型资料	描述数据的分布特征（包括中位数、四分位范围、最大值和最小值）
普通线图	连续型资料	用线段的升降表示某事物在时间上的变化趋势、或某一现象随着另一现象变化的情况
半对数线图	连续型资料	用线段的升降表示事物的相对变化速度
散点图	双变量连续型资料	表示两种事物变化的相关性和趋势

1.5.3 统计图的选择

2 抽样

2.1 常见的概率抽样

类别	简单随机抽样	系统抽样	整群抽样	分层抽样	多阶段抽样
概念	将全部的观察单位编号，形成抽样框，在抽样框中随机抽取部分观察单位组成样本	先将总体的观察单位按照某一顺序分成n个部分，再从第一部分随机抽取第k号观察单位，依次用相等间隔，从每一部分各抽取一个观察单位组成样本	是以“群”为基本单位的抽样方法，先将总体分成若干群，从中随机抽取一些群，被抽中群内的全部个体组成调查的样本	先将总体中全部个体按某种特征分成若干“层”，再从每一层内随机抽取一定数量的个体组成样本	将整个抽样过程分成若干阶段进行，在初级抽样单位中抽取二级抽样单位，又在二级抽样单位中抽取三级抽样单位
优点	简单直观；均数（率）及其标准误计算简便	易于理解、简便易行；可得到按比例分配的样本；样本在总体中的分布均匀	便于组织调查；节约成本；容易控制调查质量	抽样误差相对较小；可对不同层采用不同的抽样方法；可对不同层进行独立分析	充分利用各种抽样方法的优势，克服各自的不足，并能节省人力、物力
缺点	观察单位较多，编号在实际工作中难以实现；当总体变异大时，抽样误差较分层抽样误差大	观察单位按顺序有周期趋势或递增（减）时易产生偏差	样本例数一定时，抽样误差大于简单随机抽样（因样本为广泛散布于总体中	若分层变量选择不当，层内变异较大，层间变异较小，则分层抽样失去意义	在抽样之前要掌握各级调查单位的人口资料及特点
适用范围	是其他抽样方法的基础，主要用于总体不太大的情形	主要用于按抽样顺序个体随机分布的情形	主要用于群间差异较小的情形	主要用于层间差异较大的情形	大型流行病学调查

误差大小： 整群抽样>简单随机抽样>系统抽样>分层抽样

样本量大小：整群抽样>简单随机抽样>系统抽样>分层抽样

概率抽样：是指每个个体被抽样抽中的概率是非零的、已知的或可计算的。

2.2 常见的非概率抽样

特点
- 不需要考虑等概率原则
- 依赖研究人员的经验和专业知识
- 简便易行、节约资源
- 结果的稳定性容易受主观影响

类别	概念
偶遇抽样	又称便利抽样，指研究者根据实际情况而采用最便利的方法来选取样本，可以抽取偶然遇到的人，或选择那些距离最近的、最容易找到的人作为调查对象
目的抽样	又称判断抽样，指研究者根据研究目标和对情况的主观判断来选择和确定调查对象的方法，是“有目的”地去选择对总体具有代表性的样本
滚雪球抽样	又称链式抽样或网络抽样，指当无法了解总体情形时，可以从能找到的少数个体入手，对他们进行调查，并请他们介绍其他符合条件的人，扩大调查面，如此重复下去直到达到所需的样本量
定额抽样	又称配额抽样，是按照总体的某种特征（年龄、性别、社会阶层等）进行分层（组），然后在每一层（组）中按照事先规定的比例或数量（即定额）用便利抽样或目的抽样的方法选取样本
空间抽样	指对具有空间关联性的各种调查对象及资源进行抽样的一种方法

end.

--- title: "不同资料的统计描述" author: "Simonzhou" date: "2025-02-23" #format: # html: # 输出格式为 HTML # self-contained: true # 生成独立的 HTML 文件 # pdf: # 可选：如果需要 PDF 输出 # default execute: echo: true # 在输出中显示代码 eval: true # 执行代码 warning: false # 隐藏警告信息 message: false # 隐藏消息 cache: true # 启用代码缓存 freeze: true # 冻结代码输出 --- # 不同资料的统计描述 ## 定量资料的描述指标 ### 集中趋势指标 | 指标 | 定义→本质 | 表示方法 | 计算方法 | 应用条件 | |:--------------|:--------------|:--------------|:--------------|:-------------:| | 算术均数 | 先求和再平均 | (1)样本均数:$\bar x$ (2)总体均数:$\mu$ | (1)直接法：$\bar X=\frac{\sum{X_{i}}}{n}$ (2)加权法：$\bar X = \frac{\sum{f_{i}X_{i}}}{\sum{f}}$， （$X$为组中值，$f$为频数） | (1)对称分布，尤其是正态分布 (2)不含极端值 | | 几何均数 | 先乘积再开方 | $G$ | (1)直接法：$G=\sqrt[n]{x_{1}·x_{2}·x_{3}\cdots}x_{n}$ (2)加权法：$G=\ln^{-1}(\frac{\sum{f_{i}\ln X_{i}}}{\sum{f_{i}}})$ | (1)数据呈倍数变化或对数正态分布→正偏态分布 (2)观察值中不能有零且不能同时有正数和负数→对数性质 | | 中位数 | 从小到大找中间 还要注意奇偶性 | $M$ | (1)直接法：n为奇数，$M=X_{\frac{n+1}{x}}$ n为偶数，$M=\frac{1}{2} (X_{\frac{n}{2}}+X_{\frac{n}{2}+1})$ (2)加权法：百分位数法$P_{X}=L_{X}+\frac{i}{f_{x}}(nX\%-\sum{f_{i}})$ | 任何资料 | | 众数 | 出现次数最多 | \\ | (1)直接法：一组数据中出现次数最多的数值 加权法：f最多的组段的组中值$X$ | 任何数据 | ### 均数、中位数和众数大小的关系变化 - 对称分布：算术均数$\approx$中位数 - 右偏态：算术均数$>$中位数 - 左偏态：算术均数$<$中位数 ## 离散数据的描述指标 ### 离散趋势指标 | 指标 | 本质→定义 | 表示方式 | 计算公式 | 适用条件 | |:-------------:|:-------------:|:-------------:|:-------------:|:-------------:| | 极差 | $X_{Max}-X_{Min}$ | $R$ | | | | 四分位间距/范围 | 位置指标 | $IQR$ | $IQR=P_{75}-P_{25}$ | 任何资料 | | 方差 | 离均差平方和求平均 | 样本：$s^{2}$ 总体：$\sigma^{2}$ | $s^{2}=\frac{\sum(x_{i}-x)^2}{(n-1)}$ | 对称分布，尤其是正态分布;不含极端值 | | 标准差 | 方差开根号 | 样本：$s$ 总体：$\sigma$ | $s=\sqrt{\frac{\sum(x_{i}-x)^2}{(n-1)}}$ | 同上 | | 变异系数 | 测量数据变异程度的相对统计量 | $CV$ | $CV=\frac{s}{\bar x}×100%$ | (1)单位相同：但均数相差悬殊； (2)单位不同 | ### 标准差（standard deviation）的计算 1. 直接法 $$s=\sqrt{\frac{\sum\limits_{i=1}^nx_i^2-\frac{\left(\sum\limits_{i=1}^nx_i\right)^2}{n}}{n-1}}$$ 2. 加权法：与讨算均数的方法类似，对频数表资料采用加权法，讨算公式为 $$s=\sqrt{\frac{\sum\limits_{k=1}^gf_kx_{mk}^2-\left(\sum\limits_{k=1}^gf_kx_{mk}\right)^2 \left(\sum\limits_{k=1}^gf_k\right)}{\sum\limits_{k=1}^gf_k-1}}$$ ## 分类资料的描述指标 ### 分类资料的统计描述指标 | 指标 | 相对比 | 构成比 | 频率型指标 | 强度性指标 | |:--------------|:--------------|:--------------|:--------------|:--------------| | 定义 | 两个有关联的指标之比 | 某一部分与总体之比 | 某时期内累计出现的频率 | 单位时间内某件事发生的频率 | | 计算公式 | $\frac{A指标}{B指标}$ | $\frac{某一事物总体中某一部分}{某一事物所有组成部分的总体}×100\%$ | $\frac{同时期实际发生某现象的观察单位数}{某时期可能发生某现象的观察单位总数}×K$ | $\frac{发生某件事的观察单位数}{\sum(观察单位×观察时间)}×K$ | | 量纲 | 可有可无 | 一般无量纲 | 无 | 有 | | 取值 | 没有限制 | \[0,1\] | \[0,1\] | 可大于1 | | 举例 | RR,变异系数CV | 死因构成比 | 病死率，累计发病率 | 发病率，发病密度 | ### 动态数列 - 绝对量指标 - 累计增长量 - 逐年增长量 - 定基类指标 - 定基发展速度 - 定基增长速度 - 环比类指标 - 环比发展速度 - 环比增长速度 - 平均类指标 - 平均发展速度 - 平均增长速度 ### 应用相对数的注意事项 - 频率型指标的解释要紧扣总体和属性 - 计算相对数分母应该有足够的观察单位数 -如果观察例数太少，则相对数波动较大 - 若因实际因素，观察例数确实过少，建议直接采用绝对数 - 正确计算合计率：分子分母分别相加，再求合计率 - 不能用结构相对数代替强度相对数，不能混淆频率型指标和强度型指标，不能以比代率 - 注意资料的可比性 - 不能仅用样本率比较，因为样本和总体之间存在抽样误差，需要进行假设检验推断总体的情况 ## 率的标准化 | 指标 | 参照人数 | 目标人群 | 过程 | |:----------------:|:----------------:|:----------------:|:------------------| | 直接标化法 | 人口构成 | 率 | 各年龄组期望死亡数→期望死亡合计数→直接标化率 | | 简介标化法 | 率 | 人口构成 | 各年龄组期望死亡数→期望死亡合计数→变化死亡比→间接标化率 | *notice：* - 变化标化比$SMR=\frac{实际死亡人数}{期望死亡人数}$ - 直接标准化选择的标准是：各年龄组标准人口构成比或各年龄组标准人口数 ## 常见统计图 ### 资料类型 - 连续型变量 - 计量资料 - 定量资料 - 离散型变量 - 不具有分类性质的资料 - 离散型定量资料 - 分类资料 - 有序分类资料 - 等级资料 - 半定量资料 - 无序分类资料 - 名义变量 *notice：*一般来说，统计图的选择，是综合考量了变量取值特点+研究目的。 ### 统计图使用类型及目的 | 统计图 | 资料类型 | 分析目的 | |:-----------------:|:-----------------:|:---------------------------------| | 圆图和百分条图 | 构成比资料 | 用圆的扇形面积或直条各段的长度表示事物各组成部分的构成情况 | | 直条图 | 相互独立资料 | 用直条长短表示相互独立的各指标的数值大小，一般用于比较不同组别的指标大小 | | 直方图 | 连续型变量的频数分布 | 用矩阵面积表示各组段的频数（频率） | | 箱式图 | 连续型资料 | 描述数据的分布特征（包括中位数、四分位范围、最大值和最小值） | | 普通线图 | 连续型资料 | 用线段的升降表示某事物在时间上的变化趋势、或某一现象随着另一现象变化的情况 | | 半对数线图 | 连续型资料 | 用线段的升降表示事物的相对变化速度 | | 散点图 | 双变量连续型资料 | 表示两种事物变化的相关性和趋势 | ### 统计图的选择 ![Choice of Statistical Charts](images\Choice%20of%20Statistical%20Charts.png "Choice of Statistical Charts") # 抽样 ## 常见的概率抽样 | 类别 | 简单随机抽样 | 系统抽样 | 整群抽样 | 分层抽样 | 多阶段抽样 | |------------|------------|------------|------------|------------|------------| | 概念 | 将全部的观察单位编号，形成抽样框，在抽样框中随机抽取部分观察单位组成样本 | 先将总体的观察单位按照某一顺序分成n个部分，再从第一部分随机抽取第k号观察单位，依次用相等间隔，从每一部分各抽取一个观察单位组成样本 | 是以“群”为基本单位的抽样方法，先将总体分成若干群，从中随机抽取一些群，被抽中群内的全部个体组成调查的样本 | 先将总体中全部个体按某种特征分成若干“层”，再从每一层内随机抽取一定数量的个体组成样本 | 将整个抽样过程分成若干阶段进行，在初级抽样单位中抽取二级抽样单位，又在二级抽样单位中抽取三级抽样单位 | | 优点 | 简单直观； 均数（率）及其标准误计算简便 | 易于理解、简便易行； 可得到按比例分配的样本； 样本在总体中的分布均匀 | 便于组织调查； 节约成本； 容易控制调查质量 | 抽样误差相对较小； 可对不同层采用不同的抽样方法； 可对不同层进行独立分析 | 充分利用各种抽样方法的优势，克服各自的不足，并能节省人力、物力 | | 缺点 | 观察单位较多，编号在实际工作中难以实现； 当总体变异大时，抽样误差较分层抽样误差大 | 观察单位按顺序有周期趋势或递增（减）时易产生偏差 | 样本例数一定时，抽样误差大于简单随机抽样（因样本为广泛散布于总体中 | 若分层变量选择不当，层内变异较大，层间变异较小，则分层抽样失去意义 | 在抽样之前要掌握各级调查单位的人口资料及特点 | | 适用范围 | 是其他抽样方法的基础，主要用于总体不太大的情形 | 主要用于按抽样顺序个体随机分布的情形 | 主要用于群间差异较小的情形 | 主要用于层间差异较大的情形 | 大型流行病学调查 | **误差大小：** 整群抽样\>简单随机抽样\>系统抽样\>分层抽样 **样本量大小：**整群抽样\>简单随机抽样\>系统抽样\>分层抽样 **概率抽样：**是指每个个体被抽样抽中的概率是非零的、已知的或可计算的。 ## 常见的非概率抽样 - 特点 - 不需要考虑等概率原则 - 依赖研究人员的经验和专业知识 - 简便易行、节约资源 - 结果的稳定性容易受主观影响 | 类别 | 概念 | |:-------------------------:|:-------------------------------------------:| | 偶遇抽样 | 又称便利抽样，指研究者根据实际情况而采用最便利的方法来选取样本，可以抽取偶然遇到的人，或选择那些距离最近的、最容易找到的人作为调查对象 | | 目的抽样 | 又称判断抽样，指研究者根据研究目标和对情况的主观判断来选择和确定调查对象的方法，是“有目的”地去选择对总体具有代表性的样本 | | 滚雪球抽样 | 又称链式抽样或网络抽样，指当无法了解总体情形时，可以从能找到的少数个体入手，对他们进行调查，并请他们介绍其他符合条件的人，扩大调查面，如此重复下去直到达到所需的样本量 | | 定额抽样 | 又称配额抽样，是按照总体的某种特征（年龄、性别、社会阶层等）进行分层（组），然后在每一层（组）中按照事先规定的比例或数量（即定额）用便利抽样或目的抽样的方法选取样本 | | 空间抽样 | 指对具有空间关联性的各种调查对象及资源进行抽样的一种方法 | end.