09-SAS 计量资料的单变量分析

作者

Simon Zhou

发布于

2025年5月29日

修改于

2025年5月30日

代码
%load_ext saspy.sas_magic

1 单变量分析

单变量分析是对单个变量进行统计分析的过程,用于单变量描述的 SAS 过程有很多,包括 corrfreqmeanssummarytabulateunivariate 等过程。

这些过程通常用于描述数据集的分布、中心趋势和变异性。

  • corr 过程用于计算变量间的相关系数,还可以计算相关系数和一些单变量的描述性统计量。
  • freq 过程可以生成单向和多向的频数表和交叉表。
  • means 过程用于对数值变量计算简单描述性统计量。
  • summary 过程也是用来计算单个变量的基本统计量。它和 means 过程不同之处在于,该过程不在 Output 窗口输出结果,除非加上命令 print,而 means 总是在 Output 窗口输出结果
  • tabulate 过程是用分类报表的形式输出满足用户要求的描述性统计量。
  • univariate 过程可以计算的描述性统计量是最多的,而且还可用图表的形式反映变量值的分布情况,并对变量进行正态性检验

这里主要介绍 freqmeansunivariate 过程

1.1 频数表的编制

频数表是对分类变量进行单变量分析的常用方法,可以显示每个类别的频数和百分比。

  1. 检查数据集,选择变量
代码
%%SAS
/*check the dataset*/
proc print data = sashelp.cars(obs=5) label;
run;
SAS 输出

SAS 系统

观测 Make Model Type Origin DriveTrain MSRP Invoice Engine Size (L) Cylinders Horsepower MPG (City) MPG (Highway) Weight (LBS) Wheelbase (IN) Length (IN)
1 Acura MDX SUV Asia All $36,945 $33,337 3.5 6 265 17 23 4451 106 189
2 Acura RSX Type S 2dr Sedan Asia Front $23,820 $21,761 2.0 4 200 24 31 2778 101 172
3 Acura TSX 4dr Sedan Asia Front $26,990 $24,647 2.4 4 200 22 29 3230 105 183
4 Acura TL 4dr Sedan Asia Front $33,195 $30,299 3.2 6 270 20 28 3575 108 186
5 Acura 3.5 RL 4dr Sedan Asia Front $43,755 $39,014 3.5 6 225 18 24 3880 115 197
  1. 使用 cars 数据集中的 MPG(City) 变量进行频数表的编制
代码
%%SAS
/*frequency table for MPG_City*/
proc freq data=sashelp.cars;
    tables MPG_City;
run;
SAS 输出

SAS 系统

FREQ 过程

MPG (City)
MPG_City 频数 百分比 累积
频数
累积
百分比
10 2 0.47 2 0.47
12 4 0.93 6 1.40
13 12 2.80 18 4.21
14 13 3.04 31 7.24
15 17 3.97 48 11.21
16 31 7.24 79 18.46
17 41 9.58 120 28.04
18 69 16.12 189 44.16
19 37 8.64 226 52.80
20 57 13.32 283 66.12
21 38 8.88 321 75.00
22 18 4.21 339 79.21
23 7 1.64 346 80.84
24 22 5.14 368 85.98
25 9 2.10 377 88.08
26 22 5.14 399 93.22
27 1 0.23 400 93.46
28 5 1.17 405 94.63
29 7 1.64 412 96.26
31 1 0.23 413 96.50
32 7 1.64 420 98.13
33 1 0.23 421 98.36
35 2 0.47 423 98.83
36 1 0.23 424 99.07
38 1 0.23 425 99.30
46 1 0.23 426 99.53
59 1 0.23 427 99.77
60 1 0.23 428 100.00

1.2 单变量描述

单变量描述是对数值变量进行统计分析的过程,可以计算均值、标准差、最小值、最大值等统计量。

1.2.1 means 过程

代码
%%SAS
/*simple descriptive statistics for MPG_City*/
proc means data = sashelp.cars;
    var MPG_City;
run;
SAS 输出

SAS 系统

MEANS PROCEDURE

分析变量: MPG_City MPG (City)
数目 均值 标准差 最小值 最大值
428 20.0607477 5.2382176 10.0000000 60.0000000

means 过程默认给出均值、标准差、最小值和最大值,但是用户可以指定其他统计量,如下:

  • Stderr:均数的标准差,即标准误;
  • Sum:合计值;
  • Variance:方差
  • CV:变异系数;
  • Nmiss:缺失变量值的观测例数;
  • Range:极差;
  • USS:平方和;
  • CSS:离均差平方和;
  • T:检验假设为总体均数为 0 的 student-t 检验的检验统计量 t 值;
  • Probt:总体均数为0的检验假设中,值所对应的概率值(P值);
  • Sumweight:权重变量值的和;
  • Skewness:偏度系数;
  • Kurtosis:峰度系数;
  • CLM:双侧 95%置信区间的下限( lclm)和上限( uclm );
  • Median | P50:中位数或 50% 分位数;
  • P1:1%分位数;
  • P5:5%分位数;
  • P10:10% 分位数;
  • Q1 | P25:下四分位数或 25%分位数;
  • Q3 | P75:上四分位数或 75% 分位数:
  • P90:90%分位数;
  • P95:95% 分位数:
  • P99:99%分位数:
  • Qrange:四分位数间距

多个统计量输出示例:

代码
%%SAS
/*complex descriptive statistics for MPG_City*/
proc means data = sashelp.cars n mean std stderr cv clm Qrange;
    var MPG_City;
run;
SAS 输出

SAS 系统

MEANS PROCEDURE

分析变量: MPG_City MPG (City)
数目 均值 标准差 标准误差 变异系数 均值的95% 置信下限 均值的95% 置信上限 四分位间距
428 20.0607477 5.2382176 0.2531988 26.1117767 19.5630765 20.5584188 4.5000000

1.2.2 保留小数

means 过程给出的结果中,每个统计量均在小数点后保留七位有效数字,可以通过 maxdec 语句改变有效位数,该语句是 means 过程的一个选 项,可加在 proc means 的后面。示例如下:

代码
%%SAS
/*design the decimal*/
proc means maxdec = 2 data = sashelp.cars n mean std stderr cv clm;
    var MPG_City;
run;
SAS 输出

SAS 系统

MEANS PROCEDURE

分析变量: MPG_City MPG (City)
数目 均值 标准差 标准误差 变异系数 均值的95% 置信下限 均值的95% 置信上限
428 20.06 5.24 0.25 26.11 19.56 20.56

1.2.3 频数表资料的描述性统计

如果数据已经被整理成频数表资料,means 过程通过 freq 语句定义频数变量,用 var 语句定义组中值变量,同样可以计算简单的描述性统计量。

代码
%%SAS
/*程序4-4 freq*/
data prg4_4;
    input x f @@;
datalines;
3.17 2 3.37 3 3.57 9 3.77 22 4.17 30
4.37 21 4.57 15 4.77 10 4.97 6 5.17 4 5.37 2
;
run;
proc means;
    freq f;
    var x;
run;
SAS 输出

SAS 系统

MEANS PROCEDURE

分析变量: x
数目 均值 标准差 最小值 最大值
124 4.2409677 0.4738313 3.1700000 5.3700000

1.3 univariate 过程

univariate 过程能够给出的描述性统计量比较多,除了上述 means 过程给出的统计量外,它还能输出符号统计量、正态性检验的统计量以及用户自己定义的百分位数,而且可以生成若干个描述变量分布的茎叶图、箱式图、正态概率图等统计图。

代码
%%SAS
/*程序4-6 univariate过程*/
data prg4_6;
    input x f @@;
datalines;
18 4 30 17 42 32 54 24 66 18 78 12 90 5 102 4 114 2
;
run;
proc univariate;
    var x;
    freq f;
run;
SAS 输出

SAS 系统

UNIVARIATE 过程

变量: x

 

频数: f

数目 118 权重总和 118
均值 54.5084746 观测总和 6432
标准差 21.0724212 方差 444.046936
偏度 0.69543247 峰度 0.17594659
未校平方和 402552 校正平方和 51953.4915
变异系数 38.6589817 标准误差均值 1.93987361
基本统计测度
位置 变异性
均值 54.50847 标准差 21.07242
中位数 54.00000 方差 444.04694
众数 42.00000 极差 96.00000
    四分位间距 24.00000
位置检验: Mu0=0
检验 统计量 p 值
Student t t 28.09898 Pr > |t| <.0001
符号 M 59 Pr >= |M| <.0001
符号秩 S 3510.5 Pr >= |S| <.0001
分位数(定义 5)
水平 分位数
100% 最大值 114
99% 114
95% 102
90% 78
75% Q3 66
50% 中位数 54
25% Q1 42
10% 30
5% 30
1% 18
0% 最小值 18
极值观测
最小值 最大值
频数 观测 频数 观测
18 4 1 66 18 5
30 17 2 78 12 6
42 32 3 90 5 7
54 24 4 102 4 8
66 18 5 114 2 9

程序说明:

  • 数据集 prg4_6 中的变量为 xf ;
  • 调用 univariate 过程时,var x;语句指明 x 为分析变量;
  • freq f,语句表示 f 为频数变量。

整个分析结果输出的统计量分为五个部分:

  • 矩(Moments)、
  • 基本统计测度( Basic Statistical Measures)、
  • 位置检验( Tests for Location:Mu0=0)、
  • 分位数[Quantiles(Definition 5)]
  • 和极值观测(Extreme Observations )
  1. 矩(Moments) 部分的统计量包括:
  • 非缺失值的例数(N)
  • 权重总和(Sum Weights)
  • 均数(Mean)
  • 观测总和(Sum Observations)
  • 标准差(Std Deviation)
  • 方差(Variance)
  • 偏度(Skewness,即偏度系数)
  • 峰度(Kurtosis,即峰度系数)
  • 未校正平方和(Uncorrected SS,即平方和)
  • 校正平方和(Corrected SS,即离均差平方和)
  • 变异系数(Coeff Variation)
  • 标准误差均数(Std Error Mean,即标准误)。
  1. 基本统计测度(Basic Statistical Measures)部分统计量包括:
  • 均数(Mean)
  • 标准差(StdDeviation)
  • 中位数(Median)
  • 方差(Variance)
  • 众数(Mode)
  • 极差(Range)
  • 四分位极差(Interquartile Range,即四分位数间距)。
  1. 位置检验(Tests for Location: Mu0=0)部分的统计量包括:
  • Student’s t: 总体均数为0的 student-t 检验的检验统计量u值;
  • Pr > |t|: 总体均数为0的t检验中,检验统计量所对应的概率值(P值);
  • Sign M: 总体中位数为0的符号检验的检验统计量 M值;
  • Pr >= |M|: 总体中位数为0的符号检验中检验统计量所对应的概率值(P值);
  • Signed Ranks: 总体中位数为0的符号秩检验的检验统计量S值;
  • Pr >= |S|: 总体中位数为0的符号秩检验中,检验统计量所对应的概率值(P值)。
  1. 分位数[Quantiles(Definition 5)] 部分的统计量包括:
  • 100% 分位数( 100% Max,即最大值)
  • 99% 分位数
  • 95% 分位数
  • 90% 分位数
  • 75% (即 Q3,上四分位数)
  • 50% 分位数(即 Median,中位数)
  • 25% 分位数(即 Q1,下四分位数)
  • 10% 分位数
  • 5% 分位数
  • 1% 分位数和 0% 分位数( 0% Min,即最小值)。
  1. 极值观测(Extreme Observations) 部分列出了五个最小值和五个最大值以及这些值分别对应的频数和观测号。

umivariate 过程除了能够给出几个特定的百分位数,还能输出用户自己定义的百分位数。此时在过程中要使用 output 语句.

代码
%%SAS
data prg4_6;
    input x f @@;
datalines;
18 4 30 17 42 32 54 24 66 18 78 12 90 5 102 4 114 2
;
run;
/*程序4-7 univariate 自定义百分数,需要使用 output 语句*/
/**/
proc univariate data = prg4_6;
    var x;
    freq f;
    output out = pct pctlpre = p pctlpts = 2.5 97.5;
run;
proc print data = pct;
run;
SAS 输出

SAS 系统

UNIVARIATE 过程

变量: x

 

频数: f

数目 118 权重总和 118
均值 54.5084746 观测总和 6432
标准差 21.0724212 方差 444.046936
偏度 0.69543247 峰度 0.17594659
未校平方和 402552 校正平方和 51953.4915
变异系数 38.6589817 标准误差均值 1.93987361
基本统计测度
位置 变异性
均值 54.50847 标准差 21.07242
中位数 54.00000 方差 444.04694
众数 42.00000 极差 96.00000
    四分位间距 24.00000
位置检验: Mu0=0
检验 统计量 p 值
Student t t 28.09898 Pr > |t| <.0001
符号 M 59 Pr >= |M| <.0001
符号秩 S 3510.5 Pr >= |S| <.0001
分位数(定义 5)
水平 分位数
100% 最大值 114
99% 114
95% 102
90% 78
75% Q3 66
50% 中位数 54
25% Q1 42
10% 30
5% 30
1% 18
0% 最小值 18
极值观测
最小值 最大值
频数 观测 频数 观测
18 4 1 66 18 5
30 17 2 78 12 6
42 32 3 90 5 7
54 24 4 102 4 8
66 18 5 114 2 9

SAS 系统

观测 p2_5 p97_5
1 18 102

程序说明:

  • univariate 产生的部分统计量输出到新建的数据集中,数据集的名称由 out= 来定义,本例 out=pct 就是表示将要新建的数据集名称定为 pct
  • output 语句中的选项 pctlpts 表示需要计算的百分位数,本例需要输出第 2.5% 和第 97.5%分位数;
  • pctlpre 表示在新数据集中的变量中百分位数的前缀,本例表示百分位数前缀为 p

1.4 正态性检验

正态性检验是检验数据是否符合正态分布的统计方法,常用的正态性检验方法有 Shapiro-Wilk 检验、Kolmogorov-Smirnov 检验等。

在 SAS 中,可以使用 univariate 过程进行正态性检验,其语法只需要在 proc univariate 语句中加上 normal 选项即可,normalplot 选项,就能输出该组数据正态性检验的结果和茎叶图、箱式图及正态概率图。

代码
%%SAS
proc univariate normal plot data = sashelp.cars;
    var MPG_City;
run;
SAS 输出

SAS 系统

UNIVARIATE 过程

变量: MPG_City (MPG (City))

数目 428 权重总和 428
均值 20.0607477 观测总和 8586
标准差 5.23821764 方差 27.438924
偏度 2.7820718 峰度 15.7911473
未校平方和 183958 校正平方和 11716.4206
变异系数 26.1117767 标准误差均值 0.25319881
基本统计测度
位置 变异性
均值 20.06075 标准差 5.23822
中位数 19.00000 方差 27.43892
众数 18.00000 极差 50.00000
    四分位间距 4.50000
位置检验: Mu0=0
检验 统计量 p 值
Student t t 79.22923 Pr > |t| <.0001
符号 M 214 Pr >= |M| <.0001
符号秩 S 45903 Pr >= |S| <.0001
正态性检验
检验 统计量 p 值
Shapiro-Wilk W 0.80784 Pr < W <0.0001
Kolmogorov-Smirnov D 0.178848 Pr > D <0.0100
Cramer-von Mises W-Sq 2.686108 Pr > W-Sq <0.0050
Anderson-Darling A-Sq 14.67298 Pr > A-Sq <0.0050
分位数(定义 5)
水平 分位数
100% 最大值 60.0
99% 36.0
95% 29.0
90% 26.0
75% Q3 21.5
50% 中位数 19.0
25% Q1 17.0
10% 15.0
5% 14.0
1% 12.0
0% 最小值 10.0
极值观测
最小值 最大值
观测 观测
10 167 36 156
10 119 38 405
12 413 46 150
12 217 59 374
12 216 60 151
“MPG_City”的图

1.4.1 正态性检验部分”Tests for Normality”

正态性检验部分包括 Shapiro-Wilk 检验以及基于经验分布函数的拟合优度检验:Kolmogorov-Smirnov 检验、Cramer-von Mises 检验、 Anderson-Darling 检验。

样本量

  • n≤2000 时,选用 Shapiro-Wilks 检验的检验统计量;
  • n>2000 时则选用 Kolmogorov-Smirnov 检验的检验统计量。

总体参数 根据总体参数是否已知来选用不同的拟合优度检验及其对应的检验统计量

  • 正态分布总体均数和标准差都已知或都未知时上述三种基于经验分布函数的拟合优度检验都可选用;
  • 正态分布总体均数和标准差有一者未知时,选用 Cramer-von Mises 检验或 Anderson-Darling 检验。

本例由于样本例数仅为 428,所以选用 Shapiro-Wilks 检验统计量 W=0.80784 所对应的 P= < 0.001,说明该资料不服从正态分布。

1.5 几何均数的计算

SAS 无法直接计算几何均数,必须通过 SAS 语句编写一段程序,用 means 过程或 univariate 过程间接计算出几何均数。

例 4-3 69例类风湿关节炎(RA)患者血清 EBV-VCA-lgG 抗体滴度的分布结果如下,求其平均抗体滴度

抗体滴度 1:10 1:20 1:40 1:80 1:160 1:320 1:640 1:1280
人数 4 3 10 10 11 15 14 2
代码
%%SAS
data prg4 _9;
    input x f @@;
    y = log10(x);
datalines;
10 4 20 3 40 10 80 10 160 11 320 15 640 14 1280 2
run;
proc means noprint;
    var y;
    freq f;
    output out = b mean = logmean;
run;
data c;
    set b;
    g = 10**logmean;
run;
proc print data = c;
    var g;
run;
SAS 输出

SAS 系统

观测 g
1 150.641

1.5.1 程序说明:

  • 第一步创建数据集 prg4_9;,它有三个变量 x、f 和 y, x 为抗体滴度的倒数, f 为某抗体滴度所对应的频数, y 是 x 的对数(以10为底)。
  • 第二步是用 means 过程计算y的描述性统计量,将计算所得到的均数输出到数据集 b 中用变量名 logmean 表示,则数据集 b 有一个变量 logmean,一个观测,其值为y的均数。
  • noprint 语句表示不在 Output 窗口显示 means 过程的结果;
  • 第三步新建数据集 c ,调用数据集 b 中的内容,新产生变量 g ,该变量的值为变量 logmean 的反对数。
  • 第四步将数据集 c 的结果显示在 Output 窗口内。

得出这组数据的几何均数为:\(1:150.641\)

1.6 means 过程常用选项和语句

运用 meansunivariate 过程进行计量资料的统计描述时,可根据需求增加一些选项或语句,以满足用户的输入/输出要求。

1.6.1 means 过程的基本格式

proc means <options> <统计量关键字>;
    by <descending> 变量名1 <变量名 2> <notsorted>;
    class 变量名1 <变量名 2>...;
    var 变量名 1 <变量名 2>...;
    freq 变量名;
    output out = 数据集名 统计量名(变量列表) = 新列名;
run;

1.6.2 means 过程常用选项

  1. noprint:不在 Output 窗口输出结果,但仍然将结果输出到数据集中;
  2. maxdec=: 指定输出结果的小数点后有效位数,默认是 7 位,常用有 maxdec=2maxdec=4 等;
  3. alpha=value: 用于指定均数置信区间的置信水平,默认值为 0.05.
  4. missing: 将 class 语句所指定变量的缺失值作为合法的水平用以创建代表分组的组合,否则 class 语句所指定变量为缺失值的观测将会被排除在分析过程之外.

1.6.3 means 过程的常用语句

  1. by: 用于指定分组变量,以便按照该变量将输人数据集分割为多个子数据集,从而在各子数据集内分别执行相应的分析过程,使用该语句前需使用 sort 过程对输人数据集进行排序。可以在 by 语句中设置 notsorteddescending 选项,前者表示数据未按照 by 语句所指定变量进行排列,后者是在输人数据集时先按照 by 语句所指定变量进行降序排列时使用.
  2. class: 也用于指定分组变量,但其作用与 by 语句稍有不同。每一个 class 语句所指定变量的水平或多个 class 语句所指定变量的每一个水平组合均定义一个分组,有关全体样本和各分组内样本的相应统计量均会被计算并显示.

1.7 univariate 过程常用选项和语句

1.7.1 univariate 过程的基本格式

proc univariate <options>;
    by <descending> 变量名1 <变量名 2> <notsorted>;
    class 变量名1 <变量名 2>...;
    var 变量名 1 <变量名 2>...;
    freq 变量名;
    histogram 变量名1 <变量名 2>/<选项>;
    probplot 变量名1 <变量名 2>/<选项>;
    qqplot 变量名1 <变量名 2>/<选项>;
    output out=数据集名称 <选项>;
run;

1.7.2 univariate 过程常用选项

  1. data = 输入资料文件名称 指明到底对那一个资料文件进行分析,若省略此选项则 SAS 会自动找出在本程序之前最后形成的资料文件并对它进行分析。
  2. noprint 使用此选项分析结果将不在 result 里输出。
  3. plot 使用此选项 UNIVARIATE 过程将产生三种图形:茎叶图 (Stem-And-Leaf Plot) 、平行条状图 (Horizontal Bar Chart)、盒状图(Box Plot)、正态分布拟合图 (Normal Probability Plot)
  4. cibasic 选项 以正态分布为基础,为均数、标准差、方差等计算置信区间,该选项还可以设定次级选项设定置信区间类型及置信区间的置信水平。
  5. cipctldf 选项以非参数方法为各分位数计算置信区间,该选项的用法和功能与 cibasic 类似。
  6. cipctdfnormal 选项以正态分布假设为基础为各分位数计算置信区间,该选项的用法和功能与 cibasic 类似

1.7.3 univariate 过程常用语句

  1. histogram语句 该语句用于对指定的变量绘制高分辨率的直方图,同时还可以为直方图添加分布密度曲线。在一个 univariate 过程中可以同时调用多条 histogram 语句,同时还可以为 histogram 语句设定相应的变量及选项来对生成的图形进行相应的调整。
  2. probplot 语句 该语句用于对指定变量绘制高分辨率的概率图。与 histogram 语句一样,该语句也可以指定对应的分析变量及控制选项来执行不同的控制功能。
  3. qqplot 语句 该语句用于对指定变量绘制高分辨率的 q-q 图,用于判断数据是否符合所指定的理论分布。该语句的用法与 probplot 语句类似,也可设定相应的变量及控制选项。
  4. ppplot 语句 该语句用于对指定变量绘制高分辨率的 p-p 图,用于判断数据是否符合所指定的理论分布。该语句的用法与 probplot 语句类似,也可设定相应的变量及控制选项。
  5. cdfplot 语句 该语句用于对指定变量绘制高分辨率的经验分布函数图,用于判断数据是否符合所指定的理论分布。该语句的用法与 probplot 语句类似,也可设定相应的变量及控制选项。

1.7.4 直方图示例

代码
%%SAS
PROC UNIVARIATE DATA=SASHELP.FISH NOPRINT;
    WHERE SPECIES='Bream';
    VAR HEIGHT;
    HISTOGRAM;
RUN;
SAS 输出

SAS 系统

UNIVARIATE 过程

“Height”的直方图

1.7.5 正态拟合曲线

加一个 NORMAL 选项则在直方图上面加了一根拟合后的正态分布图,并且还增加了拟合正太分布的参数估计、拟合优度、分位数,这里的括号中的意思可理解为均值(MU)和标准差(SIGMA)的值为原始数据本身的均值和标准差.

代码
%%SAS
PROC UNIVARIATE DATA=SASHELP.FISH NOPRINT;
    WHERE SPECIES='Bream';
    VAR HEIGHT;
    HISTOGRAM / NORMAL(MU=EST SIGMA=EST);
RUN;
SAS 输出

SAS 系统

UNIVARIATE 过程

“Height”的直方图

SAS 系统

UNIVARIATE 过程

“Height”的拟合正态分布

“正态”分布的参数
参数 符号 估计
均值 Mu 15.18321
标准差 Sigma 1.964707
“正态”分布的拟合优度检验
检验 统计量 p 值
Kolmogorov-Smirnov D 0.06967244 Pr > D >0.150
Cramer-von Mises W-Sq 0.03567178 Pr > W-Sq >0.250
Anderson-Darling A-Sq 0.29075434 Pr > A-Sq >0.250
“正态”分布的分位数
百分比 分位数
观测 估计
1.0 11.5200 10.6126
5.0 12.3778 11.9516
10.0 12.4800 12.6653
25.0 13.9129 13.8580
50.0 14.9544 15.1832
75.0 16.3618 16.5084
90.0 18.0840 17.7011
95.0 18.7542 18.4149
99.0 18.9570 19.7538

1.7.6 实际数据核分布的密度曲线

代码
%%SAS
PROC UNIVARIATE DATA=SASHELP.FISH NOPRINT;
    WHERE SPECIES = 'Bream';
    VAR HEIGHT;
    HISTOGRAM / NORMAL(MU=EST SIGMA=EST) KERNEL;
RUN;
SAS 输出

SAS 系统

UNIVARIATE 过程

“Height”的直方图

SAS 系统

UNIVARIATE 过程

“Height”的拟合正态分布

“正态”分布的参数
参数 符号 估计
均值 Mu 15.18321
标准差 Sigma 1.964707
“正态”分布的拟合优度检验
检验 统计量 p 值
Kolmogorov-Smirnov D 0.06967244 Pr > D >0.150
Cramer-von Mises W-Sq 0.03567178 Pr > W-Sq >0.250
Anderson-Darling A-Sq 0.29075434 Pr > A-Sq >0.250
“正态”分布的分位数
百分比 分位数
观测 估计
1.0 11.5200 10.6126
5.0 12.3778 11.9516
10.0 12.4800 12.6653
25.0 13.9129 13.8580
50.0 14.9544 15.1832
75.0 16.3618 16.5084
90.0 18.0840 17.7011
95.0 18.7542 18.4149
99.0 18.9570 19.7538

1.7.7 plot

plot 选项,在结果中增加了分析变量数据的分布图、盒形图、以及概率图.

代码
%%SAS
PROC UNIVARIATE DATA=SASHELP.FISH PLOT;
    WHERE SPECIES = 'Bream';
    VAR HEIGHT;
    HISTOGRAM / NORMAL(MU=EST SIGMA=EST) KERNEL;
RUN;
SAS 输出

SAS 系统

UNIVARIATE 过程

变量: Height

数目 35 权重总和 35
均值 15.1832114 观测总和 531.4124
标准差 1.96470673 方差 3.86007253
偏度 0.24174068 峰度 -0.5914026
未校平方和 8199.78929 校正平方和 131.242466
变异系数 12.9399945 标准误差均值 0.33209605
基本统计测度
位置 变异性
均值 15.18321 标准差 1.96471
中位数 14.95440 方差 3.86007
众数 . 极差 7.43700
    四分位间距 2.44890
位置检验: Mu0=0
检验 统计量 p 值
Student t t 45.71934 Pr > |t| <.0001
符号 M 17.5 Pr >= |M| <.0001
符号秩 S 315 Pr >= |S| <.0001
分位数(定义 5)
水平 分位数
100% 最大值 18.9570
99% 18.9570
95% 18.7542
90% 18.0840
75% Q3 16.3618
50% 中位数 14.9544
25% Q1 13.9129
10% 12.4800
5% 12.3778
1% 11.5200
0% 最小值 11.5200
极值观测
最小值 最大值
观测 观测
11.5200 1 18.0369 31
12.3778 3 18.0840 32
12.4440 5 18.6354 34
12.4800 2 18.7542 33
12.6700 8 18.9570 30
“Height”的图

SAS 系统

UNIVARIATE 过程

“Height”的直方图

SAS 系统

UNIVARIATE 过程

“Height”的拟合正态分布

“正态”分布的参数
参数 符号 估计
均值 Mu 15.18321
标准差 Sigma 1.964707
“正态”分布的拟合优度检验
检验 统计量 p 值
Kolmogorov-Smirnov D 0.06967244 Pr > D >0.150
Cramer-von Mises W-Sq 0.03567178 Pr > W-Sq >0.250
Anderson-Darling A-Sq 0.29075434 Pr > A-Sq >0.250
“正态”分布的分位数
百分比 分位数
观测 估计
1.0 11.5200 10.6126
5.0 12.3778 11.9516
10.0 12.4800 12.6653
25.0 13.9129 13.8580
50.0 14.9544 15.1832
75.0 16.3618 16.5084
90.0 18.0840 17.7011
95.0 18.7542 18.4149
99.0 18.9570 19.7538