目录
1. 掌握数据收集和处理的基本分方法。
2. 掌握数据分析的金发原理和方法。
3. 掌握了基本的概率论知识。
4. 具有运用统计方法分析数据和解释数据的基本能力。
II 考试形式和试卷结构
一、试卷满分及考试时间
试卷满分为150分,考试时间180分钟。
二、答题方式
答题方式为闭卷、笔试。允许使用计算器(仅仅具备四则运算和开方运算功能的计算器),但不得使用带有公式和文本存储功能的计算器。
三、试卷内容与题型结构
统计学 120分,有以下三种题型:
单项选择题 25题,每小题2分,共50分
简答题 3题,每小题10分,共30分
计算与分析题 2题,每小题20分,共40分
概率论 30分,有以下三种题型:
单项选择题 5题,每小题2分,共10分
简答题 1题,每小题10分,共10分
计算与分析题 1题,每小题10分,共10分
III 考查内容
一、 统计学
1. 调查的组织和实施。
2. 概率抽样与非概率抽样。
3. 数据的预处理。
4. 用图表展示定性数据。
5. 用图表展示定量数据。
6. 用统计量描述数据的水平:平均数、中位数、分位数和众数。
7. 用统计量描述数据的差异:极差、标准差、样本方差。
8. 参数估计的基本原理。
9. 一个总体和两个总体参数的区间估计。
10. 样本量的确定。
11. 假设检验的基本原理。
12. 一个总体和两个总体参数的检验。
13. 方差分析的基本原理。
14. 单因子和双因子方差分析的实现和结果解释。
15. 变量间的关系;相关关系和函数关系的差别。
16. 一元线性回归的估计和检验。
17. 用残差检验模型的假定。
18. 多元线性回归模型。
19. 多元线性回归的拟合优度和显著性检验;
20. 多重共线性现象。
21. 时间序列的组成要素。
22. 时间序列的预测方法。
二、 概率论
1. 事件及关系和运算;
2. 事件的概率;
3. 条件概率和全概公式;
4. 随机变量的定义;
5. 离散型随机变量的分布列和分布函数;离散型均匀分布、二项分布和泊松分布;
6. 连续型随机变量的概率密度函数和分布函数;均匀分布、正态分布和指数分布;
7. 随机变量的期望与方差;
8. 随机变量函数的期望与方差。
IV. 题型示例及参考答案
全国硕士研究生入学统一考试
应用统计硕士专业学位
统计学试题
一. 单项选择题(本题包括1—30题共30个小题,每小题2分,共60分。在每小题给出的四个选项中,只有一个符合题目要求,把所选项前的字母填在答题卡相应的序号内)。
选择题答题卡:
题号 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
答案 |
|
|
|
|
|
|
|
|
|
|
题号 |
11 |
12 |
13 |
14 |
15 |
16 |
17 |
18 |
19 |
20 |
答案 |
|
|
|
|
|
|
|
|
|
|
题号 |
21 |
22 |
23 |
24 |
25 |
26 |
27 |
28 |
29 |
30 |
答案 |
|
|
|
|
|
|
|
|
|
|
1. 为了调查某校学生的购书费用支出,从男生中抽取60名学生调查,从女生中抽取40名学生调查,这种抽样方法属于( )。
A. 简单随机抽样
B. 整群抽样
C. 系统抽样
D. 分层抽样
2. 某班学生的平均成绩是80分,标准差是10分。如果已知该班学生的考试分数为对称分布,可以判断考试分数在70到90分之间的学生大约占( )。
A. 95%
B. 89%
C. 68%
D. 99%
3. 已知总体的均值为50,标准差为8,从该总体中随机抽取样本量为64的样本,则样本均值的数学期望和抽样分布的标准误差分别为( )。
A. 50,8
B. 50,1
C. 50,4
D. 8,8
4. 根据一个具体的样本求出的总体均值95%的置信区间( )。
A. 以95%的概率包含总体均值
B. 有5%的可能性包含总体均值
C. 绝对包含总体均值
D. 绝对包含总体均值或绝对不包含总体均值
5. 一项研究发现,2000年新购买小汽车的人中有40%是女性,在2005年所作的一项调查中,随机抽取120个新车主中有57人为女性,在的显著性水平下,检验2005年新车主中女性的比例是否有显著增加,建立的原假设和备择假设为( )。
A.
B.
C.
D.
6. 在回归分析中,因变量的预测区间估计是指( )。
A. 对于自变量的一个给定值,求出因变量的平均值的区间
B. 对于自变量的一个给定值,求出因变量的个别值的区间
C. 对于因变量的一个给定值,求出自变量的平均值的区间
D. 对于因变量的一个给定值,求出自变量的平均值的区间
7. 在多元线性回归分析中,如果检验表明线性关系显著,则意味着( )。
A. 在多个自变量中至少有一个自变量与因变量之间的线性相关系著
B. 所有的自变量与因变量之间的线性关系都显著
C. 在多个自变量中至少有一个自变量与因变量之间的线性关系不显著
D. 所有的自变量与因变量之间的线性关系都不显著
8. 如果时间序列的逐期观察值按一定的增长率增长或衰减,则适合的预测模型是( )。
A. 移动平均模型
B. 指数平滑模型
C. 线性模型
D. 指数模型
9. 雷达图的主要用途是( )。
A. 反映一个样本或总体的结构
B. 比较多个总体的构成
C. 反映一组数据的分布
D. 比较多个样本的相似性
10. 如果一组数据是对称分布的,则在平均数加减2个标准差之内的数据大约有( )。
A. 68%
B. 90%
C. 95%
D. 99%
11. 从均值为200、标准差为50的总体中,抽出的简单随机样本,用样本均值估计总体均值,则的期望值和标准差分别为( )。
A. 200,5
B. 200,20
C. 200,0.5
D. 200,25
12. 95%的置信水平是指( )。
A.总体参数落在一个特定的样本所构造的区间内的概率为95%
B.总体参数落在一个特定的样本所构造的区间内的概率为5%
C.在用同样方法构造的总体参数的多个区间中,包含总体参数的区间比例为95%
D.在用同样方法构造的总体参数的多个区间中,包含总体参数的区间比例为5%
13. 在假设检验中,如果所计算出的值越小,说明检验的结果( )。
A.越显著
B.越不显著
C.越真实
D.越不真实
14. 在下面的假定中,哪一个不属于方差分析中的假定( )。
A.每个总体都服从正态分布
B. 各总体的方差相等
C. 观测值是独立的
D. 各总体的方差等于0
15. 在方差分析中,数据的误差是用平方和来表示的,其中组间平方和反映的是( )。
A. 一个样本观测值之间误差的大小
B. 全部观测值误差的大小
C. 各个样本均值之间误差的大小
D. 各个样本方差之间误差的大小
16. 在多元线性回归分析中,检验是用来检验( )。
A. 总体线性关系的显著性
B. 各回归系数的显著性
C. 样本线性关系的显著性
D.
17. 为研究食品的包装和销售地区对其销售量是否有影响,在三个不同地区中用三种不同包装方法进行销售,根据获得的销售量数据计算得到下面的方差分析表。表中“A”单元格和“B”单元格内的结果是( )。
差异源 |
SS |
df |
MS |
F |
行 |
22.22 |
2 |
11.11 |
A |
列 |
955.56 |
2 |
477.78 |
B |
误差 |
611.11 |
4 |
152.78 |
|
总计 |
1588.89 |
8 |
|
|
A. 0.073和3.127 B. 0.023和43.005
C. 13.752和0.320 D. 43.005和0.320
18. 对某时间序列建立的预测方程为,这表明该时间序列各期的观察值( )。
A. 每期增加0.8 B. 每期减少0.2
C. 每期增长80% D. 每期减少20%
19. 进行多元线性回归时,如果回归模型中存在多重共线性,则( )。
A. 整个回归模型的线性关系不显著
B. 肯定有一个回归系数通不过显著性检验
C. 肯定导致某个回归系数的符号与预期的相反
D. 可能导致某些回归系数通不过显著性检验
20. 如果时间序列不存在季节变动,则各期的季节指数应( )。
A. 等于0 B. 等于1
C. 小于0 D. 小于1
21. 一所中学的教务管理人员认为,中学生中吸烟的比例超过30%,为检验这一说法是否属实,该教务管理人员抽取一个随机样本进行检验,建立的原假设和备择假设为。检验结果是没有拒绝原假设,这表明( )。
A.有充分证据证明中学生中吸烟的比例小于30%
B.中学生中吸烟的比例小于等于30%
C.没有充分证据表明中学生中吸烟的超过30%
D.有充分证据证明中学生中吸烟的比例超过30%
22. 某药品生产企业采用一种新的配方生产某种药品,并声称新配方药的疗效远好于旧的配方。为检验企业的说法是否属实,医药管理部门抽取一个样本进行检验。该检验的原假设所表达的是( )。
A.新配方药的疗效有显著提高 B.新配方药的疗效有显著降低
C.新配方药的疗效与旧药相比没有变化 D.新配方药的疗效不如旧药
23. 在回归分析中,残差平方和反映了的总变差中( )。
A. 由于与之间的线性关系引起的的变化部分
B. 由于与之间的非线性关系引起的的变化部分
C. 除了对的线性影响之外的其他因素对变差的影响
D. 由于的变化引起的的误差
24. 在公务员的一次考试中,抽取49个应试者,得到的平均考试成绩为81分,标准差分。该项考试中所有应试者的平均考试成绩95%的置信区间为( )。
A.81±1.96 B.81±3.36 C.81±0.48 D.81±4.52
25. 某大学共有5000名本科学生,每月平均生活费支出是500元,标准差是100元。假定该校学生的生活费支出为对称分布,月生活费支出在400元至600元之间的学生人数大约为( )。
A. 4750人 B. 4950人 C. 4550人 D. 3400人
26. 将一颗质地均匀的骰子(它是一种各面上分别标有点数1,2,3,4,5,6的正方体玩具)先后抛掷3次,至少出现一次6点向上的概率是()
A.27. 离散型随机变量的分布列为,其中是未知数,如果已知取1的概率和取2的概率相等,则( )。
A.0.2 B.0.3 C.0.4 D.0.5
28. 甲乙两人将进行一局象棋比赛,考虑事件,则为( )。
A.甲负乙胜 B.甲乙平局 C.甲负 D.甲负或平局
29. 对于随机变量,有,则( )。其中表示随机变量的方差。
A.0.1 B.1 C.10 D.100
30. 设函数在区间上等于0.5,在此区间之外等于0,如果可以作为某连续型随机变量的密度函数,则区间可以是( )。
A. B. C. D.
二. 简要回答下列问题(本题包括1—4题共4个小题,每小题10分,共40分)。
1. 简述假设检验中值的含义。
2. 已知甲乙两个地区的人均收入水平都是5000元。这个5000元对两个地区收入水平的代表性是否一样?请说明理由。
3. 简述分解法预测的基本步骤。
4. 正态分布的概率密度函数有两个参数和,请结合函数的几何形状说明和的意义。
三. 计算与分析题(本题包括1—3题共3个小题,第1小题和第2小题每题20分,第3 小题10分,共50分)。
1. 某企业生产的袋装食品采用自动打包机包装,每袋标准重量为100克。现从某天生产的一批产品中按重复抽样随机抽取50包进行检查,测得每包重量(克)如下:
每包重量(克) |
包数 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
96-98 |
2 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
98-100 |
3 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
100-102 |
34 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
102-104 |
7 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
104-106 |
4 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
合计 |
(1)确定该种食品平均重量95%的置信区间。 (2)采用假设检验方法检验该批食品的重量是否符合标准要求?(,写出检验的具体步骤)。 2. 一家产品销售公司在30个地区设有销售分公司。为研究产品销售量(y)与该公司的销售价格(x1)、各地区的年人均收入(x2)、广告费用(x3)之间的关系,搜集到30个地区的有关数据。利用Excel得到下面的回归结果(): 方差分析表
参数估计表
(1) 将方差分析表中的所缺数值补齐。 (2) 写出销售量与销售价格、年人均收入、广告费用的多元线性回归方程,并解释各回归系数的意义。 (3) 检验回归方程的线性关系是否显著? (4) 计算判定系数,并解释它的实际意义。 (5) 计算估计标准误差,并解释它的实际意义。
3. 用三类不同元件连接成两个系统和。当元件都正常工作时,系统正常工作;当元件正常工作且元件中至少有一个正常工作时,系统正常工作。已知元件正常工作的概率依次为0.80,0.90,0.90,且某个元件是否正常工作与其他元件无关。分别求系统和正常工作的概率和。
参考答案
一、单项选择题 1. D;2. C;3. B;4. D;5. C;6. B;7. A;8. D;9. D;10. C; 11. A;12. C;13. A;14. D;15. C;16. B;17. A;18.D;19.D;20.B; 21.C;22.C;23.C;24.B;25.D;26.D;27.C;28.D;29.A;30.B。
二、简要回答题 1. (1)如果原假设是正确的,所得到的样本结果会像实际观测结果那么极端或更极端的概率,称为值。 (2)值是指在总体数据中,得到该样本数据的概率。 (3)值是假设检验中的另一个决策工具,对于给定的显著性水平,若,则拒绝原假设。
2. 这要看情况而定。如果两个地区收入的标准差接近相同时,可以认为5000元对两个地区收入水平的代表性接近相同。如果标准差有明显不同,则标准差小的,5000元对该地区收入水平的代表性就要好于标准差大的。
3. (1)确定并分离季节成分。计算季节指数,以确定时间序列中的季节成分。然后将季节成分从时间序列中分离出去,即用每一个时间序列观测值除以相应的季节指数,以消除季节成分。 (2)建立预测模型并进行预测。对消除季节成分的时间序列建立适当的预测模型,并根据这一模型进行预测。 (3)计算出最后的预测值。用预测值乘以相应的季节指数,得到最终的预测值。
4. 正态分布的概率密度函数是一个左右对称的钟形曲线,参数是这个曲线的对称轴,同时也决定了曲线的位置,也是正态分布的数学期望;而参数的大小决定了曲线的陡峭程度,越小,则曲线的形状越陡峭,越集中在对称轴的附近,这和是正态分布的方差的直观意义一致。
三、计算与分析题
1. (1)已知:,。 样本均值为:克, 样本标准差为:克。 由于是大样本,所以食品平均重量95%的置信区间为: 即(100.867,101.773)。 (2)提出假设:, 计算检验的统计量: 由于,所以拒绝原假设,该批食品的重量不符合标准要求。
2.(1) 方差分析表
(2)多元线性回归方程为: 。 表示:在年人均收入和广告费用不变的情况下,销售价格每增加一个单位,销售量平均下降117.8861个单位;表示:在销售价格和广告费用不变的情况下,年人均收入每增加一个单位,销售量平均增加80.6107个单位;表示:在年销售价格和人均收入不变的情况下,广告费用每增加一个单位,销售量平均增加0.5012个单位。 (3)由于Significance F=8.88341E-13<,表明回归方程的线性关系显著。 (4),表明在销售量的总变差中,被估计的多元线性回归方程所解释的比例为89.36%,说明回归方程的拟合程度较高。 (5)。表明用销售价格、年人均收入和广告费用来预测销售量时,平均的预测误差为234.67。
3.解:分别记元件正常工作为事件,由已知条件可得
记系统正常工作为事件,则有; 由于事件相互独立,所以 记系统正常工作为事件,则有 ; 由于相互独立,则有
|