统计案例知识点总结(11篇)
位置: 首页 >专题范文 > 公文范文 > 文章内容

统计案例知识点总结(11篇)

2022-11-21 17:00:06 投稿作者:网友投稿 点击:

统计案例知识点总结(11篇)统计案例知识点总结  第一章记录案例一、回归分析旳基本思想及其初步应用1、数学变量有关关系旳定义:当一种或几种互相联络旳变量取一定旳数值时,与之相对应旳另下面是小编为大家整理的统计案例知识点总结(11篇),供大家参考。

统计案例知识点总结(11篇)

篇一:统计案例知识点总结

  第一章记录案例一、回归分析旳基本思想及其初步应用1、数学变量有关关系旳定义:当一种或几种互相联络旳变量取一定旳数值时,与之相对应旳另一变量旳值虽然不确定,但它仍按某种规律在一定旳范围内变化。变量间旳这种互相关系,称为具有不确定性旳有关关系.

  (1)按方向分类正有关:两个变量旳变化趋势相似,从散点图可以看出各点散布旳位置是从左下

  角到右上角旳区域,即一种变量旳值由小变大时,另一种变量旳值也由小变大。

  负有关:两个变量旳变化趋势相反,从散点图可以看出各点散布旳位置是从左上角到右下角旳区域,即一种变量旳值由小变大时,另一种变量旳值由大变小。

  正有关关

  负有关

  (2)有关性系数r(在《必修3》中有简介)

  用有关系数r来衡量两个变量之间旳有关关系

  n

  xi

  x

  yi

  y

  r

  i1

  n

  2n

  2

  xix

  yiy

  i1

  i1

  不有

  2、两变量之间旳关系存在两种不一样旳类型(1)有关关系——非确定性关系(2)函数关系——确定性关系

  3、回归分析是对具有有关关系旳两个变量进行记录分析旳一种常用措施。其基本环节是:①画出两个变量旳散点图;

  ②求回归直线方程;③并用回归直线方程进行预报。

  4、回归直线方程:ybxa

  n

  (xix)(yiy)

  n

  xiyinxy

  bi1n

  (xix)2

  i1

  i1n

  xi2

  2

  nx

  ,

  i1

  aybx

  说明:1回归系数b0.因为当b0时,相关系数r0,这时不具有线性相关关系.

  2x,y称为样本点的中心,回归直线必定经过样本点的中心.

  例如:

  4、线性回归模型用ybxae来表示,其中a和b为模型的未知参数,e称为随机误差.残差:eyiy

  n

  5、有关指数

  R

  2

  yi

  是用来刻画回归R效2果1旳i,n1

  yi

  2

  2

  yiy

  i1

  R2越大,残差平方和越小,模型旳拟合效果就越好。

  二、独立性检查旳基本思想及其初步应用

  1、列联表

  假设有两个分类变量X和Y,它们旳值域分另为{x1,x2}和{y1,y2},其样本频数列联表为:

  y1

  y2

  总计

  x1

  a

  b

  a+b

  x2

  c

  d

  c+d

  总计a+cb+da+b+c+d

  2、随机变量K2=

  nadbc2

  ,其中nabcd为样本容量.

  abcdacbd

  3、独立性检查(1)运用随机变量K2来判断“两个分类变量有关系”旳措施称为独立性检查,并且

  能较精确地给出这种判断旳可靠程度。

  (2)详细旳做法是,由表中旳数据算出随机变量K2旳值。K2旳值越大,阐明“X与Y

  有关系”成立旳也许性越大。

  下表k是观测值,概率P为出错误旳概率。

  P(K2k)0.50

  0.40

  0.25

  0.15

  0.10

  0.05

  0.0250.0100.0050.001

  k

  0.455

  例如:

  0.708

  1.323

  2.072

  2.706

  3.841

  5.024

  6.635

  7.879

  10.828

  4、运用列联表直接计算a发现c和

  abcd

  关系。

  相差很大,就判断两个分类变量之间有

篇二:统计案例知识点总结

  高中数学章节知识点归纳总结:统计案例、推理与证明(专题复习)

  一、统计案例1.线性回归方程①变量之间的两类关系:函数关系与相关关系;②制作散点图,判断线性相关关系

  ③线性回归方程:y=bx+a(最小二乘法)

  nn

  __

  工XiYi-nxy

  b-------------

  亏2

  y2-2

  江息:线性回归直线经过小点(x,y)。

  X.Xi—nxi=1

  a=y-bxn'、’(xi-x)(yi-y)

  2.相关系数(判定两个变量线性相关性):r=।f

  =

  n

  _n

  _

  一'(xi-x)2v(yi-y)2

  .i1

  i1

  注:⑴r>0时,变量x,y正相关;r<0时,变量x,y负相关;

  ⑵①|r|越接近于1,两个变量的线性相关性越强;②|r|接近于0时,两

  个变量之间几乎不存在线性相关关系。3.回归分析中回归效果的判定:

  n

  ⑴总偏差平方和:工(yi-y)2⑵残差:e=yi-X;⑶残差平方和:i1

  -nn

  n

  Z(yi-yi)2;⑷回归平方和:Z(y-y)2—E(yi-yi)2;⑸相关指数i1i1i1

  n

  '

  (yi

  -yj2

  R2=1———。

  "(yi-y。2

  i1

  注:①R2得知越大,说明残差平方和越小,则模型拟合效果越好;

  ②R2越接近于1,,则回归效果越好。4.独立性检验(分类变量关系):随机变量K2越大,说明两个分类变量,关系越强,反之,越弱

  二、推理与证明1.推理:

  ⑴合情推理:JA纳推理和类比推理都是根据已有事实,经过观察、分析、比较、联想,

  在进行归纳、类比,然后提出猜想的推理,我们把它们称为合情推理。

  ①归纳推理:由某类食物的部分对象具有某些特征,推出该类事物的全部对象都具有这些

  特征的推理,或者有个别事实概括出一般结论的推理,称为归纳推理,简称归纳。

  注:归纳推理是由部分到整体,由个别到一般的推理。

  ②类比推理:由两类对象具有类似和其中一类对象的某些已知特征,

  推出另一类

  对象也具有这些特征的推理,称为类比推理,简称类比。

  注:类比推理是特殊到特殊的推理。

  ⑵演绎推理:从一般的原理出发,推出某个特殊情况下的结论,这种推理叫演绎推理。

  注:演绎推理是由一般到特殊的推理。

  “三段论”是演绎推理的一般模式,包括:⑴大前提已知的一般结论;⑵小前提所

  研究的特殊情况;⑶结论根据一般原理,对特殊情况得出的判断。

  2.证明直接证明⑴综合法一般地,利用已知条件和某些数学定义、定理、公理等,经过一系列的推理论证,最后推导出所要证明的结论成立,这种证明方法叫做综合法。综合法又叫顺推法或由因导果法。⑵分析法一般地,从要证明的结论出发,逐步寻求使它成立的充分条件,直至最后,把要证明的结论归结为判定一个明显成立的条件(已知条件、定义、定理、公理等)

  ,这种证明的方法叫分析法。分析法又叫逆推证法或执果索因法。间接证明——反证法一般地,假设原命题不成立,经过正确的推理,最后得出矛盾,因此说明假设错误,从而证明原命题成立,这种证明方法叫反证法。

篇三:统计案例知识点总结

  统计学知识点全归纳

  .适用文档.

  统计学知识点汇总

  一、统计学

  统计学是一门对于数据资料的采集、整理、剖析和推测的科学。

  二、统计学的产生与睁开

  〔1〕政治算术学派

  最早的统计学源于17世纪英国。其代表人物是威廉·配第,代表作

  ?政治算术?。政治算

  术学派主张用大批察看和数目剖析等方法对社会经济现象进行研究的主张,为统计学的睁开开拓了广阔的远景。其被称为“无统计学之名,有统计学之实〞。

  〔2〕记述学派

  亦称国势学派,首创人和代表人物是德国康令和阿亨瓦尔,主要使用文字记述方法对国

  情国力进行研究,其学科内容与现代统计学有较大差别。所以被称为

  “有统计学之名,无统计

  学之实〞。〔3〕社会统计学派

  首创人和代表人物,德国恩格尔和梅尔。该学派主张统计是实质性的研究社会现象的社

  会科学,以为统计学的研究对象是社会现象,目的在于明确社会现象内部的联系联系和相互关系。

  〔4〕数理统计学派首创人是比利时统计学家凯特勒,他所著的代表作

  ?社会物理学?等将概率论和统计方法

  引入社会经济方面的研究,其以为统计学是一门通用的方法论科学。从19世纪中叶到20世纪中叶,数理统计学获得快速睁开。到

  20世纪中期,数理统计学

  的根本框架已经形成,数理统计学派成为英美等国统计学界的主流。

  三、统计的特色

  〔1〕数目性:社会经济统计的认识对象是社会经济现象的数目方面,包含现象的数目表现、现象之间

  的数目关系和质量互变的数目界线。〔2〕整体性:

  社会经济统计的认识对象是社会经济现象的整体的数目方面。比如,公民经济整体的数目方面、社会整体的数目方面、地域公民经济和社会整体的数目方面、各企事业单位整体数目方面等等。〔3〕详细性:

  社会经济统计的认识对象是详细事物的数目方面,而不是抽象的量。这是统计与数学的差别。〔4〕社会性:

  社会经济现象是人类存心识的社会活动,是人类社会活动的条件、过程和结果,社会经济统计以社会经济现象作为研究对象,自然拥有显然的社会性。

  四、统计工作过程

  〔1〕统计设计

  依据所要研究问题的性质,在有关学科理论的指导下,拟订统计指标、指标系统和统计分类,给出一致的定义、标准。同时提出采集、整理和剖析数据的方案和工作进度等。〔2〕采集数据

  统计数据的采集有两种根本方法,实验法和检查法。〔3〕整理与剖析

  描绘统计是指对采集的数据进行登记、审查、整理、归类,在此根基长进一步计算出各样能反应整体数目特色的综合指标,并用图表的形式表示经过概括剖析而获得的各样实用的

  .

  统计学知识点全归纳

  .适用文档.

  统计信息。

  推测统计是在对样本数据进行描绘的根基上,利用必定的方法依据样本数据去预计或查验整体的数目特色。〔4〕统计资料的累积、开发与应用

  对于已经宣布的统计资料需要加以累积,同时还能够进前进一步的加工,联合有关的实质性学科的理论知识去进行剖析和利用。

  五、统计整体的特色

  〔1〕大批性大批性是指构成整体的整体单位数要足够的多,整体应由大批的整体单位所构成,大批

  性是对统计整体的根本要求;〔2〕同质性

  同质性是指整体中各单位起码有一个或一个以上不变标记,即起码有一个拥有某一共同标记表现的标记,使它们能够联合起来构成整体,同质性是构成统计整体的前提条件;〔3〕变异性

  变异性就是指整体中各单位起码有一个或一个以上变异标记,即起码有一个不一样标记表现的标记,作为所要研究问题的对象。变异性是统计研究的要点。

  六、标记与指标的差别与联系

  ■差别:标记是说明整体单位特色的;指标是说明整体特色的。标记中的质量标记不可以用数目表示;而全部的指标都能用数目表示。标记(指数目标记)不必定经过汇总,可直接获得;而指标(指数目指标)必定要经过汇总才能

  获得。标记一般不具备时间、地址等条件;但完好的统计指标必定要讲明时间、地址、范围。

  ■联系:有些数目标记值汇总能够获得指标的数值。既可指整体各单位标记量的总和,也可指整

  体单位数的总和。数目标记与指标之间存在变换关系。跟着统计目的的改变,假如本来的整体单位变为

  了统计整体,那么与之相对应的数目标记就成了统计指标。

  七、统计指标系统

  统计指标系统是各样相互联系的指标群构成的整体,用以说明所研究的社会经济现象各方面相互允从和相互限制的关系。

  八、相对指标

  相对指标又称统计相对数。它是两个有联系的现象数值的比率,用以反应现象的睁开程度、构造、强度、广泛程度或比率关系。

  〔1〕构造相对指标构造相对指标是在对整体分组的根基上,以整体总量作为比较标准,求出各组总量占整

  体总量的比重,来反应整体内部构成状况的综合指标。〔2〕比率相对指标

  比率相对指标是整体中不一样局部数目对比的相对指标,用以剖析整体范围内各个局部、各个分组之间的比率关系和协调均衡状况。〔3〕比较相对指标

  比较相对指标是不一样单位的同类现象数目对比而确立的相对指标,用以说明某一起类现象在同一时间内各单位睁开的不均衡程度,以说明同类实物在不一样条件下的数目对比关系。

  .

  统计学知识点全归纳

  .适用文档.

  〔4〕强度相对指标

  强度相对指标是两个性质不一样但有必定联系的总量指标之间的对比,用来说明某一现象在另一现象中睁开的强度、密度和广泛程度。〔5〕方案达成程度相对指标

  方案达成程度相对指标是用来检查、监察方案履行状况的相对指标。它以现象在某一段时间内的实质达成数与方案数对比,来察看方案达成程度。

  九、权数

  指变量数列中各组标记值出现的次数,是变量值的担当者,反应了各组的标记值对均匀数的影响程度

  十、中位数

  将整体各单位标记值按大小次序摆列后,指处于数列中间地点的标记值,用

  Me表示

  十一、众数

  M指整体中出现次数最多的变量值,用0表示,它不受极端数值的影响,用来说明整体中大

  部分单位所抵达的一般水平。

  十二、标记变异指标

  统计上用来反应整体各单位标记值之间差别程度大小的综合指标,也称做标记改动度。

  十三、标准差

  ——标准差是各个数据与其算术均匀数的离差平方的算术均匀数的开平方根,

  用来表

  示;标准差的平方又叫作方差,用

  2来表示。

  【例A】某售货小组5个人,某天的销售额分别为440元、480元、520元、600元、750元,

篇四:统计案例知识点总结

  按时间标志可分为连续性经常性调查和不连续性一次性调查定期报表制度又称统计报表制度它是依照国家有关法规自上而下地统一布置按照统一的表式统一的指标项目统一的报送时间和报送程序自下而上逐级地定期提供统计资料的一种调查方式

  1.统计的研究对象的特点:数量性,总体性,变异性。

  2.统计研究的基本环节:统计设计,收集数据,整理与分析,统计资料的积累、开发与应用。

  3.统计总体:根据一定数目的确定的所要研究的的事物的全体。特点:同质性、大量性。总体可分为有限总体和无限总体。标志:总体各单位普遍具有的属性或特征。标志分为品质标志(表明单位属性,用文字、语言描述)和数量标志(表明单位数量,用数值表现)。

  不变指标:一个总体中各单位有关标志的具体表现都相同。变异指标:在一个总体中,当一个标志在各单位的具体表现有可能都相同。

  第二章

  1.统计调查方式:普查,抽样调查,重点调查,定期报表制度。调查方式按调查的范围划分,可分为全面调查和非全面调查。按时间标志可分为连续性(经常性)调查和不连续性(一次性)调查(一)普查是专门组织的一种全面调查。特点:非经常性调查、最全面调查。(二)抽样调查是一种非全面性调查,可分为概率调查和非概率调查。

  (三)重点调查是指在调查对象中,只选择一部分重点单位进行的非全面调查,它是一种不连续的调查。

  (四)

  定期报表制度又称统计报表制度,它是依照国家有关法规,自上而下地统一布置,按照统一的表式、统一的指标项目、统一的报送时间和报送程序,自下而上逐级地定期提供统计资料的一种调查方式。

  2.我国现行的统计调查体系:以必要的周期性普查为基础,经常性的抽样调查为主体,同时辅之以重点调查、科学推算和部分定期报表综合运用的统计调查方法体系。

  3.调查对象是指需要调查的现象总体。调查单位是指所要调查的具体单位,它是进行调查登记的标志的承担者。

  4.统计分组的原则:穷尽原则和互斥原则。(先分后组)间断型分组和连续型分组,等距和异距注意事项

  第三章

  1.简单算术平均数121

  n

  i

  n

  ix

  xxxxn

  n

  =++

  +==

  ∑2.加权算术平均数

  11221121

  n

  ii

  nn

  in

  n

  i

  ixf

  xfxfxfxffff

  ==+++==

  +++∑∑

  3.组距数列的算术平均数

  4.相对数的算术平均数

  5.调和平均数

  6.几何平均数

  7.算术平均数的性质:1

  1

  ,()0nn

  i

  i

  iinxxxx===

  -=∑∑

  8.组距数列的众数112O

  OO

  MMM

  Ld∆=+⨯∆+∆9.组距数列的中位数12MeMMM

  f

  SMLdf--=+⨯∑11.方差(注意与样本方差的区别)P102:10,11题

  第四章

  1.事件的关系和运算:包含,相等,和,差,积,逆,不相容。

  2.概率的计算:古典概型,几何概型加法法则,乘法公式

  条件概率,全概率与贝叶斯公式3.常见的随机变量的期望与方差

  1.大数定理与中心极限定理的思想(再生定理)P109

  2.样本均值的期望等于总体均值,即:()EXμ=

  样本均值的方差是总体方差的1/n,即:2

  ()VarXn

  σ=(有放回抽样)

  样本均值的分布规律:2(,)

  xX

  Nμσ3.样本比例的期望等于总体比例,即()EPρ=样本比例的方差是总体方差的1/n,即:

  (1)()VarPn

  ρρ-=

  (有放回抽样)

  样本均值的分布规律:

  (1)(,

  )

  PNn

  ρρρ-

  5.点估计:矩估计和最大似然估计;区间估计:置信度为1α-的置信区间

  6.总体均值与总体比例的估计对比记忆,形式相同P128:计算题1,2,3题

  1.

  解:样本平均数:X=425,S2n-1=72.049,S14

  =8.488,样本平均数的标准差:XS

  2.1916

  ,

  临界值:1510.05/2

  (

  )

  t-=

  2.1448,抽样极限误差:∆==

  /2(n-1)

  tα=2.1448×2.1916=4.7005,

  所求μ的置信区间为:425-4.70<μ<425+4.70,即(420.30,429.70)。

  2.解:样本平均数X=12.09,S2n-1=0.005,

  S15=0.0707,样本平均数的标准差:XS,临界值:t150.025=2.131,所求μ的置信区间为:(12.09-0.038,12.09+0.038)

  3.解:n=600,p=0.1,nP=60≥5,可以认为n充分大,α=0.05,

  0.0252

  1.96

  zzα==。

  0.0122∆=

  因此,一次投掷中发生1点的概率的置信区间为0.1-0.024<ρ<0.1+0.024,即(0.076,0.124)。

  第六章

  1.

  单个总体均值的检验

  (1)总体为正态分布,总体方差已知(用正态分布)

  (0,1)

  XZN

  (2)总体分布未知,总体方差已知,大样本(用正态分布)

  (0,1)

  XZN=

  (3)总体为正态分布,总体方差未知(用t-分布

  (1)

  Xttn=

  -

  (4)总体分布未知,总体方差未知,大样本(用正态分布)

  (0,1)

  XZN

  3.单个总体比例,检验统计量

  (0,1)

  ZN

  P137:例6-4,p140:例6-6p154:计算题1,2,31.解:(1)提出假设:H0:μ=5H1:μ≠5

  (2)构造检验统计量并计算样本观测值:在H0:μ=5成立条件下:x506.05

  8.42

  -=-2.3570

  (3)确定临界值和拒绝域:Z0.025=1.96∴拒绝域为(][)+∞-∞-,96.196.1,

  (4)做出检验决策∵Z=2.3570>Z0.025=1.96检验统计量的样本观测值落在拒绝域。

  ∴拒绝原假设H0,接受H1假设,认为生产控制水平不正常。3.解:α=0.05时(1)提出假设:H0:μ=60H1:μ≠60

  (2)构造检验统计量并计算样本观测值:在H0:μ=60成立条件下:x4004.1460

  6.612

  -=2.222

  (3)确定临界值和拒绝域Z0.025=1.96∴拒绝域为(][)+∞-∞-,96.196.1,

  (4)做出检验决策:∵Z=2.222>Z0.025=1.96检验统计量的样本观测值落在拒绝域。∴拒绝原假设H0,接受H1假设,认为该县六年级男生体重的数学期望不等于60公斤。α=0.01时(1)提出假设:H0:μ=60H1:μ≠60

  (2)构造检验统计量并计算样本观测值:在H0:μ=60成立条件下:x4004.14606.612

  -=2.222

  (3)确定临界值和拒绝域:Z0.005=2.575∴拒绝域为(][)+∞-∞-,575.2575.2,(4)做出检验决策∵Z=2.222<Z0.005=2.575检验统计量的样本观测值落在接受域。

  ∴不能拒绝H0,即没有显著证据表明该县六年级男生体重的数学期望不等于60公斤。

  第七章

  1.相关关系的种类(1)按相关程度分为:完全相关,不完全相关,不相关(2)按相关方向分为:正相关和负相关(3)按相关形式分为:线性相关和非线性相关(4)按研究变量多少分为:单相关,复相关和偏相关

  3.一元线性回归模型P196:计算题1,2会求回归方程就可以1.解:

  (1)

  7863.073.42505309.334229)())((ˆ2

  2

  ==---=∑∑XXXXYYtttβ,3720.4088.647*7863.08.549ˆ

  ˆ21=-=-=XYββ

  (2)

  ∑∑∑----=

  2

  2

  2

  2)

  ()(]))(([

  YYXXXXYYrt

  t

  t

  t

  999834.025.262855*73.42505309.3342292

  ==,

  6340

  .43)()1(2

  2

  2

  =--=∑∑YYre

  t

  ,

  0889

  .22

  2

  =-=

  ∑ne

  St

  e

  (3)

  :,0:2120≠=ββHH,

  003204

  .073

  .4250530889

  .2)

  (2

  ˆ2

  ==

  -=

  ∑XX

  SSt

  e

  β,

  4120

  .245003204

  .07863

  .0ˆ2

  2

  ˆ

  2ˆ==

  =

  βββSt

  228

  .2)10()2(05.02/==-tntα

  t值远大于临界值2.228,故拒绝零假设,说明2β在5%的显著性水平下通过了显著性检验。

  (4)

  41

  .669800*7863.03720.40=+=fY(万元),

  1429.273.425053)88.647800(12110089.2)()(1122

  2=-++=--++

  =∑

  XXXXnSStfef,

  3767

  .241.6690667.1*228.214.696)2(2/±=±=-±fefSntYα,即有:

  18

  .46764.466≤≤fY

  第九章

  1.平均发展水平

  (1)绝对数时间序列的平均发展水平:时期序列的平均发展水平

  时点序列的平均发展水平(一)时点间隔不等(二)时点间隔相等(2)相对数时间序列的平均发展水平

  2.增长量(逐期增长量累计增长量)

  3.平均增长量=

  4.发展速度(环比发展速度定基发展速度)

  5.增长速度=发展速度-1

  6.平均发展速度与平均增长速度

  P260:计算题1,2

  1.解:

  第一季度的月平均商品流转次数为:

  61

  .1

  1530

  333

  .

  2466

  )1

  4

  /(

  )

  2

  1560

  1510

  1310

  2

  1980

  (

  3/)

  2340

  2170

  2880

  (

  =

  =

  -

  +

  +

  +

  +

  +

  =

  第一季度的平均库存额

  额

  第一季度的月平均销售

  第一季度的平均商品流通费用率为:

  %

  48

  .8

  333

  .

  2466

  209

  3/)

  2340

  2170

  2880

  (

  3/

  202

  195

  230

  =

  =

  +

  +

  +

  +

  =

  )

  (

  额

  第一季度的月平均销售

  费用

  第一季度的月平均流通

  第十章

  1.计划完成程度分析

  (1)衡量计划完成程度必然是以计划作为比较标准,所以计划完成相对数计算公式中的分子与分母不能互换。

  (2)计划完成相对数等于100%,表示刚好完成计划任务。

  (3)如果计划任务是以对比某个基期数增减百分比的形式给出的,则计划完成相对数=x100%

  (4)对于长期计划任务检查计划执行情况的方案有累计法和水平法。

  2.狭义指数的性质:对比性,综合性,平均性

  3.指数的种类

  (1)按其考察范围不同,指数分为个体指数和总指数。

  (2)按指数化指标的性质不同,指数分为数量指标指数和质量指标指数

  (3)按所反映的时间状况不同,指数可分为动态指数和静态指数

  2.综合指数:拉氏指数(把同度量因素固定在基期水平上)

  帕氏指数(把同度量因素固定在报告期水平上)

  马埃指数(把同度量因素固定在基期和报告期的平均水平上)

  理想指数(帕氏指数和拉氏指数的几何平均数)

  P299:计算题1

  1.解:分别按不同公式计算产量指数和出厂价格指数,计算结果如下:

  拉氏指数较大,帕氏指数较小,而理想指数和马埃指数都居中且二者很接近。

篇五:统计案例知识点总结

  反证法原理与独立性检验原理的比较反证法原理在假设h0下如果推出一个矛盾就证明了h0不成立独立性检验原理设在假设h0下下如果出现一个与h0相矛盾的小概率事件就推断h0不成立且该推断犯错误的概率不超过这个小概率一般地假设有两个分类变量x和y它们取值分别为x1x2和y1y2其样本频数列联表称为22列联表为

  基础--综合--能力--创新

  统计案例

  一.回归分析的基本思想及其初步应用:㈠回归分析的定义:我们知道,函数关系是一种确定性关系,而相关关系是一种非确定性关系。回归分析就是对具有相关关系的两个变量进行统计分析的一种常用关系。

  ㈡对具有相关关系的两个变量进行统计分析的步骤为:1)画散点图;2)求回归直线方程;3)用回归直线方程进行预报

  ㈢样本中心:对于一组具有线性相关关系的数据

  b

  n

  (xix)(yiy)

  i1

  n

  (xix)2

  i1

  n

  xiyinxy

  xi1

  ,

  n

  xi2

  2

  nx

  其中

  i1

  1n

  ni1

  xi

  ,y

  1n

  ni1

  yi

  aybx

  称为样本点的中心,回归直线

  过样本点的中心(x,y)。回归直线方程为:

  ㈣线性回归模型:由于两个变量组成的所有样本点不共线,而只是散步在一条直线的附近,所以常用线性回归模型yb.xae来表示。这里的b;a为模型的未知参数,e是y与bx+a之间的误差。

  1)通常e为随机变量,称为随机误差。它的均值E(e)0,方差D(e)2.

  与函数关系不同,在回归模型中,y的值由x和随机因素e共同确定,即x只能解释部分y的变化,因此我们把x称为解释变量,把y称为预报变量。2)线性回归模型的完整表达式为:

  随机误差e的方差越小,用bx+a预报真实值y的精度越高。随机误差是引起预报值与真实值y之间存在误差的原因之一,其大小取决于随机误差的方差。

  另一方面,和为斜率和截距的估计值,它们与真实值a和b之间也存在误差,这种误差是引起预报值与真实值y之间存在误差的另一个原因。

  ㈤残差:在线性回归模型中,e是用b.xa预报真实值y时产生的随机误差,它是一个不可观测的

  量。实际应用中,我们用回归方程yˆbˆ.xaˆ中的yˆ来估计bxa,由于随机误差

  ey(b.xa),所以称

  是随机误差e的估计量。对于样本点(x1,y1)(x2,y2)...(xn,yn)

  1

  基础--综合--能力--创新

  而言,它们的随机误差为eiyibxia,i1,2...n;随机误差估计值为eˆiyiyˆiyibˆxiaˆ,i1,2...n;

  eˆi称为相应于点

  的残差。注意:与偏差yiy区别开来。

  ㈥残差图:

  可以通过残差发现原始数据中的可疑数据,从而判断所建立模型的拟合效果。可以利用图形来分析残差特性,作图时以残差为纵坐标,横坐标为样本编号(或身高数据或体重数据)这样作出的图形叫做残差图。1)注意检查残差较大的样本点,确认采集该样本点过程中是否有人为错误.如果数据采集有错误,应予以纠正,再重新利用线性回归模型拟合数据;如果没有错误,则需寻找其它原因。

  2)残差图中,当残差点比较均匀地落在水平的带状区域中时,就说明选用的模型比较合适。这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高。

  n

  (yiyˆi)2

  3)另外,还可以用R2

  1

  i1n

  (yi

  y)2

  来刻画回归效果。对于已经获取的样本数据,R2表达式

  i1

  n

  中分母“偏差平方和”(yiy)2是一个确定的数。i1

  n

  因此越大,意味着残差平方和(yiyˆi)2越小,即模型拟合效果越好;越小,残差平方和越大,即i1

  模型拟合效果越差。在线性回归模型中,表示解释变量对于预报变量变化的贡献率,越接近于1,表示回归

  的效果越好。是常用的选用模型的指标之一,在实际应用中,应该尽量选择较大的回归模型。

  ㈦一般地,建立回归模型的基本步骤:⑴确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量y;

  ⑵画出解释变量x和预报变量y的散点图,观察它们之间的关系(如是否存在线性关系等)

  ⑶由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程)⑷按一定规则(如最小二乘法)估计回归方程中的参数;

  ⑸得出结果后分析残差图是否有异常(如个别数据对应残差过大,残差呈现不随机的规律性等)。若存在异常,则检查数据是否有误,或模型是否合适等。

  ㈧回归模型的适用范围:⑴回归方程只适用于我们所研究的样本的总体;⑵我们所建立的回归方程一般都有时间性;⑶样本取值的范围会影响回归方程的适用范围;⑷不能期望回归方程得到的预报值就是预报变量的精确值。

  ㈨一般地,比较两个函数模型的拟合程度的步骤如下:

  2

  基础--综合--能力--创新

  ⑴分别建立对应于两个模型的回归方程

  与

  ,

  yf(x,a)e

  yg(x,b)

  即模型1E(e)0,D(e)21和模型2E()0,D()22其中和分别是参数a和b的

  估计值

  ⑵分别计算两个模型的R2值

  ⑶若

  ,则模型1比模型2拟合效果更好;若

  ,则模型2比模型1拟合效果更好。

  ㈩相关系数与相关性检验:

  散点图虽然能帮助我们观察两个变量之间的线性相关关系,但在实际应用中很难说这些点是不

  是分布在某条直线附近。鉴于此,我们必须对x与y作线性相关检验,简称相关性检验。

  对于变量x与y随机抽取到的n对数据(x1,y1)(x2,y2)...(xn,yn),样本的相关系数为:

  n

  n

  (xix)(yiy)

  xiyinx.y

  r

  i1

  i1

  n

  n

  ((xix)2)((yiy)2)

  n

  (

  xi2

  2

  nx)(

  n

  yi2

  n

  2

  y

  )

  i1

  i1

  i1

  i1

  相关系数公式的作用在于:对一组数据之间的线性相关程度作出定量的分析,而不是仅凭画出散点图,肉眼直观地从散点图上的形状粗浅地得出数据之间的线性相关程度。1)相关系数r具有下列性质:

  ⑴r1;⑵r的越接近于1,线性相关程度越强;⑶r的越接近于0,线性相关程度越弱

  2)相关性检验的步骤:

  step1.作统计假设:x与y不具有线性相关关系;

  step2.根据小概率0.05与n2在附表中查出r的一个临界值r0.05;step3.根据样本相关系数公式计算出r的值;

  step4.做统计推断:如果rr0.05,这是表明有95%的把握认为:x与y具有线性相关关系;

  如果rr0.05,这是表明假设成立,认为:x与y不具有线性相关关系,所求的回归直线方程是毫无意义的。

  二.独立性检验的基本思想及其初步应用:㈠不同的“值”表示个体所属不同类别,这样的变量叫做分类变量。㈡列联表:列出两个分类变量的频数表称为列联表。常用等高条形图展示列联表数据的频率特征。

  3

  基础--综合--能力--创新

  ㈢两个事件独立的含义:如果事件A与B的发生彼此互不影响,或者影响可以忽略不计,就可以认为事件A与B是相互独立的。把相互独立事件A与B同时发生,记做“AB”,那么其概率为:P(AB)P(A).P(B)。

  还有其它的公式:P(AB)P(A).P(B);P(AB)P(A).P(B);P(AB)P(A).P(B)

  ㈣独立性检验:

  利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验。

  反证法原理与独立性检验原理的比较

  反证法原理

  在假设H0下,如果推出一个矛盾,就证明了H0不成立

  独立性检验原理

  在假设H0下,如果出现一个与H0相矛盾的小概率事件,就推断H0不成立,且该推断犯错误的概率不超过这个小概率

  一般地,假设有两个分类变量X和Y,它们取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:

  (事件B)Y的取值y1

  (事件B)Y的取值y2

  总计

  (事件A)X的取值x1

  a

  b

  a+b

  c

  (事件A)X的取值x2

  总计

  a+c

  d

  c+d

  b+d

  a+b+c+d

  假设H0:X与Y没有关系,即X与Y独立。则有P(XY)=P(X)P(Y);根据频率近似于概率,故有

  化简得

  因此,

  越小,两者关系越弱;

  基于以上分析,构造随机变量

  越大,两者关系越强;

  ,其中

  为样本容量

  K2的值越小则关系越小,K2的值越大则关系越大。(实际应用中通常要求a,b,c,d都不小于5)

  计算K2的观测值k并与K2作比较。统计学研究发现,在H0成立的情况下,

  即在H0成立的情况下,K2的观测值超过6.635的概率非常小,近似为0.01,是一个小概率事件。若观测值k大于6.635,则有理由判定H0不成立,即“X与Y有关系”。但这种判断会犯错误,犯错误的概率不会超过0.01.*(这里概率计算的前提是H0成立,即H0:两个分类变量没有关系)若要推断的论述为H1“:X与Y有关系”。可以通过频率直观地判断两个条件概率P(Y=y1|X=x1)和P(Y=y1|X=x2)是否相等。如果判断它们相等,就意味着X和Y没有关系;否则就认为它们有关系。由上表可知,在X=x1的情

  4

  基础--综合--能力--创新

  况下,Y=y1的频率为

  ;在X=x2的情况下,Y=y1的频率为

  。因此,如果通过直接计算或等高条形图发

  现和相差很大,就判断两个分类变量之间有关系。

  利用独立性检验原理可以进一步给出推断“两个分类变量有关系”犯错误的概率。具体做法是:

  ⑴根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查下表确定临界值k0

  0.500.400.250.150.100.050.0250.0100.0050.001

  k0

  0.4550.7081.3232.0722.7063.8415.0246.6357.87910.828

  ⑵利用公式计算随机变量K2的观测值k.

  ⑶如果K2的观测值k大于判断规则的临界值k0,即k≥k0,就推断“X与Y有关系”,这种推断犯

  错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,

  或者在样本数据中没有发现足够证据支持结论“X与Y有关系”。

  按照上述规则,把“两个分类变量之间没有关系”错误地判断为“两个分类变量之间有关系”的

  概率不超过

  .

  定义:

  则

  若“X和Y没有关系”则有

  有

  可推出

  即可取

  于是有以下判断规则:

  当W的观测值

  时,就判断“X和Y有关系”;否则,判断“X和Y没有关系”。这里

  足在“X和Y没有关系”的前提下

  为正实数,且满

  ㈤22列联表:

  假设有两个分类变量X和Y,它们的值域分另为{x1,x2}和{y1,y2},其样本频数22列联表为:

  y1

  y2

  总计

  x1

  a

  b

  a+b

  x2

  c

  d

  c+d

  总计a+c

  b+d

  a+b+c+d

  若要推断的论述为H1:“X与Y有关系”,可以利用独立性检验来考察两个变量是否有关系,并且能较精确地给出这种判断的可靠程度.

  具体的做法是,由表中的数据算出随机变量K2的值K2

  n(adbc)2

  ,其中

  (ab)(cd)(ac)(bd)

  nabcd为样本容量,K2的值越大,说明“X与Y有关系”成立的可能性越大.

  5

  基础--综合--能力--创新

  随机变量K2越大,说明两个分类变量,关系越强;反之,越弱。㈥x2(卡方)统计量:

  假设有两个分类变量X和Y,它们的值域分另为{x1,x2}和{y1,y2},其样本频数列联表为:

  y1

  y2

  总计

  x1

  a

  b

  a+b

  x2

  c

  d

  c+d

  总计a+cb+da+b+c+d

  若要推断的论述为H1:“X与Y有关系”,可以利用独立性检验来考察两个变量是否有关系,并且能较精确地给出这种判断的可靠程度。具体的做法是,由表中的数据算出随机变量K2的值(即K的平方)K2=n(ad-bc)2/[(a+b)(c+d)(a+c)(b+d)],其中n=a+b+c+d为样本容量,K2的值越大,说明“X与Y有关系”成立的可能性越大。K2≤3.841时,X与Y无关;K2>3.841时,X与Y有95%可能性有关;K2>6.635时X与Y有99%可能性有关

  高中数学选修2-3第三章统计案例知识点必记

  1.什么是回归分析,它的步骤是什么?答:回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法。其步骤:收集数据作散点图求回归直线方程利用方程进行预报.2.线性回归模型与一次函数有什么不同?答:一次函数模型是线性回归模型的特殊形式,线性回归模型是一次函数模型的一般形式.3.什么是残差?

  答:样本值与回归值的差叫残差,即eˆiyiyˆi.

  4.什么是残差分析?答:通过残差来判断模型拟合的效果,判断原始数据中是否存在可疑数据,这方面的分析工作称为残差分析.5.如何建立残差图?答:以残差为横坐标,以样本编号,或身高数据,或体重估计值等为横坐标,作出的图形称为残差图.观察残差图,如果残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,模型拟合精度越高,回归方程的预报精度越高.6.建立回归模型的基本步骤是什么?答:⑴确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;⑵画出确定好的解释变量和预报变量的散点图,观察它们之间关系(如是否存在线性关系等);⑶由经验确定回归方程类型(如我们观察到数据呈线性关系,则选用线性回归方程y=bx+a);⑷按一定规则估计回归方程中的参数(如最小二乘法);⑸得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性等等),若存在异常,则检查数据是否有误,或模型是否合适等。7.什么是总偏差平方和?

  n

  答:所有单个样本值与样本均值差的平方和,即SST(yiy)2i1

  6

  基础--综合--能力--创新

  8.什么是残差平方和?

  n

  答:回归值与样本值差的平方和,即SSE(yiyˆi)2i1

  9.什么是回归平方和?

  n

  答:相应回归值与样本均值差的平方和,即SSR(yˆiy)2.i1

  10.什么是相关指数?

  n

  (yiyˆi)2

  答:

  R2

  1

  i1n

  (yiy)2

  i1

  11.非线性回归模型的方程是什么?yebxa

  12.如何根据观测数据判断两变量的相关性?

  答:①根据观测数据计算由K2=(a+b)(cn+(da)d-(bac+)c2)(b+d)给出的检验随机变量K2

  的值k,其值越大,说明“X与Y有关系”成立的可能性越大.②当得到的观测数据a,b,c,d都不小于5时,可以通过查阅下表来确定断言“X与Y有关系”的

  可信程度.P(R2k)0.500.400.250.150.100.050.0250.0100.0050.001

  k

  0.4550.7081.3232.0722.7063.8415.0246.6357.87910.828

  说明:当观测数据a,b,c,d中有小于5时,需采用很复杂的精确的检验方法.

  13.常用临界值有哪些?

  得到K2的观察值k常与以下几个临界值加以比较:

  如果k2.706,就有9000的把握因为两分类变量X和Y是有关系;

  如果

  k

  3.841,就有

  95

  00

  的把握因为两分类变量

  X

  和Y

  是有关系;

  如果k6.635,就有9900的把握因为两分类变量X和Y是有关系;如果低于k2.706,就认为没有充分的证据说明变量X和Y是有关系.

  7

篇六:统计案例知识点总结

  统计

  一.简单随机抽样:抽签法和随机数法

  1.一般地,设一个总体含有N个个体(有限),从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等(n/N),就把这种抽样方法叫做简单随机抽样。2.一般地,抽签法就是把总体中的N个个体编号,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取一个号签,连续抽取n次,就得到一个容量为n的样本,这种抽样方法叫做抽签法。

  抽签法的一般步骤:a、将总体的个体编号。b、连续抽签获取样本号码。3.利用随机数表、随机数骰子或计算机产生的随机数进行抽样,叫随机数表法。

  随机数表法的步骤:a、将总体的个体编号。b、在随机数表中选择开始数字。c、读数获取样本号码。4.抽签法的优点是简单易行,缺点是当总体的容量非常大时,费时、费力,又不方便,如果标号的签搅拌得不均匀,会导致抽样不公平,随机数表法的优点与抽签法相同,缺点上当总体容量较大时,仍然不是很方便,但是比抽签法公平,因此这两种方法只适合总体容量较少的抽样类型。二.系统抽样:

  1.一般地,要从容量为N的总体中抽取容量为n的样本,可将总体分成均衡的若干部分,然后按照预先

  制定的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样的方法叫做系统抽样。

  系统抽样的一般步骤:

  (1)采用随机抽样的方法将总体中的N个个编号。

  (2)将整体按编号进行分段,确定分段间隔k=N/n。(k∈N,L≤k).

  (3)在第一段用简单随机抽样确定起始个体的编号L(L∈N,L≤k)。

  (4)按照一定的规则抽取样本,通常是将起始编号L加上间隔k得到第2个个体编号L+K,再加

  上K得到第3个个体编号L+2K,这样继续下去,直到获取整个样本。

  在确定分段间隔k时应注意:分段间隔k为整数,当N/n不是整数时,应采用等可能剔除的方剔除部分

  个体,以获得整数间隔k。

  三.分层抽样:

  1.一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的

  个体,将各层取出的个体合在一起作为样本,这种抽样的方法叫分层抽样。

  分层抽样的步骤:

  (1)分层:按某种特征将总体分成若干部分。(2)按比例确定每层抽取个体的个数。

  (3)各层分别按简单随机抽样的方法抽取。(4)综合每层抽样,组成样本。

  2.分层抽样是当总体由差异明显的几部分组成时采用的抽样方法,进行分层抽样时应注意以下几点:

  (1)分层抽样中分多少层、如何分层要视具体情况而定,总的原则是,层内样本的差异要小,面

  层之间的样本差异要大,且互不重叠。

  (2)为了保证每个个体等可能入样,所有层应采用同一抽样比等可能抽样。

  (3)在每层抽样时,应采用简单随机抽样或系统抽样的方法进行抽样。

  四.用样本的频率分布估计总体分布:

  1.频率分布是指一个样本数据在各个小范围内所占比例的大小。一般用频率分布直方图反映样本的频率

  分布。

  其一般步骤为:(1)计算一组数据中最大值与最小值的差,即求极差(2)决定组距与组数

  (3)将数据分组(4)列频率分布表

  (5)画频率分布直方图

  2.频率分布折线图、总体密度曲线

  频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图。

  总体密度曲线:在样本频率分布直方图中,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线。它能够精确地反映了总体在各个范围内取值的百分比,给我们提供更加精细的信息。3.当数据是两位有效数字时,用中间的数字表示十位数,即第一个有效数字,两边的数字表示个位数,即第二个有效数字,它的中间部分像植物的茎,两边部分像植物茎上长出来的叶子,因此通常把这样的图叫做茎叶图。茎叶图的特征:

  (1)用茎叶图表示数据有两个优点:一是从统计图上没有原始数据信息的损失,所有数据信息都可以从茎叶图中得到;二是茎叶图中的数据可以随时记录,随时添加,方便记录与表示。(2)茎叶图只便于表示两位有效数字的数据,而且茎叶图只方便记录两组的数据,两个以上的数据虽然能够记录,但是没有表示两个记录那么直观,清晰。五.用样本的数字特征估计总体的数字特征:1.众数、中位数、平均数、方差、标准差的求法。

  s2

  

  1n[(x1

  

  x)2

  (x2

  

  x)2

  L

  (xnx)2]

  s

  1n

  [(x1

  

  x)2

  

  (x2

  

  x)2

  L

  (xnx)2]

  六.变量之间的相关关系:1.相关关系:两个变量之间的关系可能是确定的关系(如:函数关系),或非确定性关系。当自变量取值一定时,因变量也确定,则为确定关系;当自变量取值一定时,因变量带有随机性,这种变量之间的关系称为相关关系。相关关系是一种非确定性关系。2.散点图的概念:将各数据在平面直角坐标中的对应点画出来,得到表示两个变量的一组数据的图形,这样的图形叫做散点图。(1.如果所有的样本点都落在某一函数曲线上,就用该函数来描述变量之间的关系,即变量之间具有函数关系.2.如果所有的样本点都落在某一函数曲线附近,变量之间就有相关关系。3.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系)。3.正相关与负相关概念:如果散点图中的点散布在从左下角到右上角的区域内,称为正相关。如果散点图中的点散布在从左上角到右下角的区域内,称为负相关。(注:散点图的点如果几乎没有什么规则,则这两个变量之间不具有相关关系)4.从散点图上可以看出,这些点大致分布在通过散点图中心的一条直线。如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这这两个变量之间具有线形相关关系,直线叫回归直线。5.教学最小二乘法:(1)求回归方程的关键是如何用数学的方法刻画"从整体上看,各点与此直线的距离最小".(2)最小二乘法公式:求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法。

  x

  

  1n

  ni1

  xi

  n

  lxx(xix)2i1

  题型一抽样方法

  y

  

  1n

  ni1

  yi

  n

  lxy(xix)(yiy)i1

  例1(1)某高校甲、乙、丙、丁四个专业分别有150、150、400、300名学生,为了解学生的就业倾向,

  用分层抽样的方法从该校这四个专业共抽取40名学生进行调查,应在丙专业抽取的学生人数

  为

  .

  (2)利用简单随机抽样的方法,从n个个体(n>13)中抽取13个个体,依次抽取,若第二次抽取后,

  余下的每个个体被抽取的概率为1,则在整个抽样过程中,每个个体被抽取的概率为36

  变式1:某公司生产三种型号的轿车,产量分别为1200辆,6000辆和2000辆.为检验该公司的产品质量,

  现用分层抽样的方法抽取46辆进行检验,这三种型号的轿车依次应抽取

  ____,

  ____,____辆.变式2:经问卷调查,某班学生对摄影分别执“喜欢”、“不喜欢”和“一般”三种态度,其中执“一般”态度的比“不喜欢”态度的多12人,按分层抽样方法从全班选出部分学生座谈摄影,如果选出的5位“喜欢”摄影的同学、1位“不喜欢”摄影的同学和3位执“一般”态度的同学,那么全班学生中“喜欢”摄影的比全班人数的一半还多人.题型二统计图表问题

  例2从一条生产线上每隔30分钟取一件产品,共取了n件,测得其产品尺寸后,画得其频率直方图如下.尺寸在[15,45)内的频数为46.(1)求n的值;(2)求尺寸在[20,25)内产品的个数.

  变式3:⑴有一个容量为100的样本,数据的分组及各组的频数如下:[12.5,15.5],6;[15.5,18.5],16;[18.5,21.5],18;[21.5,24.5],22;[24.5,27.5),20;[27.5,30.5),10;[30.5,33.5),8.①列出样本的频率分布表;②画出频率分布直方图;③估计数据小于30.5的概率

  题型三平均数、标准差(方差)的计算问题

  例3一次歌手大奖赛上,七位评委为歌手打出的分数如下:

  9.48.49.49.99.69.49.7

  去掉一个最高分和一个最低分后,所剩数据的平均值和方差分别为()

  A.9.4,0.484B.9.4,0.016

  C.9.5,0.04

  D.9.5,0.016

  变式4:x是x1,x2K,x100的平均数,a是x1,x2K,x40的平均数,b是x41,x42K,x100的平均数,则x,

  a,b之间的关系为

  .

  变式5:某人5次上班途中所花时间(单位:分钟)分别为x、y、10、11、9.已知这组数据的平均

  数为10,方差为2,则xy的值为()

  A.1

  B.2

  题型四线性回归分析

  C.3

  D.4

  例4下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨

  标准煤)的几组对照数据:

  x

  3

  4

  5

  6

  y

  2.5

  3

  4

  4.5

  (1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性

  回归方程yb$xa$;

  (3)已知该厂技术改造前100吨甲产品能耗为90吨标准煤;试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技术改造前降低多少吨标准煤?

  变式6:为了分析某个高三学生的学习状态,对其下一阶段的学习提供指导性建议.现对他前7次考试

  的数学成绩x、物理成绩y进行分析.下面是该生7次考试的成绩.

  888811199110110111数学8372802

  999911099110110110物理4186416(1)他的数学成绩与物理成绩哪个更稳定?请给出你的证明;

  (2)已知该生的物理成绩y与数学成绩x是线性相关的,若该生的物理成绩达到115分,请你估计他的

  数学成绩大约是多少?并请你根据物理成绩与数学成绩的相关性,给出该生在学习数学、物理上的合理建议.

篇七:统计案例知识点总结

  统计与统计案例知识点及题型归纳

  知识点精讲

  一、抽样方法

  三种抽样方式的对比,如表13-7所示。

  类型

  共同点

  各自特点

  相互关系

  使用范围

  简单随机抽样

  从总体中随机逐个抽取

  总体容量较小

  抽样过程都是总体均分几段,每段T第一段简总体中的个体

  不放回抽样,每个,

  单随机抽个数较多

  系统抽样

  个个体被抽到第一段取a1,的机会均等,总第二段取a1+T,

  样

  体容量N,样本第三段取a1+2T,

  容量n,每个个……

  体被抽到的概将总体分成n层,每层每层按简总体由差异明

  分层抽样

  率PnN

  按比例抽取

  单随机抽显的几部分组样或系统成

  抽样

  二、样本分析

  (1)样本平均值:x

  1n

  ni1

  xi

  。

  (2)样本众数:样本数据中出现次数最多的那个数据。

  (3)样本中位数:将数据按大小排列,位于最中间的数据或中间两个数据的平均数。

  (4)样本方差:

  s2

  1n

  ni1

  (xi

  x)2

  。

  众数、中位数、平均数都是描述一组数据集中趋势的量,方差是用来描述一组数据波动情况的特征数。

  三、频率分布直方图的解读

  (1)频率分布直方图的绘制

  ①由频率分布表求出每组频数ni;

  ②求出每组频率Pi

  niN

  (n

  为样本容量);

  ③列出样本频率分布表;

  ④画出样本频率分布直方图,直方图横坐标表示各组分组情况,纵坐标为每组频率与组距比值,各小

  长方形的面积即为各组频率,各小长方形的面积总和为1。

  (2)样本估计总体

  步骤:总体→抽取样本→频率分布表→频率分布直方图→估计总体频率分布。

  样本容量越大,估计越精细,样本容量无限增大,频率分布直方图无限无限趋近概率分布密度曲线。

  (3)用样本平均数估计总体平均数,用样本标准差估计总体标准差。

  公式:aXbaxb,s2(aX+b)=a2s2(X)。四、线性回归线性回归是研究不具备确定的函数关系的两个变量之间的关系(相关关系)的方法。对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程$yb$xa$的求法为

  n

  n

  (xix)(yiy)

  xiyinxy

  b$i1n

  a$

  y

  (xi

  i1

  b$x

  x)2

  i1n

  xi2

  2

  nx

  i1

  其中,

  x

  1n

  ni1

  xi

  ,

  y

  1n

  ni1

  yi

  ,(

  x,

  y

  )称为样本点的中心。

  步骤:画散点图,如散点图中的点基本分布在一条直线附近,则这条直线叫这两个变量的回归直线,

  直线斜率k>0,称两个变量正相关;k<0,称两个变量负相关。

  五、独立性

  独立性检验是判断两个分类变量是否存在相关关系的案例分析方法。

  步骤为列出22列联表(如表13-8所示),求出K2

  n(adbc)2

  ,并判断:

  (ab)(cd)(ac)(bd)

  表13-8

  A1

  A2

  合计

  B1

  a

  c

  a+c

  B2

  b

  d

  b+d

  合计

  a+b

  c+d

  n=a+b+c+d

  若K2>10.828,有99.9%把握称“A取A1或A2”对“B取B1,B2”有关系;

  若10.828K2>6.635,有99%把握称“A取A1或A2”对“B取B1,B2”有关系;若6.635K2>3.841,有95%把握称“A取A1或A2”对“B取B1,B2”有关系;若K23.841,没有把握称A与B相关。

  题型归纳及思路提示

  题型1抽样方式

  思路提示

  根据所抽取的对象与要求,若抽取的对象中有明显差异,考虑用分层抽样,否则选择简单随机抽样或

  系统抽样。当总体中的个体较少时,常采用简单随机抽样;当总体中的个体较多时,常采用系统抽样。

  例13.16某地区有小学150所,中学75所,大学25所。现采用分层抽样的方法从这些学校中抽取30

  所学校对学生进行视力调査,应从小学中抽取

  所学校,中学中抽取所学校。

  解析:本地区共有学校

  150+75+25=250(所),所以从小学中应抽取

  30

  150250

  18(所),从中学中抽取

  30

  75250

  9

  (所)。

  变式1采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,

  分组后在第一组采用简单随机抽样的方法抽到的号码为9。抽到的32人中,编号落入区间[1,450]的人做

  问卷A,编号落入区间[451,750]的人做问卷B,其余的人做问卷C。则抽到的人中,做问卷B的人数为()。

  A.7

  B.9

  C.10

  D.15

  变式2某校共有学生2000名,各年级男、女生人数如表13-9所示,已知在全校学生中任取一名,抽

  到二年级女生的概率为0.19,现用分层抽样的方法,在全校抽取64名学生,则应在三年级抽取的学生人

  数为()。

  表13-9

  一年级二年级三年级

  女生

  373

  x

  y

  男生

  377

  370

  z

  变式3某企业三月中旬生产A,B,C三种产品其3000件,根据分层抽样的结果,企业统计员制作了

  统计表格,如表13-10所示,由于不小心,表格中的A,C产品的有的有关数据被污染看不清楚,统计员

  记得A产品样本容量比C产品的样本容量多10,由此可得C产品数量为_______。

  表13-10

  产品类型

  A

  B

  C

  产品数量(件)

  1300

  产品样本数量(件)

  130

  题型2样本分析——用样本估计总体

  思路提示

  对样本进行分析并用样本估计总体,包括用样本数字特征估计总体数字特征和用样本的频率分布估计

  总体的频率分布。在进行样本分析时,应从统计图表中获取数据。体现在以下几个方面:(1)在频率分布

  直方图中,长方形面积=组距频组率距=频率,即随机变量的概率;(2)对于频数、频率、样本容量,已知其二必可求第三个;(3)随机变量在各组数据内的频数之和为样本容量。

  例13.17:某车间共有12名工人,随机抽取6名,他们某日加工零件个数的茎叶图如图13-16所示,其中茎为十位数,叶为个位数。

  179

  2015

  30图13-16

  (1)根据茎叶图计算样本均值;(2)日加工零件个数大于样本均值的工人为优秀工人,根据茎叶图推断该车间12名工人中有几名优秀

  工人;

  (3)从该车间12名工人中,任取2人,求恰有1名优秀工人的概率。

  分析:阅读茎叶图得出样本数据,利用平均数公式计算出样本均值。(2)根据样本算出优秀工人的比

  例,再估计12人中优秀工人的个数。(3)用组合数公式求出所有可能的组合的个数和符合条件“恰有1名

  优秀工人”的组合的个数,利用古典概型概率公式进行计算。

  解析:(1)由茎叶图可知,样本数据为17,19,20,21,25,30,则样本均值

  x

  17

  19

  20

  6

  21

  25

  30

  22

  ,故样本均值为

  22。

  (2

  )日加工零件个数大于样本均值的工人有

  2

  名,故优秀工人的频率为

  26

  13

  ,该车间

  12

  名工人中优

  秀工人大约有

  12

  26

  4

  (名),故该车间约有

  4

  名优秀工人。

  (3)记“恰有

  1

  名优秀工人”为事件

  A,其包含的基本事件个数为

  C

  14

  C

  18

  =32,所有基本事件的总数为

  C

  212

  =66,由古典概型概率公式,得

  P(

  A)

  3266

  1633

  。所以恰有

  1

  名优秀工人的概率为

  1633

  。

  变式1从甲乙两个城市分别随机抽取16台自动售货机,对其销售额进行统计,统计数据用茎叶图表

  示(如图13-17所示),设甲乙两组数据的平均数分别为x甲,x乙,中位数分别为m甲,m乙,则()。

  甲

  乙

  8650

  884001028

  752202337

  800312448

  314238图13-17

  A.x甲<x乙,m甲>m乙

  B.x甲<x乙,m甲<m乙

  C.x甲>x乙,m甲>m乙

  D.x甲>x乙,m甲<m乙

  变式2某农场计划种植某种新作物,为此对这种作物的两个品种(分别称为品种甲和品种乙)进行田间试验。选取两大块地,每大块地分成n小块地,在总共2n小块地中,随机选n小块地种植品种甲,另外n小块地种植品种乙。

  (1)假设n=4,在第一大块地中,种植品种甲的小块地的数目记为X,求X的分布列和数学期望;(2)试验时每大块地分成8小块,即n=8,试验结束后得到品种甲和品种乙在各小块地上的每公顷产量

  (单位:kg/hm2)如表13-11所示。表13-11

  品种甲403397390404388400412406

  品种乙419403412418408423400413

  分别求品种甲和品种乙的每公顷产量的样本平均数和样本方差;根据试验结果你认为应该种植哪一品

  种?

  附:样本数据x1,x2,…,xn的样本方差s2

  1n

  [(x1

  x)2

  (x2

  x)2

  L

  (xnx)2],其中x为样本平均

  数。

  例13.18某次有1000人参加的数学摸底考试,其成绩的频率分布直方图如图13-18所示,规定85分

  及其以上为优秀。

  (1)表13-12所示的是这次考试成绩的频数分布表,求正整数a,b的值;

  表13-12

  区间[75,80)[80,85)[85,90)[90,95)[95,100]

  人数

  50

  a

  350

  300

  b

  (2)现在要用分层抽样的方法从这1000人中抽取40人的成绩进行分析,求其中成绩为优秀的学生人数;

  (3)在(2)中抽取的40名学生中,要随机选取2名学生参加座谈会,记“其中成绩为优秀的人数”为X,求X的分布列与数学期望。

  频率0.07组距0.060.050.040.030.020.01075

  分数

  808590图13-18

  95100

  解析:(1)由频率分布直方图可知,a=0.451000=200,b=0.0251000=100。

  (2)设抽取的

  40

  人中成绩为优秀的学生人数为

  x,则

  x40

  350

  3001000

  100

  ,解得

  x=30,即其中成绩为

  优秀的学生人数为30名。

  (3)依题意,随机变量X的可能取值为:0,1,2。

  且P(X

  0)

  C120C240

  352

  ,

  P(

  X

  1)

  C110C110C240

  513

  ,

  P(X

  2)

  C220C240

  29,所以X52

  的分布列为:

  X0

  1

  2

  P

  3

  5

  29

  521352

  数学期望为

  E(X

  )

  0

  352

  1

  513

  2

  2952

  32

  。

  变式1某班50名同学在一次百米测试中的成绩全部介于13秒和19秒之间,将测试结果按如下方式

  分成六组:

  第一组,成绩大于等于13秒且小于14秒;

  第二组,成绩大于等于14秒且小于15秒;

  ……

  第六组,成绩大于等于18且小于19秒。

  如图13-19所示是由上述分组方法得到的频率分布直方图,设成绩小于17秒的学生占全班总人数的

  百分比为x,成绩大小等于15秒且小于17秒的学生人数为y,则从频率分布直方图中可分析出x和y分

  别为()。

  A.0.9,35

  B.0.9,45

  C.0.1,35

  D.0.1,45

  频率/组距

  0.360.34

  0.18

  0.060.040.02

  013141516171819(秒)图13-19

  变式2(2012安徽理5)甲、乙两人在一次射击比赛中各射靶5次,两人成绩的条形统计图如图13-20所示,则()。

  3频数21

  3频数21

  0345678910环数0345678910环数

  (甲)

  (乙)

  图13-20

  A.甲的成绩的平均数小于乙的成绩的平均数

  B.甲的成绩的中位数等于乙的成绩的中位数

  C.甲的成绩的方差小于乙的成绩的方差

  D.甲的成绩的极差小于乙的成绩的极差

  题型3线性回归方程思路提示首先通过对散点图观察分析是否为线性回归,若为线性回归则利用最小二乘法求出回归直线方程。具体步骤为:

  (1)求

  x

  ,

  y

  ,

  2

  x

  ,

  x

  y

  ;

  n

  (2)求xiyi;i1

  n

  (3)xi2;i1

  n

  xiyinxy

  (4)代入公式,求b$i1

  ;

  n

  xi2

  2

  nx

  i1

  (5)代入公式求,a$yb$x,代入直线方程得$y=b$x+a$。

  这里要注意的是回归直线恒过样本中心点(x,y)。

  例13.19如表13-13所示,其中提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)

  与相应的生产耗能y(吨)标准煤的几组对照数据。

  表13-13

  x

  3

  456

  y2.53.44.5

  (1)请画出表示数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程$y=b$x+a$;

  (3)已知该厂技改前100吨产品的生产耗能为90号标准煤,试根据(2)求得的回归方程,预测生产100吨甲产品耗能比技改前降低多少吨标准煤?

  (参考数值:32.5+43+54+64.5=66.5)。解析:(1)由题设所给数据,可得散点图(如图13-21所示)上的点基本在一条直线附近,数据正相关,存在回归方程。

  y(吨标准煤)54.54

  32.5

  2

  1

  O

  123456x(吨甲产品)

  图13-21

  n

  (2)由表

  13-14

  所示可知,b$

  (xi

  i1

  n

  x)(yi(xix)2

  y)

  =

  3.55

  =0.7

  ,

  a$

  yb$x

  =0.35,即

  x,y

  的回归方程为

  i1

  $y=0.7x+0.35。

  表13-14

  xi

  xi-x

  (xi-x)2

  (xi-x)(yi-y)

  yi-y

  yi

  3

  -1.5

  2.25

  1.5

  -1

  2.5

  4

  -0.5

  0.25

  0.25

  -0.5

  3

  5

  0.5

  0.25

  0.25

  0.5

  4

  6

  1.5

  2.25

  1.5

  1

  4.5

  x=4.5

  4

  (xix)2=5

  i1

  4

  (xix)(yiy)=3.

  i1

  5

  y=3.5

  (3)由(2)的回归方程及技改前生产100吨甲产品的生产耗能,得节省的生产耗能为

  90-(0.7100+0.35)=19.5(吨)标准煤。评注:(1)两个变量是否具有相关关系,主要依据散点图加以判断,看变量对应的点是否分布在一条

  直线附近,若是,则具有相关关系;否则不具有相关关系;(2)用公式计数为,a$,b$的值时,要先算b$的

  值,然后才能算a$。变式1某产品的广告费用x与销售额y的统计数据如表13-15所示。

  表13-15

  广告费用x(万元)

  4

  2

  3

  5

  销售额y(万元)

  49

  26

  39

  54

  根据表13-15可得回归方程$y=b$x+a$中的b$为9.4,据此模型预报首先费用为6万元时销售额为()。

  A.63.6万元B.65.5万元C.67.7万元D.72.0万元变式2调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收

  入x与年饮食支出y具有线性相关关系,并出调查数据得到y对x的回归直线方程:$y=0.254x_0.321。

  由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加_______万元。变式3设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据

  (xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为$y=0.85x-85.71,则下列结论中不正确的是

  A.y与x具有正的线性相关关系

  B.回归直线过样本点的中心(x,y)

  C.若该大学某女生身高增加1cm,则其体重约增加0.85kgD.若该大学某女生身高为170cm,则可断定其体重比为58.79kg

  题型4独立性检验

  思路提示

  独立性检验是判断两个分类变量是否存在相关关系的案例分析方法,它与概率中事件的独立性不同,

  具体步骤为:

  (1)列出22列联表;

  (2)求K2

  n(adbc)2

  ;

  (ab)(cd)(ac)(bd)

  (3)最后根据临界值作出判断。

  例13.20为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样调查了500位老人,结果如

  表13-16所示。

  男

  女

  需要

  40

  30

  不需要

  160

  270

  (1)估计该地区老年人中,需要志愿者提供帮助的老年人比例;

  (2)能否有99%的把握认为该地区的老年人是否需要志愿者帮助与性别相关?

  (3)根据(2)的结论,能否提出更好的调查方法估计该地区老年人中,需要志愿者提供帮助的老年人的

  比例?说明理由。

  解析:(1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要帮助的老

  年人的比例估计值为70=14。500100

  (2)列出22列联表(如表13-17所示)。

  表13-17

  男女合计

  需要

  403070

  不需要

  160270430

  合计

  200300500

  K2

  500(4027030160)220030070430

  9.967。

  由于9.967>6.635,所以有99%的把握认为该地区的老年人是否需要志愿者帮助与性别有关。

  (3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出,该地区男性老

  年人与女性老年人中需要帮助的比例有明显差异,因此在调查中,先确定该地区老年人中男、女的比例,

  再把老年人分成男、女两层并采用分层抽样方法比采用简单随机抽样方法更好。变式1为比较注射A,B两种药物产生的皮肤疱疹的面积,选200只家兔作试验,将这200只家兔随

  机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B。表13-18和表13-19所示的分别是注射药物A和药物B后皮肤疱疹面积的频率分布(疱疹面积单位:mm2)。

  表13-18

  疱疹[60,65)[65,70)[70,75)[75,80]

  频数

  30

  40

  20

  10

  表13-19

  疱疹面积[60,65)[65,70)[70,75)[75,80][80,85)

  频数

  10

  25

  20

  30

  15

  (1)完成图13-22和图13-23所示的分别注射药物A,B后皮肤疱疹面积的频率分布直方图,并比较注

  射两种药物后疱疹面积的中位数大小;

  频率/组距

  0.080.070.060.050.040.030.020.01

  频率/组距

  0.080.070.060.050.040.030.020.01

  0606570758085疱疹面积0606570758085疱疹面积

  图13-22

  图13-23

  (2)完成表13-20所示的2×2列联表,并回答能否有99.9%的把握认为注射药物A后的疱疹面积与注射

  药物B的疱疹面积有差异.

  疱疹面积小于70mm2疱疹面积不小于70mm2

  合计

  注射药物A

  a=

  b=

  注射药物B

  c=

  d=

  合计

  附:K2

  n(adbc)2

  .

  (ab)(cd)(ac)(bd)

  P(K2k)0.1000.0500.0250.0100.001

  k

  2.7063.8115.0216.63510.828

  变式2电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查.

  下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:

  将日均收看该体育节目时间不低于40分钟的观众称为“体

  育迷”

  (1)根据已知条件完成下面的22列联表,并据此资料

  你是否认

  为“体育迷“与性别有关?

  非体育迷体育迷合计

  男

  女

  10

  55

  合计

  (2)将上述调查所得到的频率视为概率.现在从该地区大

  量电视观

  众中,采用随机抽样方法每次抽取1名观众,抽取3次,记被抽取的3名观众中的“体育迷“人数为X.

  若每次抽取的结果是相互独立的,求X的分布列,期望EX和方差DX

  附:2=n

  n11n22-n12n21

  2

  ,

  n1+n2+n+1n+2

  P2k

  0.05

  k

  3.841

  0.016.635

  有效训练

  1.变量X与Y的卡方统计量K2的值,下列说法正确的是()

  A.K2越大,“X与Y有关系”可信度越小

  B.K2越小,“X与Y有关系”可信度越小

  C.K2越接近0,“X与Y无关”程度越小

  D.K2越大,“X与Y无关”程度越大

  2.甲乙两名同学在5次体育测试中的成绩如图13-25所示,则有()

  A.x甲x乙,乙比甲稳定

  B.x甲x乙,甲比乙稳定

  C.x甲x乙,乙比甲稳定

  D.x甲x乙,甲比乙稳定

  十位

  甲

  乙

  数字

  87278

  6828

  2915

  个位数字

  个位数字

  图13-25

  3.为了了解某地区高三学生的身体状况,抽查了该地区100名17.5~18岁的男生体重(千克),得到频

  率分布直方图(如图13-26所示).由图知这100名学生在[56.5,64.5)的学生人数为()

  A.20

  B.30

  C.40

  D.50

  4.设两个变x和y之间具有线性相关关系,它们的相关系数是r,y关于x的回归直线的斜率是b,纵截

  距是a,那么必有()

  A.b与r符号相同B.a与r符号相同

  C.b与r符号相反D.a与r符号相反

  5.通过随机询问110名性别不同的大学生是否爱好某项运动,得到台表13-23所示的2×2列联表.

  表13-23

  男

  女

  总计

  爱好

  40

  20

  60

  不爱好

  20

  30

  50

  总计

  60

  50

  100

  由K2

  n(adbc)2

  算得:K2

  110(40302020)2

  7.8.

  (ab)(cd)(ac)(bd)

  60506050

  附表13-24:

  P(K2k)

  0.050

  0.010

  0.001

  k

  3.841

  6.635

  10.828

  参照表13-24,得到正确的结论是()

  A.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”

  B.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”

  C.有99%以上的把握认为“爱好该项运动与性别有关”

  D.有99%以上的把握认为“爱好该项运动与性别无关”

  6.设(x1,y1),(x2,y2),ggg,(xn,yn)是娈量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得

  到的线性回归直线(如图13-27所示),以下结论中正确的是()

  yl

  O

  x

  图13-27

  A.x和y的相关系数为直线l的斜率B.x和y的相关系数在0到1之间C.当n为偶数时,分布在l两侧的样本点的个数一定相同

  D.直线l通过点(x,y)

  7.某学校高一、高二、高三年级的学生人数之比为3:3:4,现用分层抽样的方法从该校高中三个年级的

  学生中抽取容量为50的样本,则应从高二年级抽取

  名学生.

  8.某学校食堂随机调查了一些学生是否因距离远近而选择食堂就餐的情况,经计算得到K2=4.932.所以判

  定距离远近与选择食堂有关系,那么这种判断出错的可能性为

  .

  附表13-25:

  P(K2k)k

  0.0503.841

  0.0106.635

  0.00110.828

  9.某数学老师身高176cm,他爷爷,父亲,儿子的身高分别是173cm,170cm和182cm,因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高是

  Cm.10.已知样本X:

  10881013810121178911912910111212

  则:(1)x

  ;(2)s2(x)

  .

  11.为调查某社区居民的业余生活状况,研究这一社区居民在20:00~22:00时间段的休闲方式与性别

  关系,随机调查了该社区80人,得到下面的数据表(如表13-26所示).

  表13-36

  休闲方式

  看电视

  看书

  合计

  性别

  男

  10

  50

  60

  女

  10

  10

  20

  合计

  20

  60

  80

  (1)将此样本的频率估计为总体的概率,随机调查3名在该社区的男性,设调查的3人在这一时间段以看书为休闲方式的人数为随机变量X,求X的分布列和数学期望;(2)根据以上数据,能否有99%的把握认为“在20:00~22:00时间段居民的休闲方式与性别有关系”?

  参考公式:K2

  n(adbc)2

  ,其中n=a+b+c+d.

  (ab)(cd)(ac)(bd)

  参考数据(如表13-27)

  P(K2k)0.15

  0.10

  0.05

  0.0250.010

  k

  2.072

  2.706

  3.841

  5.024

  6.635

  12.某种产品的广告费支出现x与销售额y(单位:万元)之间有如表13-28所示的对应数据:

  表13-28

  x

  2

  4

  5

  6

  8

  y

  30

  40

  60

  50

  70

  (1)画出散点图;

  (2)求回归直线方程;

  (3)若实际销售额不低于82.5万元,则广告费支出最少是多少万元?

篇八:统计案例知识点总结

  概率统计知识点总结

  概率统计知识点总结概率统计是研究自然界中随机现象统计规律的数学方法,叫做概率统计,又称数理统计方法。本篇

  概率统计知识点总结由小编为需要此素材的朋友精心收集整理,仅供参考。内容如下:一.算法,概率和统计1.算法初步(约12课时)(1)算法的含义、程序框图①通过对解决具体问题过程与步骤的分析(如,二元一次方程组求解等问题),体会算法的思想,

  了解算法的含义。②通过模仿、操作、探索,经历通过设计程序框图表达解决问题的过程。在具体问题的解决过程中

  (如,三元一次方程组求解等问题),理解程序框图的三种基本逻辑结构:顺序、条件分支、循环。(2)基本算法语句经历将具体问题的程序框图转化为程序语句的过程,理解几种基本算法语句--输入语句、输出语句、

  赋值语句、条件语句、循环语句,进一步体会算法的基本思想。(3)通过阅读中国古代数学中的算法案例,体会中国古代数学对世界数学发展的贡献。3.概率(约8课时)(1)在具体情境中,了解随机事件发生的不确定性和频率的稳定性,进一步了解概率的意义以及

  频率与概率的区别。(2)通过实例,了解两个互斥事件的概率加法公式。(3)通过实例,理解古典概型及其概率计算公式,会用列举法计算一些随机事件所含的基本事件

  数及事件发生的概率。(4)了解随机数的意义,能运用模拟方法(包括计算器产生随机数来进行模拟)估计概率,初步

  体会几何概型的意义(参见例3)。(5)通过阅读材料,了解人类认识随机现象的过程。2.统计(约16课时)(1)随机抽样①能从现实生活或其他学科中提出具有一定价值的统计问题。②结合具体的实际问题情境,理解随机抽样的必要性和重要性。③在参与解决统计问题的过程中,学会用简单随机抽样方法从总体中抽取样本;通过对实例的分析,

  了解分层抽样和系统抽样方法。④能通过试验、查阅资料、设计调查问卷等方法收集数据。(2)用样本估计总体①通过实例体会分布的意义和作用,在表示样本数据的过程中,学会列频率分布表、画频率分布直

  方图、频率折线图、茎叶图(参见例1),体会他们各自的特点。②通过实例理解样本数据标准差的意义和作用,学会计算数据标准差。③能根据实际问题的需求合理地选取样本,从样本数据中提取基本的数字特征(如平均数、标准

  差),并作出合理的解释。④在解决统计问题的过程中,进一步体会用样本估计总体的思想,会用样本的频率分布估计总体分

  布,会用样本的基本数字特征估计总体的基本数字特征;初步体会样本频率分布和数字特征的随机性。⑤会用随机抽样的基本方法和样本估计总体的思想,解决一些简单的`实际问题;能通过对数据的

  分析为合理的决策提供一些依据,认识统计的作用,体会统计思维与确定性思维的差异。⑥形成对数据处理过程进行初步评价的意识。(3)变量的相关性①通过收集现实问题中两个有关联变量的数据作出散点图,并利用散点图直观认识变量间的相关关

  系。②经历用不同估算方法描述两个变量线性相关的过程。知道最小二乘法的思想,能根据给出的线性

  回归方程系数公式建立线性回归方程。二.常用逻辑用语1。命题及其关系①了解命题的逆命题、否命题与逆否命题。②理解必要条件、充分条件与充要条件的意义,会分析四种命题的相互关系。(2)简单的逻辑联结词通过数学实例,了解"或"、"且"、"非"的含义。(3)全称量词与存在量词①通过生活和数学中的丰富实例,理解全称量词与存在量词的意义。②能正确地对含有一个量词的命题进行否定。3.导数及其应用(约16课时)(1)导数概念及其几何意义①通过对大量实例的分析,经历由平均变化率过渡到瞬时变化率的过程,了解导数概念的实际背景,

  知道瞬时变化率就是导数,体会导数的思想及其内涵(参见例2、例3)。②通过函数图像直观地理解导数的几何意义。(2)导数的运算①能根据导数定义,求函数y=c,y=x,y=x2,y=1/x的导数。②能利用给出的基本初等函数的导数公式和导数的四则运算法则求简单函数的导数。③会使用导数公式表。(3)导数在研究函数中的应用①结合实例,借助几何直观探索并了解函数的单调性与导数的关系(参见例4);能利用导数研究

  函数的单调性,会求不超过三次的多项式函数的单调区间。②结合函数的图像,了解函数在某点取得极值的必要条件和充分条件;会用导数求不超过三次的多

  项式函数的极大值、极小值,以及在给定区间上不超过三次的多项式函数的最大值、最小值。2.圆锥曲线与方程(约12课时)

  (1)了解圆锥曲线的实际背景,感受圆锥曲线在刻画现实世界和解决实际问题中的作用。(2)经历从具体情境中抽象出椭圆模型的过程(参见例1),掌握椭圆的定义、标准方程及简单几何性质。(3)了解抛物线、双曲线的定义、几何图形和标准方程,知道它们的简单几何性质。(4)通过圆锥曲线与方程的学习,进一步体会数形结合的思想。(5)了解圆锥曲线的简单应用。三.统计案例(约14课时)通过典型案例,学习下列一些常见的统计方法,并能初步应用这些方法解决一些实际问题。①通过对典型案例(如"肺癌与吸烟有关吗"等)的探究,了解独立性检验(只要求2×2列联表)的基本思想、方法及初步应用。②通过对典型案例(如"质量控制"、"新药是否有效"等)的探究,了解实际推断原理和假设检验的

  基本思想、方法及初步应用(参见例1)。③通过对典型案例(如"昆虫分类"等)的探究,了解聚类分析的基本思想、方法及初步应用。④通过对典型案例(如"人的体重与身高的关系"等)的探究,进一步了解回归的基本思想、方法及

  初步应用。2.推理与证明(约10课时)(1)合情推理与演绎推理①结合已学过的数学实例和生活中的实例,了解合情推理的含义,能利用归纳和类比等进行简单的

  推理,体会并认识合情推理在数学发现中的作用(参见例2、例3)。②结合已学过的数学实例和生活中的实例,体会演绎推理的重要性,掌握演绎推理的基本方法,并

  能运用它们进行一些简单推理。③通过具体实例,了解合情推理和演绎推理之间的联系和差异。(2)直接证明与间接证明①结合已经学过的数学实例,了解直接证明的两种基本方法:分析法和综合法;了解分析法和综合

  法的思考过程、特点。②结合已经学过的数学实例,了解间接证明的一种基本方法--反证法;了解反证法的思考过程、特

  点。

篇九:统计案例知识点总结

  1、统计的含义(1)统计工作:即统计实践,是指很据科学的方法从事统计设计、收集、整理、分析研

  究和提供各种统计资料和统计咨询意见的活动的总称.其成果是统计资料(原始调查资料和加工处理后的系统资料);(2)统计资料:即统计工作过程中所获得的各种有关数字资料以及与之相关的其他资料的总称。通常以统计表、统计图和统计报告的形式变现,用以反映社会经济现象的规模、水平、速度、结构和比例关系等信息的数字和文字资料;(3)统计科学:即统计理论,是指统计工作实践的理论概括和科学总结。2、统计学统计学:是一门搜集、整理、分析数据方法的科学,其目的是探索数据的内在数量规律性,以达到对客观事物的科学认识。3、统计学的研究对象统计学研究的对象是:社会经济现象总体的数量特征和数量关系。其根本特征:在质与量的辩证统一中,研究大量社会经济现象总体的数量方面,反映社会现象发展变化的规律性在具体时间、地点和条件下的数量表现,揭示事物的本质、相互联系、变动规律和发展趋势。4、统计学研究特点数量性、总体性、具体性、社会性5、统计工作的过程及基本职能统计工作的过程:统计设计、统计调查、统计整理、统计分析(定性—定量—定性:循环往复)统计设计:指根据统计研究对象的特点和研究的目的、任务,对统计工作的各个方面和各个环节的通盘考虑和安排,是统计认识过程的第一个阶段,即定性认识的阶段;统计调查:指根据统计研究对象和目的要求,依据统计设计的内容、指标和指标体系的要求,有计划、有目的、有组织的收集原始资料的工作过程,即由定性到定量认识的阶段;统计整理:指根据统计研究的目的,将统计调查得到的原始资料和通过各种方法得到的次级资料进行科学的分类和汇总,使其条理化、系统化的工作过程,即为统计分析准备在一定程度上可以反映总体特征的统计资料;统计分析:指在统计整理的基础上,根据研究的目的和任务,应用各种科学的统计方法,从静态和动态两个方面对研究对象的数量方面进行计算、分析研究,认识和揭示所研究对象的本质和规律性,做出科学的结论,进而提出建议和可预测性的意见的工作过程,即从定量到定性深入认识的阶段。统计工作的基本职能:信息、咨询、监督6、统计学研究的基本方法大量观察法、统计分组法、综合指标法、时间数列分析法、指数法、抽样推断法、相关分析法。7、统计学的基本概念(1)总体:指客观存在的,有性质相同的许多个别事物组成的整体;(2)总体单位:指组成总体的许多性质相同的个别事物,简称单位/个体;(3)标志:用于说明总体单位特征的名称或概念,有数量标志和品质标志之分;(4)标志表现:标志特征在各单位的具体体现,数量标志表现为具体的数值,品质标志

  表现为对特征加以描述的文字;(5)统计指标:用于说明总体数量特征的名称或概念及数值:一个完整的统计指标包括

  指标名称、指标数值、指标计量单位、计算方法、指标所属的时间和空间等因素;

  (6)统计总体的特征:同质性、大量性、差异性(7)统计指标的特点:数量性、综合性、具体性(8)统计总体与总体单位关系:不是固定不变的,而是相对的概念,根据研究的目的和

  研究对象的变化而变化的:即总体可能为单位,单位也可能为总体(9)指标和标志关系:指标和标志是一对相对的概念,分别对应与统计总体和统计总体

  单位,用于反映各自的数量特征,二者既有区别,又有联系.区别:指标用于反映总体数量特征,是具体的量,不论数量指标还是质量指标,其具体表现都是数值;标志用于反映总体单位特征,数量标志以数值表示为一定的量,但品质标志只能用适当的文字来表达.联系:统计指标是建立在标志表象的基础上,它是由各个总体单位的标志表现加总而来,没有总体单位的标志表现,就不可能有总体的指标值。(10)指标的分类指标的表现形式:总量指标、相对指标、平均指标总体现象的内容:数量指标、质量指标现象的时间状况:静态指标、动态指标数据的取值依据:客观指标、主观指标(11)数量指标:指反映社会经济现象的规模大小或数量多少的统计指标,一般表现为:总量指标、绝对数(12)质量指标:表明总体内部构成、比例、发展速度和一般水平等的指标,一般表现为相对指标和平均指标,其数值表现为相对数和平均数。(13)统计变异:指统计总体中各单位之间存在的差异和同一总体在不同时间上的差异(14)统计变量:现象本身所固有的随条件变化而变化的量,变量值是变量的具体数值表现;(15)连续变量与离散变量:依据变量值是否连续来划分,相邻两个变量值之间是否可以连续分割得到新的变量值8、统计调查的类型调查对象包含的范围:全面调查(统计报表和普查)、非全面调查调查登记的时间是否连续:经常性调查、一次性调查调查的组织形式:一般调查(统计报表制度)、专门调查9、调查对象:指要对其进行调查研究的现象的总体,由许多性质相同的个别单位组成10、调查单位:构成调查对象的总体单位,在某项调查中登记其具体特征的单位,即调查项目的直接承担者11、调查项目:即调查内容,确定登记调查单位的特征(标志)12、报告单位:即填报单位,向上报告调查内容,提交调查资料的单位13、调查时间:调查资料所属的时间,时期现象(起讫时间)、时点现象(统一标准时间);调查期限:调查工作的时限,从调查准备开始到收集递交资料直至报告完毕的整个调查过程所需时间。14、统计调查方案的设计过程(1)确定调查目的和任务(2)确定调查对象和调查单位(3)确定调查项目(4)确定调查时间、调查期限、调查空间、调查方法(5)调查的组织工作15、统计调查收集资料的方式

  (1)统计报表:指依照国家有关法律规定,自上而下的统一布置,自下而上的逐级定期提供基本资料的一种统计报告制度。

  a)特点:保证统计资料的统一性和时效性;统计指标比较系统,所得到的资料较为全面,真实可靠;具有周期性,相对稳定

  b)作用:用于研究现象发展变化的趋势和规律性;逐级汇总递交可以满足各级部门对统计资料的需要

  c)局限性:受主观影响大,由于虚报瞒报而影响报表资料的质量;周期过于频繁会加重基层负担

  (2)普查:指专门组织的一次性全面调查,用于调查在一定时点上社会经济现象的总量。

  a)特点:全面性、专门性、一次性b)作用:用于掌握某些关系国情国力的重大事件的准确而全面的数据,并为抽样调查

  提供抽样框,搜集更多更全面的信息c)局限性:由于耗费人力、物力、财力过大,不易进行经常性调查的实施(3)抽样调查:指按照随即原则从总体中选取一部分单位作为样本进行观察,然后根据

  所获得的样本数据,对调查对象总体的特征值作出具有一定可靠程度的估计和推算。(抽样估计、抽样推断)a)特点:依据随机性原则从总体中抽取样本单位;依据部分调查资料对总体的数量特征进行估计;抽样误差可以事先计算并加以控制。(耗费少、准确度高、干扰少)b)作用:用样本来推断总体数量特征c)局限性:调查对象总体范围大,单位数目多时;不必要进行全面调查时;具有破坏性的调查;用于检查和修正全面调查资料时(4)重点调查:指在调查对象中选择一部分重点单位作为代表进行的非全面调查a)特点:耗费少,调查单位少,可以快速取得总体情况,调查资料的收集灵活详细b)作用:用于了解总体的基本情况c)局限性:不需要了解总体的全面情况,仅了解总体基本情况;总体中存在重点单位,即标志值总量在全部单位标志总量中占据重大比例的单位(5)典型调查:指在对多研究的现象进行分析的基础上,有意识的选择若干个具有代表性的典型单位而进行的深入细致的调查a)特点:选择有目的,有意识性,调查单位少,便于做深入细致的研究,资料细致全面,但主观性大b)作用:用于研究新生事物,探索其发展方向,形成预见,并加以推广;研究同类事物发展变化的一般规律和趋势;总结经验教训;补充全面调查的不足,估计总体数量特征,验证全面调查的真实性c)局限性:不能确定推断的把握程度,估计误差无法衡量;典型单位的选取必须对总体具有充分的代表性,同时要根据研究的目的和调查对象的不同特点来选取调查类型16、统计调查的误差:指统计调查所得到的统计数据与统计总体的实际数量之间的差别。包括登记性误差和代表性误差.登记性误差:调查误差,记录错误、计算错误、汇总错误及调查者虚报等;代表性误差(仅存在于非全面调查中):系统性误差(未遵循随即原则导致的偏差)和抽样误差(由于抽样的随机性导致的误差)17、统计分组:指根据统计研究的目的和社会经济现象的特点,按照一个或几个标志将统计总体区分为性质不同的若干个组成部分的一种统计方法18、统计分组的基本原则:穷尽性原则和互斥性原则

  19、统计分组的作用区分社会经济现象的性质和不同类型;反映现象总体的内部结构;分析现象之间的依存关系

  20、统计分组的种类品质标志分组和数量标志分组(分组标志性质);简单分组和复合分组(一个/多个)复合标志更能深入反映总体的内部结构,有利于更细致的分析问题

  21、分组标志选择的依据(1)依据研究问题的目的和任务(2)在若干同类标志中,选择最能反映问题本质的标志进行分组(3)结合研究对象所处的具体历史经济条件,采用具体问题具体分析的方法选择分组标志

  22、统计分组的关键:选择分组标志和正确的划分各组之间的界限23、分配数列:指在统计分组的基础上,将总体的所有单位按组分类整理,计算各组的

  的单位数,并按照组顺序加以排列所形成的反映总体单位总数在各组分配情况的次数分布。(次数分配、分布数列)24、统计表的表式结构:总标题、横行标题、纵栏标题、指标数值25、总量指标:指反映现象在一定时间、地点和条件下总规模、总水平和工作总量的一种统计指标,即绝对数指标。(总量、增减量)26、总量指标的种类按其反应总体总量的内容:总体单位总量(唯一性)、总体标志总量(多个)按反应现象的时间状况:时期指标、时点指标(各期数值可否直接加总、指标值的大小与时期长短直接相关与否、是否连续登记取得指标值)按计量单位:实物量指标、价值量指标27、总量指标的作用(1)总量指标是认识现象总体特征的起点(2)总量指标是实行各项管理工作的基本依据(3)总量指标是计算相对数和平均数的基础(4)总量指标属于绝对数指标数值,其大小随着总体范围的大小和观察时期的长短而

  发生增减变化,不能深入反映现象发展变化的程度与差别28、相对指标:指两个有联系的现象的数值对比的结果,用于反映事物间在数量上相互

  联系的形式和程度,又称为相对数。(同一总体或不同总体)29、相对指标的作用

  (1)相对指标可以反映现象的发展程度、密度、结构、强度、普遍程度或比例关系,为人们认识事物发展的质量与现状提供依据

  (2)相对指标可以使某些不能直接对比的现象找到可比的基础,从而准确的现象之间的差异程度

  30、相对指标的类型及各自的作用(1)比重相对数:结构相对指标,即利用分组的方法,将同一总体区分为性质不同的若干部分,以部分数值与总体数值对比而得的比重或比率。(部分/总体)作用:分析事物的内部结构,从而反映事物的性质和特征,以及事物发展的不同阶段和量变引起的质变的过程;反映事物总体的质量和工作质量及资源有效利用情况。(2)比例相对数:即总体中各部分数值对比而得到的用于反映总体的各部分之间的数量联系程度的比例关系的相对指标.(部分/部分)

  作用:用于反映总体内部各部分的实际数量上的比例关系,判断内部结构的协

  调程度,从而为制定政策和计划提供依据

  (3)动态相对数:指同一现象不同时间上的指标值之比,即报告期与基期的指标值之

  比,用于反映现象在时间上的变动方向和程度。(报告期水平/基期水平)

  (4)强度相对数:指两个性质不同但有一定联系的总量指标之比.(总体/总体)

  作用:说明现象的强弱程度,从而反映一个国家或地区的经济发展水平的高低

  和经济实力的强弱;反映现象的密度和普遍程度;反映社会生产活动的条件和

  效果。(有名数/无名数)(正指标/逆指标)

  (5)计划完成程度指标:将现象在一定时期内的实际完成数与计划任务数对比得到

  的相对指标。(实际完成数/计划完成数{相对数/绝对数})

  两种形式:计划完成程度=(1+实际增长的%)/(1+计划增长的%)*100%

  计划完成程度=(1—实际增长的%)/(1-计划增长的%)*100%

  (多降低或提高了几个百分点)

  31、计算和运用总量指标的原则

  (1)主义现象的同类性

  (2)统计总量指标时要有明确的统计含义和合理的计算方法

  (3)统一的计量单位

  32、计算和应用相对指标的原则

  (1)正确选择选择对比的基数

  (2)合理应用相对指标

  (3)在统计分组的基础上,进行对比分析

  (4)多种相对指标综合应用

  (5)相对指标和绝对指标的结合应用

  33、平均指标:指在同质总体内,运用一定的方法将总体各单位在某一标志下的数量差

  异抽象化,以反映总体在一定时间、地点和条件下所达到的一般水平的综合统计指标.(统

  计均值或平均数)

  34、

  平均指标的特点

  (1)平均指标只在同质总体内计算

  (2)平均指标是一个代表性指标

  (3)平均指标属于内涵指标(质量指标),其大小不随总体范围的大小而增减

  35、平均指标的作用

  (1)平均指标可以用来进行对比分析

  (2)平均指标可以分析现象之间的依存关系

  (3)算术平均数可以反映总体分布的集中趋势。(中位数、众数)

  36、平均指标的分类

  数值平均数:算数、调和、几何平均数(简单/加权平均)

  分按计算方法

  位置平均数:中位数、众数

  类按考查内容:动态平均数、静态平均数

  37、统计平均数—数值平均数

  (1)算数平均数:总体标志总量/总体单位总量

  性质:各单位标志值与其算数平均数的离差之和为0;离差的平方之和为最小值

  缺陷:易受极端数值的影响,当变量数列呈偏态分布时,会引起算术平均数会发生偏移,

  其代表性就会严重降低.

  (2)调和平均数:变量值倒数的算术平均数的倒数,即倒数平均数(缺乏总体单位数的资料时)

  (3)几何平均数:变量值连乘积的项数方根。用于计算平均比率或平均速度38、统计平均数—位置平均数

  (1)中位数:是将总体各单位的标志值按大小顺序进行排列,处于中间位置的标志值,从而可以反映现象的一般水平中位数的确定:奇数项((N+1)/2);偶数项(两个居中的标志值的算术平均数)

  (2)众数:指数据分布中出现次数最多的数,即总体现象中出现次数最多的标志值,从而用于说明现象的一般水平。下限公式:M0=L+i*[X1/(X1+X2)](下限加上限减)X1:众数组次数与前一组次数之差;X2:众数组次数与后一组次数之差i:众数组组距,L:众数组的上限

  中位数和众数不受极端值的影响,较之于数值平均数,具有一定的稳定性39、标志变异指标:是反映总体各单位标志值分布特征的另一个重要综合指标,用以反

  映总体各单位标志值的差异程度,即反映分配数列中以平均数为中心的各标志值变动范围或离差程度,又称为标志变异度.40、标志变异指标的作用(1)标志变异指标可以衡量平均数的代表性高低(2)标志变异指标可以反映总体的稳定性和均衡性(3)标志变异指标可以反映总体标志值分布偏离正态分布的情况41、极差=最大标志值—最小标志值(最高组的上限—最低组的下限)42、仅考虑极端值,未考虑中间值的分布和影响,不能正确全面反映总体离散程度平均差(AD):总体中各标志值对其算数平均数的离差绝对值的算术平均数。(平均绝对离差)仅考虑总体中个各标志值的变异程度对总体变异程度的影响,不便于进行数理推导标准差:总体中各单位标志值与其算术平均数离差平方的平均数。方差:标准差的平方.变量对算数平均数的方差小于对任常数的方差43、是非标志的平均数(P)、方差(PQ)和标准差(均方根差)44、标志变异系数:绝对数或平均数形式的变异指标值/算术平均数(离差系数)标准差系数:标准差与其算数平均数之比的相对数标志变异系数作用:消除数列平均水平高低对标志变异程度大小影响;反映不同水平不同性质的变量数列的变异程度。45、偏度:用于测定一个次数分布的非对称程度的统计指标。(左偏/负偏、右偏/正偏)相对于对称分布.偏态=算术平均数—众数算数平均数与众数之间的距离越远,实际分布的绝对偏态越大,表明次数分布的非对称程度越大。峰度:反映某个分布于正态分布相比尖峭程度的统计指标:正态分布、尖顶分布、平顶分布。46、时间序列分析:将同一空间、不同时间某一现象的统计指标数值,按时间先后顺序排列,即形成时间序列,即动态数列/时间数列。(现象所属的时间、与时间对应的统计指标数值)47、时间序列的种类,按统计指标的类型可分为三种:绝对数时间数列(时期数列、时点数列);相对数时间数列;平均数时间数列。

  48、时间数列的编制原则:时间长短统一、总体范围一致、指标的经济内容应统一、各指标值的计算方法、计算价格和计算单位都要统一

  49、时间序列的分析主要有:增量分析、平均分析、速度分析(1)增量分析:a)发展水平:时间数列中指标的每个数值,用以反映现象发展变化实际达到的规模、相对水平和一般水平。发展水平是时间数列中最基本的分析指标,是进行增量分析、平均分析和速度分析的基础。(最初水平、中间水平和最末水平)/(基期水平与报告期水平)b)增减量:报告期水平与基期水平之差。(逐期增减量与累计增减量)同比增减量=报告期水平-上年同期水平c)平均增减量:将逐期增减量的数量差异抽象化,用来说明现象在较长时期内平均每期增减数量的统计分析指标平均增减量=逐期增减量之和/逐期增长量的个数(2)平均分析:d)动态平均数:将时间序列中不同时间的发展水平加以平均而得到的平均数.(序时平均数、平均发展水平):消除现象在短期内偶然因素产生波动的影响,使时间数列更好的表现现象发展变化的趋势.:分为绝对数时间序列平均分析、相对数时间序列平均分析、平均数时间序列平均分析e)绝对数时期数列:简单算术平均数;绝对数时点数列:间隔相等的间断时点数列(假定指标值的变动均匀):首尾折半法,平均数=[(a0+a1)/2+a2+a3+```+(an-1+an)/2]/n间隔不等的间断时点数列(加权序时平均):权数为各相邻时点的间隔长度f)相对数时间序列:两个绝对数时间序列的动态平均数之比g)平均数时间序列:静态平均数时间序列由两个绝对数时间序列相应项对比形成动态平均数:分子序列与分母序列的动态平均数之比(3)速度分析:a)发展速度:用相对数的形式表示的动态指标,是时间序列中两个不同时期发展水平对比的结果.发展速度=报告期水平/基期水平(定基发展速度/环比发展速度)同比发展速度=报告期水平/上年同期水平b)增长速度:用相对数形式表示的动态相对指标,是各期的增减量与基期发展水平的比值。增长速度=各期的增减量/基期水平增长速度=发展速度-1同比增长速度(年距增长速度)=同比增长量/上年同期水平c)平均发展速度:现象在一个较长时期内发展变化的平均程度,是各期环比发展速度的动态平均数。(水平法/累积法)平均增长速度:现象在一个较长时期内增长变化的平均程度平均增长速度=平均发展速度-1水平法(几何平均法):仅侧重于末期的发展速度(仅涉及到最初水平和最末水平)(最末一期的定基发展速度的均方根)

  50、长期趋势分析:指客观现象由于受某种基本因素的影响,在一段相当长的时间内,持

  续向上或向下发展变化的趋势。51、长期趋势分析的作用

  (1)研究现象在过去一段时间内的发展方向和趋势,以便认识和掌握现象发展变化的规律性

  (2)利用现象发展的长期趋势,可以对未来的情况作出预测(3)测定长期趋势,还可以将长期趋势从时间序列中分离出来,更好的研究季节变

  动和循环变动52、长期趋势测定的方法:时距扩大法、移动平均法、最小平方法53、最小平方法:直线趋势分析

  类似于价格离散率的计算(原序列的各实际值与趋势值的离差平方和最小)关键:时间序列号的择取,一般(0,1,2,3,4,5);简便(—3,-2,—1,1,2,3)54、季节变动的测定与分析:(按季/月平均法)(1)根据历年同季/月的数据总和,计算历年同季/月的平均水平(2)根据历年各季/月的数值总和,计算总的季/月的平均水平(3)将历年同季/月的平均水平与总的季/月的平均水平对比,得到季节比率(季节指

  数):用于表明各季水平比全期总水平高或低的程度,即季节变动的一般规律性.:季节变动可以消除季节变动对时间序列造成的影响,便于测定现象的循环变动和不规则变动55、统计指数:狭义,反映不能直接相加的多因素组成的复杂现象总体的综合变动的相对数。56、统计指数的作用:反映复杂现象的综合变动方向和程度(以相对数的形式说明现象的变动方向和程度,以绝对数的形式表明现象变动的结果);测定复杂现象的总变动中各个因素变动的影响方向和程度。57、统计指数的种类(1)按研究对象的范围:个体指数、总指数(综合指数和平均指数)(2)按说明的指标性质:数量指标指数、质量指标指数(3)按对比的情况:动态指数、静态指数(4)按计算方法及特点:综合指数、平均指数58、综合指数:将总量指标分解为两个或两个以上的因素,并将其中一个或一个以上的因素固定下来,仅观察其中一个因素的变动,由此计算的总指数59、综合指数计算过程:(先综合后对比)(1)引入同度量因素,使不能直接相加的指标过渡到能够进行综合计算(2)将同度量因素固定在同一时期,以观察其他因素变动的情况(3)通过不同经济内容的两个总量指标的对比,来观察呗研究因素的综合变动,即

  复杂现象的总变动。60、数量指标指数(q):用数字来说明数量的综合变动情况(以基期的质量指标p作为

  同度量因素):由于数量变动%,而引起的总量变动情况质量指标指数(p):用数字来反映价值的综合变动情况(以报告期的数量指标q作

  为同度量因素):由于质量变动%,而引起的总量变动情况61、平均指数:个体指数的加权平均数,通过先计算个体指数,而后对个体指数加权平

  均来测定现象的总变动程度。(先对比后平均)(加权算术/加权调和平均数)62、加权算术平均指数测定:数量指数

  (1)计算个体指数:报告期的数量指标/基期的数量指标—数量指标的个体指数:Kq=q1/q0

  (2)取得基期的价值指标p0q0的数据(3)以求得的个体指数为变量,基期的价值指标p0q0为权数,使用加权算术平均法

  计算总指数63、加权调和平均指数的测定:质量指数

  (1)计算个体指数,计算个体指数:报告期的质量指标/基期的质量指标—质量指标的个体指数:Kp=p1/p0

  (2)取得报告期的价值指标p1q1的数据(3)以求得的个体指数为变量,报告期的价值指标p0q1为权数,使用加权算术平均

  法计算总指数64、指数体系:指若干个(至少三个)指数由于其数量上的联系而构成的整体,即数量

  上相互联系的指数群.指数体系的两个对等形式:绝对数:总量变动总值=价值指数变动影响额+数量指数变动影响额相对数:总量变动指数=价值变动指数*数量变动指数65、指标体系的作用:对编制综合指数具有指导意义;可以进行现象之间数量的互相推算。66、因素分析:指根据指标体系来分析现象总变动中各个因素的影响作用大小按分析的指标性质:总量指标变动、相对指标变动、平均指标变动的因素分析按分析因素的多少:两因素分析和多因素分析67、总量指标变动的两因素分析(1)总变动指数(2)数量变动指数(3)质量变动指数(4)指数体系:绝对数、相对数(5)结果分析:各个因素变动%而引起的总量变动情况68、平均指标变动的两因素分析(1)可变构成指数=固定构成指数*结构影响指数(加权算术平均数)(2)可变构成指数、固定构成指数、结构影响指数(3)总平均指标变动额=各组水平变动额+结构变动影响额(4)结果分析

  :其中,可变构成指数:报告期/基期平均指标的实际水平固定构成指数:将总体构成固定在报告期,从而消除总体结构变动的影响,单纯反映各组水平(质量指标)变动的影响;结构影响指数:将各组水平固定在基期,仅仅反映由于总体结构(数量指标)变动对总平均指数的影响69、抽样误差:指由于抽样的随机性而造成的估计值与总体真实值之间的离差70、影响抽样误差大小的因素(1)总体变异的程度:总体变异程度越大,抽样误差越大(2)样本容量的大小:样本容量越大,抽样误差越小(3)抽样方法:不重复抽样的抽样误差小于重复抽样的抽样误差(4)抽样组织形式:类型抽样误差一般小于简单随机抽样,整群抽样误差较大71、抽样平均误差:不是固定不变的,是随机变量,抽样误差所有可能取值的平均值,用标准差形式表示。72、抽样平均误差作用:反映样本所有可能取值的离散程度,样本平均数的代表性,抽

  样指标的代表值,样本指标相对于总体指标离差的平均度,抽样误差大小以及估计准确度的高低。73、样本平均数的平均数即为总体平均数,抽样成数的平均数等于总体成数74、抽样估计:点估计(将样本指标值直接作为未知的的总体指标的估计值)和区间估计(在一定的可靠度下,根据样本观测值将总体指标真值估计在某个可能的范围内)75、抽样的组织形式:简单随机抽样、系统抽样、整群抽样、分层抽样76、随即抽样样本容量的确定(重复抽样)77、相关关系:指现象之间确实存在的数量关系,但这种数量关系不是严格确定的,当一种现象的数量发生变化时,另一种现象的数量可能在一定范围内发生变化,从而出现不同的数值。78、相关关系:指现象之间确实存在的,但数值不确定的相互依存关系79、相关分析:研究一个变量与另一个变量或另一组变量之间的相关密切程度和相关方向的一种统计分析方法80、回归分析:在相关分析的基础上进一步借助数学方程将那种显著存在的相关关系表示出来,从而使这种被揭示的关系具体化并可运用于实践中去。(具有某种因果关系的两种现象之间的关系)81、相关系数:用于测定两个变量之间线性相关程度和相关方向的指标—1〈R<1:一定程度(正/负)的线性相关;R=1:完全线性相关;R=0:无线性相关关系,但具有其他的相关关系;(0-0.3(低相关)0.5(显著相关)0.8(高度相关)—1)82、相关分析与回归分析的区别与联系区别:自变量/因变量的确定不同;相关关系的具体程度(量化/预测);随机()/非随机变量联系:相关分析是回归分析的基础,回归分析是相关分析的延伸与深化83、平均指标与强度指标的区别:区别:概念,作用,计算公式和内容84、(1)概念:平均指标是总体标志总量与总体单位总量之比,强度指标则是两个不同总体的指标值对比的结果,各指标值在数量上没有依存关系

  (2)作用:平均指标用于反映同一总体各单位标志值的一般水平,不涉及不同总体,强度指标则用于反映不同总体的强度、密度和普遍程度

  (3)计算公式和内容不同85、综合指数与平均指数的区别与联系

  (1)编制原则:先综合后对比/先对比后综合(2)对资料的要求:前者需要详细的资料,后者在资料不全情况性也可测算(3)作用:反映现象的总体变动程度与平均变动程度

  但在一定条件下,二者可以变形互用86、各类平均数的比较87、各类相对指标的比较

篇十:统计案例知识点总结

  第十章统计与统计案例

  第一节随机抽样

  一、基础知识

  1.简单随机抽样(1)定义:一般地,设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.这样抽取的样本,叫做简单随机样本.(2)常用方法:抽签法和随机数法.2.分层抽样(1)在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.(2)分层抽样的应用范围:当总体是由差异明显的几个部分组成时,往往选用分层抽样.3.系统抽样(1)定义:当总体中的个体数较多时,可以将总体分成均衡的几部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需的样本,这种抽样的方法叫做系统抽样.(2)系统抽样的步骤假设要从容量为N的总体中抽取容量为n的样本.①先将总体的N个个体编号;②确定分段间隔k,对编号进行分段.当Nn(n是样本容量)是整数时,取k=Nn;

  当总体中的个体数不能被样本容量整除时,可先用简单随机抽样的方法从总体中剔除几个个体,使剩下的个体数能被样本容量整除,然后再按系统抽样进行.这时在整个抽样过程中每个个体被抽取的可能性仍然相等.

  ③在第1段用简单随机抽样确定第一个个体编号l(l≤k);④按照一定的规则抽取样本.通常是将l加上间隔k得到第2个个体编号l+k,再加k得到第3个个体编号l+2k,依次进行下去,直到获取整个样本.

  1

  二、常用结论

  (1)不论哪种抽样方法,总体中的每一个个体入样的概率都是相同的.(2)系统抽样一般也称为等距抽样,入样个体的编号相差分段间隔k的整数倍.

  (3)分层抽样是按比例抽样,每一层入样的个体数为该层的个体数乘抽样比.

  (4)三种抽样方法的特点、联系及适用范围

  类别

  共同点

  各自特点

  联系

  适用范围

  简单随机抽样系统抽样

  分层抽样

  从总体中逐个抽取

  ①抽样过程中每个个体被抽到的可能性相等;②每次抽出个体

  将总体均分成几部分,按预先定出的规则在各部分中抽取

  后不再将它放回,将总体分成几层,分层进

  即不放回抽样行抽取

  在起始部分取样时,采用简单随机抽样

  各层抽样时,采用简单随机抽样或系统抽样

  总体个数较少

  总体个数较多

  总体由差异明显的几部分组成

  考点一简单随机抽样

  [解题技法]应用简单随机抽样应注意的问题(1)一个抽样试验能否用抽签法,关键看两点:一是抽签是否方便;二是号签是否易搅匀.一般地,当总体容量和样本容量都较小时可用抽签法.(2)在使用随机数法时,如遇到三位数或四位数,可从选择的随机数表中的某行某列的数字计起,每三个或四个作为一个单位,自左向右选取,有超过总体号码或出现重复号码的数字舍去.

  考点二系统抽样

  [解题技法]系统抽样中所抽取编号的特点系统抽样又称等距抽样,所以依次抽取的样本对应的号码就是一个等差数列,首项就是第1组所抽取样本的号码,公差为间隔数,根据等差数列的通项公式就可以确定每一组内所要抽取的样本号码.[提醒]系统抽样时,如果总体中的个数不能被样本容量整除时,可以先用简单随机抽样从总体中剔除几个个体,然后再按系统抽样进行.

  2

  考点三分层抽样

  [解题技法]分层抽样问题的类型及解题思路(1)求某层应抽个体数量:按该层所占总体的比例计算.(2)已知某层个体数量,求总体容量或反之求解:根据分层抽样就是按比例抽样,列比例

  式进行计算.

  (3)

  分

  层

  抽

  样

  的

  计

  算

  应

  根

  据

  抽

  样

  比

  构

  造

  方

  程

  求

  解

  ,

  其

  中

  “

  抽

  样

  比

  =

  样本容量总体容量

  =

  各各层层样个本体数数量量”.

  3

篇十一:统计案例知识点总结

P>  统计

  一.简单随机抽样:抽签法和随机数法

  1.一般地,设一个总体含有N个个体(有限),从中逐个不放回地抽取n个个体作为样本(n≤N),如果

  每次抽取时总体内的各个个体被抽到的机会都相等(n/N),就把这种抽样方法叫做简单随机抽样。2.一般地,抽签法就是把总体中的N个个体编号,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取一个号签,连续抽取n次,就得到一个容量为n的样本,这种抽样方法叫做抽签法。

  抽签法的一般步骤:a、将总体的个体编号。b、连续抽签获取样本号码。3.利用随机数表、随机数骰子或计算机产生的随机数进行抽样,叫随机数表法。

  随机数表法的步骤:a、将总体的个体编号。b、在随机数表中选择开始数字。c、读数获取样本号

  码。4.抽签法的优点是简单易行,缺点是当总体的容量非常大时,费时、费力,又不方便,如果标号的签搅拌得不均匀,会导致抽样不公平,随机数表法的优点与抽签法相同,缺点上当总体容量较大时,仍然不是很方便,但是比抽签法公平,因此这两种方法只适合总体容量较少的抽样类型。二.系统抽样:

  1.一般地,要从容量为N的总体中抽取容量为n的样本,可将总体分成均衡的若干部分,然后按照预先

  制定的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样的方法叫做系统抽样。

  系统抽样的一般步骤:

  (1)采用随机抽样的方法将总体中的N个个编号。

  (2)将整体按编号进行分段,确定分段间隔k=N/n。(k∈N,L≤k).

  (3)在第一段用简单随机抽样确定起始个体的编号L(L∈N,L≤k)。

  (4)按照一定的规则抽取样本,通常是将起始编号L加上间隔k得到第2个个体编号L+K,再加

  上K得到第3个个体编号L+2K,这样继续下去,直到获取整个样本。

  在确定分段间隔k时应注意:分段间隔k为整数,当N/n不是整数时,应采用等可能剔除的方剔除部分

  个体,以获得整数间隔k。

  三.分层抽样:

  1.一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的

  个体,将各层取出的个体合在一起作为样本,这种抽样的方法叫分层抽样。

  分层抽样的步骤:

  (1)分层:按某种特征将总体分成若干部分。(2)按比例确定每层抽取个体的个数。

  (3)各层分别按简单随机抽样的方法抽取。(4)综合每层抽样,组成样本。

  2.分层抽样是当总体由差异明显的几部分组成时采用的抽样方法,进行分层抽样时应注意以下几点:

  (1)分层抽样中分多少层、如何分层要视具体情况而定,总的原则是,层内样本的差异要小,面

  层之间的样本差异要大,且互不重叠。

  (2)为了保证每个个体等可能入样,所有层应采用同一抽样比等可能抽样。

  (3)在每层抽样时,应采用简单随机抽样或系统抽样的方法进行抽样。

  四.用样本的频率分布估计总体分布:

  1.频率分布是指一个样本数据在各个小范围内所占比例的大小。一般用频率分布直方图反映样本的频率

  分布。

  其一般步骤为:(1)计算一组数据中最大值与最小值的差,即求极差(2)决定组距与组数

  (3)将数据分组(4)列频率分布表

  (5)画频率分布直方图

  2.频率分布折线图、总体密度曲线

  频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图。

  总体密度曲线:在样本频率分布直方图中,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线。它能够精确地反映了总体在各个范围内取值的百分比,给我们提供更加精细的信息。3.当数据是两位有效数字时,用中间的数字表示十位数,即第一个有效数字,两边的数字表示个位数,即第二个有效数字,它的中间部分像植物的茎,两边部分像植物茎上长出来的叶子,因此通常把这样的图叫做茎叶图。茎叶图的特征:

  (1)用茎叶图表示数据有两个优点:一是从统计图上没有原始数据信息的损失,所有数据信息都可以从茎叶图中得到;二是茎叶图中的数据可以随时记录,随时添加,方便记录与表示。(2)茎叶图只便于表示两位有效数字的数据,而且茎叶图只方便记录两组的数据,两个以上的数据虽然能够记录,但是没有表示两个记录那么直观,清晰。五.用样本的数字特征估计总体的数字特征:1.众数、中位数、平均数、方差、标准差的求法。

  s2

  1n

  [(

  x1

  x)2

  (x2

  x)2

  (xnx)2]

  s

  1n

  [(x1

  x)2

  (x2

  x)2

  (xnx)2]

  六.变量之间的相关关系:1.相关关系:两个变量之间的关系可能是确定的关系(如:函数关系),或非确定性关系。当自变量取值一定时,因变量也确定,则为确定关系;当自变量取值一定时,因变量带有随机性,这种变量之间的关系称为相关关系。相关关系是一种非确定性关系。2.散点图的概念:将各数据在平面直角坐标中的对应点画出来,得到表示两个变量的一组数据的图形,这样的图形叫做散点图。(1.如果所有的样本点都落在某一函数曲线上,就用该函数来描述变量之间的关系,即变量之间具有函数关系.2.如果所有的样本点都落在某一函数曲线附近,变量之间就有相关关系。3.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系)。3.正相关与负相关概念:如果散点图中的点散布在从左下角到右上角的区域内,称为正相关。如果散点图中的点散布在从左上角到右下角的区域内,称为负相关。(注:散点图的点如果几乎没有什么规则,则这两个变量之间不具有相关关系)4.从散点图上可以看出,这些点大致分布在通过散点图中心的一条直线。如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这这两个变量之间具有线形相关关系,直线叫回归直线。5.教学最小二乘法:(1)求回归方程的关键是如何用数学的方法刻画"从整体上看,各点与此直线的距离最小".(2)最小二乘法公式:求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法。

  x

  1n

  ni1

  xi

  n

  lxx(xix)2i1

  题型一抽样方法

  y

  1n

  ni1

  yi

  n

  lxy(xix)(yiy)i1

  例1(1)某高校甲、乙、丙、丁四个专业分别有150、150、400、300名学生,为了解学生的就业倾向,

  用分层抽样的方法从该校这四个专业共抽取40名学生进行调查,应在丙专业抽取的学生人数

  为

  .

  (2)利用简单随机抽样的方法,从n个个体(n>13)中抽取13个个体,依次抽取,若第二次抽取

  后,余下的每个个体被抽取的概率为1,则在整个抽样过程中,每个个体被抽取的概率为36

  变式1:某公司生产三种型号的轿车,产量分别为1200辆,6000辆和2000辆.为检验该公司的产品质

  量,现用分层抽样的方法抽取46辆进行检验,这三种型号的轿车依次应抽取

  ____,

  ____,____辆.变式2:经问卷调查,某班学生对摄影分别执“喜欢”、“不喜欢”和“一般”三种态度,其中执“一般”态度的比“不喜欢”态度的多12人,按分层抽样方法从全班选出部分学生座谈摄影,如果选出的5位“喜欢”摄影的同学、1位“不喜欢”摄影的同学和3位执“一般”态度的同学,那么全班学生中“喜欢”摄影的比全班人数的一半还多人.题型二统计图表问题

  例2从一条生产线上每隔30分钟取一件产品,共取了n件,测得其产品尺寸后,画得其频率直方图如下.尺寸在[15,45)内的频数为46.(1)求n的值;(2)求尺寸在[20,25)内产品的个数.

  变式3:⑴有一个容量为100的样本,数据的分组及各组的频数如下:[,],6;[,],16;[,],18;[,],22;[,),20;[,),10;[,),8.①列出样本的频率分布表;②画出频率分布直方图;③估计数据小于的概率

  题型三平均数、标准差(方差)的计算问题

  例3一次歌手大奖赛上,七位评委为歌手打出的分数如下:

  9.9

  去掉一个最高分和一个最低分后,所剩数据的平均值和方差分别为()

  A.,

  B.,

  C.,

  D.,

  变式4:x是x1,x2,x100的平均数,a是x1,x2,x40的平均数,b是x41,x42,x100的平均数,则x,

  a,b之间的关系为

  .

  变式5:某人5次上班途中所花时间(单位:分钟)分别为x、y、10、11、9.已知这组数据的平均

  数为10,方差为2,则xy的值为()

  A.1

  B.2

  C.3

  D.4

  题型四线性回归分析

  例4下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨

  标准煤)的几组对照数据:

  x

  3

  4

  5

  6

  y

  3

  4

  (1)请画出上表数据的散点图;

  (2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程ybxa;

  (3)已知该厂技术改造前100吨甲产品能耗为90吨标准煤;试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技术改造前降低多少吨标准煤

  变式6:为了分析某个高三学生的学习状态,对其下一阶段的学习提供指导性建议.现对他前7次考试的数学成绩x、物理成绩y进行分析.下面是该生7次考试的成绩.

  888811199110110111数学

  8372802999911099110110110物理4186416(1)他的数学成绩与物理成绩哪个更稳定请给出你的证明;

  (2)已知该生的物理成绩y与数学成绩x是线性相关的,若该生的物理成绩达到115分,请你估计他的

  数学成绩大约是多少并请你根据物理成绩与数学成绩的相关性,给出该生在学习数学、物理上的合理建议.


推荐访问:统计案例知识点总结 知识点 案例 统计

猜你喜欢