怎么样理解置信区间(置信区间其实很容易懂
hello大家好,我是大学网网小航来为大家解答以上问题,怎么样理解置信区间(置信区间其实很容易懂很多人还不知道,现在让我们一起来看看吧!
举个例子,比如你想知道全国所有中学生的平均身高,你不可能去测量每一个学生的身高,因此采取了随机抽样的方式,用样本去预估去全国所有中学生的身高。
假设你随机抽取了100名学生,其平均身高为150cm,方差为25。
如果你用100个样本的平均值得出全国中学生的平均身高是150cm,这就是点估计,150cm就是点估计量(根据中心极限定理,样本的均值和总体的均值是相似的)。
如果你不想用样本的一个平均值去估计整体的平均值(比如150cm),而是用一个区间去估计(比如140-155cm),这就叫区间估计。区间估计相比点估计留有更大的容错空间。
区间的范围很大,你可以预测身高是149-151cm之间,也可以预测是140-160cm之间,也可以是其他。但你会看到,前者相比后者预测准确的概率更低,因为其预测的区间范围太窄;而后者预测准确的概率更高,因为其预测的区间范围更宽。
这就像投掷一次骰子,如果你预测是3-6,小明预测3-4,那么你猜对的概率是67%,而小明猜对的概率是33%,你比小明猜对的可能性更大。
所以,具体如何确定估计的范围(也就是置信区间)取决于你对预估结果准确概率的要求(也就是置信水平)。如果你希望结果准确的概率更高,那么区间的范围(置信区间)就设置的越宽;如果置信水平越低,置信区间就设置的越窄。
还是以上文中学生的身高为例,已知100个样本的平均身高为150cm,方差为25;请预估全国中学生整体的身高范围(置信区间)。
假设全国中学生的平均身高为μ,标准差为σ;则我们要求的是μ在某个置信水平的取值范围,总体X服从正态分布
假设100个样本的平均体重为x(x=150cm),根据中心极限定理,则样本均值也服从正态分布
由于样本平均值是呈正态分布的,我们便可以通过这条神奇的曲线推出以下结论:
(1)约有68%的样本平均值会在群体平均值一个标准误差的范围之内;(2)约有95%的样本平均值会在群体平均值的两个标准误差的范围之内;(3)约有99.7%的样本平均值会在群体平均值三个标准误差的范围之内。
标准差的计算公式如下图所示:其中SE代表标准误差,SD代表标准差,N代表样本量。
将方差=25,n=100带入到公式中,则100名样本的平均身高服从正态分布~N(μ, 0.25)。
然后,设置置信水平,常见的有68%,95%,99.7%,此处设置95%的置信水平,则
P(μ-2 * SE < x < μ 2 * SE)=0.95,SE为标准误差,根据上文公式计算为0.5,带入公式中为 P(μ-2 * 0.5< x < μ 2 * 0.5)=0.95 , 即P( μ-1< x < μ 1)=0.95 。
求出总体均值μ的范围 x-1 < μ < x 1,带入样本量的平均体重 x =150, 则总体的平均体重范围即95%的置信区间为149 <u < 151,也就是说全国中学生的平均体重有95%的概率在149到151cm之间。
本文就为大家讲解到这里,希望对大家有所帮助。
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时候联系我们修改或删除,多谢。