标准差和方差怎么算?总体与样本的区别
标准差和方差是统计学中最常用的两个离散程度指标。方差是各数据与均值之差的平方的平均值,衡量数据的整体离散程度;标准差是方差的平方根,单位与原数据一致,更直观、更常用。 两者背后有一个关键陷阱——公式里究竟该除以 N 还是 n−1,选错会得出不同的结果。 本文用一个具体算例把步骤走一遍,并把「总体」和「样本」的区别说清楚。
方差和标准差是什么
方差和标准差都是描述一组数据「有多分散」的指标,核心思路是:每个数据点距均值有多远?方差先把每个偏离量平方(消除正负)再求平均,得到一个「平均平方偏差」;标准差在此基础上开平方根,把单位还原成与原数据一致的量纲。
记一句话:方差衡量「离散程度」,标准差是方差的平方根,单位和原数据一样,读起来更直观。均值相同的两组数据,标准差大的那组更分散。
- 均值(Mean)
- 所有数据之和除以数据个数,描述数据的集中趋势。
- 离均差
- 每个数据值减去均值,正负均有,反映偏离方向与大小。
- 方差(Variance)
- 各离均差平方的平均值,单位是原数据单位的平方(如原单位是元,方差单位是元²)。
- 标准差(Standard Deviation)
- 方差的平方根,单位与原数据相同,是最常用的离散度指标。
- 总体方差(÷N)
- 当数据代表全部研究对象时使用,分母为数据个数 N。
- 样本方差(÷n−1)
- 当数据只是总体的一部分时使用,分母为 n−1(贝塞尔校正),用于无偏估计总体方差。
- 单位
- 方差单位 = 原数据单位²;标准差单位 = 原数据单位,与均值同量纲,便于直接比较。
- 用途
- 判断数据集中还是分散;比较两组均值相同数据的稳定性;金融中衡量风险/波动率;质量控制中评估产品一致性。
怎么算(分步流程)
不管数据多少个,标准差的计算思路都是同一套四步流程。掌握这四步,任何数据集都能手算。
- 求均值:将所有数据相加,再除以数据个数 n,得到算术平均数 x̄(读作「x-bar」)。
- 计算每个值的离均差平方:每个数据值 xᵢ 减去均值 x̄,得到离均差,再平方:(xᵢ − x̄)²。平方的目的是消除正负号,让偏离量都为正数。
- 求方差:将所有离均差平方加总,再除以 N(总体方差)或 n−1(样本方差)。这一步得到的就是方差 σ²(总体)或 s²(样本)。
- 开平方得标准差:对方差取平方根:σ = √(方差),即为标准差。总体标准差用 σ,样本标准差用 s。
实例:数据 2、4、6、8
用一组具体数字走一遍,比看公式更清楚。数据:2、4、6、8,共 4 个值。
第一步,均值 = (2 + 4 + 6 + 8) ÷ 4 = 20 ÷ 4 = 5。
| 数据值 xᵢ | 离均差 xᵢ − 5 | 离均差平方 (xᵢ − 5)² |
|---|---|---|
| 2 | 2 − 5 = −3 | (−3)² = 9 |
| 4 | 4 − 5 = −1 | (−1)² = 1 |
| 6 | 6 − 5 = 1 | 1² = 1 |
| 8 | 8 − 5 = 3 | 3² = 9 |
| 合计 | — | 9 + 1 + 1 + 9 = 20 |
离均差平方和 = 20,下一步用它计算方差。
离均差平方和 = 20,接下来按总体和样本分别计算:
两个结果相差不小——2.24 vs 2.58。数据量越少,总体和样本的差距越明显;当 n 很大时,两者趋于一致。
用方差计算器验算输入数据一键对比总体与样本方差总体还是样本(÷N 还是 ÷n−1)
这是标准差计算中最容易踩坑的一步。判断的核心问题只有一个:你的数据是否覆盖了全部研究对象?
| 情形 | 数据性质 | 公式分母 | 标准差符号 |
|---|---|---|---|
| 统计全班 40 人的成绩 | 总体(全部对象都在) | ÷ N = 40 | σ(sigma) |
| 抽查 30 名学生估计全校水平 | 样本(只是总体一部分) | ÷ (n−1) = 29 | s |
| 记录某产品全年 12 个月销量 | 总体(12 个月即全部数据) | ÷ N = 12 | σ |
| 从 1000 个订单中随机抽取 50 个分析 | 样本 | ÷ (n−1) = 49 | s |
分不清时,优先考虑「数据是全部还是部分」。
分母减 1 的做法叫贝塞尔校正(Bessel’s correction)。 原因在于:用样本均值代替真实总体均值时,计算出的偏差会系统性偏小,除以 n−1 是为了补偿这种偏差,使样本方差成为总体方差的无偏估计量。
标准差能看出什么
标准差不是越大越好,也不是越小越好——它的意义取决于场景和均值的大小。
最直观的用法:同均值,比标准差。两个班平均分都是 75 分,A 班标准差 5(大家分数相近,教学均衡),B 班标准差 20(高低分两极分化,差距悬殊)。光看均值看不出来,标准差一下就分出区别。
常见问题
- 标准差怎么算?
- 标准差的计算分四步:① 求所有数据的均值;② 计算每个数与均值之差的平方;③ 将所有平方值求平均(总体除以 N,样本除以 n-1),得到方差;④ 对方差取平方根,即得标准差。以 2、4、6、8 为例:均值=5,离均差平方分别为 9、1、1、9,总体方差=5,总体标准差=√5≈2.24。建议直接用标准差计算器,输入数据后一键得出结果。
- 方差和标准差有什么区别?
- 方差是各数据与均值之差的平方的平均值,单位是原数据单位的平方(如原数据单位为元,方差单位就是元²);标准差是方差的平方根,单位与原数据相同,更直观、更常用。两者都衡量数据的离散程度:数值越大,说明数据越分散。实际应用中,标准差比方差更常见,因为它和均值在同一量纲上,便于直接比较。
- 标准差公式中,应该除以 N 还是 n-1?
- 取决于你分析的是「总体」还是「样本」。如果手头的数据就是全部数据(总体),除以 N;如果数据只是总体的一部分(样本),除以 n-1。n-1 叫贝塞尔校正,是因为用样本估计总体方差时,直接除以 n 会系统性地低估真实方差,减去 1 是为了修正这种偏差。教材/统计软件默认通常是样本标准差(除以 n-1);如果用 Excel 的 STDEV,计算的是样本标准差;STDEVP 计算的是总体标准差。
- 总体和样本怎么区分?
- 总体是你关心的所有对象的集合,样本是从总体中抽取的一部分。举例:如果你统计的是「这 30 名学生」本次考试的成绩离散程度,这 30 人就是总体,用总体标准差(÷N);如果这 30 名学生只是全年级 500 人中随机抽取的,你想估计全年级的分散情况,那 30 人就是样本,用样本标准差(÷n-1)。区分的核心问题是:「我的数据是全部,还是总体的一部分?」
- 标准差大说明什么?
- 标准差大,说明数据点距均值较远,整体比较分散;标准差小,说明数据集中在均值附近,比较稳定。同一均值,两组数据可以有完全不同的标准差——比如两个班平均分都是 75 分,A 班标准差 5(大家分数相近),B 班标准差 20(高分低分两极分化)。标准差越大不代表「越好」或「越坏」,要结合场景判断:考试成绩中标准差大说明分化严重;产品质量检测中标准差大说明良品率不稳定。
- Excel 中应该用 STDEV 还是 STDEVP?
- STDEV(或 STDEV.S)计算样本标准差,公式分母为 n-1;STDEVP(或 STDEV.P)计算总体标准差,公式分母为 N。日常工作中最常用 STDEV,因为我们手头的数据通常是样本(如一段时间的销售额、一批用户的行为数据)。只有当数据本身就是完整总体(如统计全部 10 名员工的绩效)时,才用 STDEVP。如果数据量很大,两者结果差异会很小;数据量小时(n<30),差距相对明显,选错会影响结论。