
任何可观测物理量都必定有一个真值,这个真值确实无疑而且在一定时空范围内不会随意变化(虽然我那让人心焦的体重一直在增长,但是每时每刻我感肯定它都有一个确定的数值,不然我跑去称体重干嘛呢?),这个真值原则上只能通过测量来确定,比如你拿一把尺子去量桌子的高度,实际上就是用桌子高度的测量值作为其真值的近似。数学上可以严格证明,在相同的条件下对同一个物理量重复进行 n次测量,这些测量值的算术平均值

当N趋向于无穷大时能以任意高的精度逼近真实值,也就是说只要测量次数N不断增大,这个平均值就越接近真实值(所谓的切比雪夫大数定律和辛钦大数定律,具体见这里)
单次标准偏差(标准偏差 Standard deviation)
有了大数定律做保障,一般在测量中我们都放心地把平均值当成真值,但是不同组的测量数据在平均值相同的情况下也会存在差别,比如下面两组数据:
A: 2, 4, 17, 31, 46 平均值=20
B:21,24,20,17,18 平均值=20
这两组数据的平均值都是20,但是很明显B组的数据离平均值更紧密,而A组的数据则很分散,直觉上我们都可以判断出B组数据测量的更好一些,那怎样具体衡量这类差别呢,靠直觉肯定是不行的,标准偏差(Standard deviation) 在此登场

从标准偏差的定义式我们可以看出,标准偏差实际上是对测量误差平方的平均值开根号,之所以用测量误差平方是因为每次的测量误差都有正有负,为了防止正负抵消所以取其平方,而最后开根号是为了让标准偏差和平均值有相同的单位,便于比较。用此公式计算一下上述A、B两组数据的标准偏差:
A: 2, 4, 17, 31, 46 平均值=20 标准偏差=16.6
B:21,24,20,17,18 平均值=20 标准偏差=2.4
可见标准偏差越大,则测量数据分布的越散,标准偏差越小,测量数据分布的越紧密,因此在实际测量中我们一般采用标准偏差来衡量一族测量数据的好坏。但是你可能已经发现了上面给出的标准偏差的计算公式与你见到的计算公式不完全一样,有一点细微的差别(如果你还没看出来,再仔细对照上面的公式和你手头的公式,你能找到一点区别的),这是因为上述计算公式实际上只对测量次数N趋向于无穷时才适用,在文章开头已经说了,该公式中的平均值就是这样定义的。但在实际测量中不可能进行无穷次测量,可操作的测量次数一般在5~20次之间,然后求其平均值,也就是说我们真正做的是从无穷个测量当中抽出5~20个样本,然后用样本的平均来代替真正的平均值。这样做的后果会导致计算出来的标准偏差偏低,为了能得到一个合理的标准偏差,因此其计算公式要修正为:

或者说由于约束条件

根号中的 N个相加项只有 N-1个才是相互独立的,因此求平均只能对此 N-1个独立项进行,上述式子才是我们经常见到的标准偏差的计算公式,用修正过的公式(或者说标准公式)重新计算A、B组数据的标准偏差:
A: 2, 4, 17, 31, 46 平均值=20 标准偏差=18.6
B:21,24,20,17,18 平均值=20 标准偏差=2.7
标准差都增大了,这表明测量次数越少,标准差与无穷次测量的标准差相差越大,测量次数越多,结果越接近无穷次测量的结果,这和前面的各个概念和定义都是吻合的。这也就是一般误差处理教程中常说的所谓 “单次标准偏差”。
平均标准偏差(标准误差 Standard error)
那么什么是 “平均标准偏差” 呢?实际上,平均标准偏差应该称为 平均值标准误差(Standard error of the mean SEM),它的定义很简单,相当于求测量平均值的标准偏差。比如上述两组数据A和B,分别是从无穷次测量当中抽取了5次作为样本,得到了平均值20,但是从无穷次测量当中抽取5次作为样本也有无穷种抽取方法,比如你可以再对同一个量测5次,得到数据C,再测5次,得到数据D,等等,每组样本都会得到一个平均值,而不同组之间的平均值理论上也是各不相同的,那同样的问题又冒出来了,究竟那个平均值才更接近无穷次测量的平均值呢?衡量方法我们已经知道了,计算标准偏差,平均值的标准偏差计算方法是由被测量的概率分布决定的,好在自然界中几乎所有物理量都是正态分布的(特征是其概率分布曲线像一口倒扣的钟,所以又被称为倒钟形曲线)

对于正态分布的量,N次测量得到的平均值的标准偏差可以如下计算:

这个值的大小就给出了 N次测量的平均值离无穷次测量平均值的偏离程度,由于它是衡量平均值的准确程度的,因此我们总是看到它跟在测量平均值后面

而且这种直接或间接测量结果的表述形式已经成为所有自然学科都采用的标准形式。
看到这里你可能又晕了,没关系,为了科学的严谨,比这大的多的代价都不在话下,伽利略还在家里被软禁了20年呢!不过很可能是我写的不清楚,为了表示歉意,请点击这里 ,它起码可以让你下次要计算标准偏差的时候,不会再次头晕,:-)
没有评论:
发表评论