実験にあたって：誤差とデータ処理

測定値の精確さあるいは不確かさをめぐっては、品質工学の長足の進歩なども背景に、 1970年代からこの数十年の間、さまざまな概念の整理が行われてきましたが、今も混乱がみられます。そもそも基本的な概念である、正確さ trueness、精密さ precision、精確さ accuracy についてさえ、必ずしも十分認識されているとは言い難いものがあります（JIS でこうした用語のすり合わせが一応できたのは 2019年と思われます）。ここではまず、とりあえず以前からの取り扱いに則して、「偏差」「残差」などといった言葉について整理しておきましょう。

まずともに「平均」と呼ばれることの多い、有限回の測定で得られる平均（標本平均）\(\bar{x}\) と、無限回の測定で得られる平均（母平均）\(\mu\)を区別しておきましょう。標本平均と個々の測定値\(x\)の差 \(x - \bar{x}\) を残差 residual、母平均と個々の測定値の差 \(x - \mu\) を偏差deviationと呼ぶます（分散の計算などで「残差２乗平均」といったことばが登場したことを思い出してもらっていいでしょう）。そして真の値 true value を \(t\) とする時、真の値と測定値の差 \(x - t\) を誤差 error、真の値と母平均の差 \(\mu - t\) をかたより bias と呼びます。

したがって一般に「誤差が大きい」として認識される測定値のばらつきdispersionの大きさは、偏差（あるいは残差）のばらつきに相当します。そこで誤差をさらに偶然誤差 random error（偏差を構成する成分）と系統誤差 systematic error（かたよりを構成する成分）に分け、偶然誤差を単に誤差とすることもあったりします。現在ではこの偶然誤差に相当するものを「不確かさ」uncertainty と呼び、その取り扱いに関する国際的な取り決めができあがっています。

国際的に認められたルールとして、略称で GUM と呼ばれる "Evaluation of measurement data — Guide to the expression of uncertainty in measurement"、「測定における不確かさの表現のガイド」という文書があります（元の文書は 1985年に公にされました）。ただし理工系の研究者の間で、どれほど知られているか大変不安な状況です。

かたより（バイアス）と偏差あるいは残差に関わって、測定の不確かさを語る以下の３つの概念が登場します。

「正確さ」と「精確さ」はともに「セイカクサ」ですが、意味するところが違っていることに注意してください。補正 correction は、正確さを期すために行われる（系統誤差を打ち消すために行われる）措置になります。ばらつき・不確かさが小さく、正確なのが、「精確」なわけです。このあたり、分野により、人により、今も混乱があります。特に「精度」ということばは、以前、計測の分野で「精確さ」 accuracy として用いられていたことがあり、注意が必要です（JIS の改訂が行われたのは2019 年のこと）。

また測定値のばらつき、精密さにかかわっては、測定の ”再現性” が重要になるわけですが、「再現性」ということばが、しばしばあいまいに使われていることに注意が必要です。専門的には ”繰り返し性” と ”再現性” が区別されて使用されます（JIS Z8402-2:1999「測定方法及び測定結果の精確さ（真度及び精度）第2部）。

ここで繰り返し性にかかわって「同一の測定条件」とされているものには、実験する人なども含まれています（もっというと「同じ人が、同じ場所、同じ手法、同じ装置を用いて」測定することを想定）。この「人」の要素は、「あの人に任せておけば大丈夫」といった形で、しばしば暗黙の裡に考慮されているわけですが、再現性を考える上で大事な要素です。

２．分散・標準偏差

分散 \(\sigma^2\) は測定値の偏差の２乗の母平均\(\langle (x - \mu)^2 \rangle\)であり、その平方根 \(\sigma\) を標準偏差と呼んでばらつきの目安とします。独立な \(N\) 回の測定値から分散は、残差 \(x_i - \bar{x}\) を用い（\(\bar{x} = (\sum x_i)/N\) は標本平均）、下式で与えられる標本分散 \(s^2\)、標本標準偏差\(s\)で評価されます。

\[ s^2 = \frac{1}{N-1} \sum_i {(x_i- \bar{x})^2} = \frac{N}{N-1} (\bar{x^2} - \bar{x}^2) \]

標本分散の母平均 \(\langle s^2 \rangle\) は、分散 \(\sigma^2\) に等しく、標本平均の分散は、分散の \(1/N\) になります。

ですから \(N\) 回の測定の平均として、測定値 \(m\) を決めたとすると、その測定値の分散は \(u^2 = s^2/N\) で評価できます。測定値 \(m\) に不確定さを加味して表示する際にはよく \(m \pm ku\)という表示が用いられています。 \(k\) は包含係数と呼ばれ、化学では \(k = 1\) と取ることが多いですが、分野によっては \(k = 2\) をとる流儀などもあり、紛らわしい場合には明記しておいた方がよいでしょう。よりコンパクトに表示する場合には、たとえば3.664±0.015 を 3.664(15)と表記することもあります。

このあたりの標準的な取り扱いは、GUM 文書を参照ください。

標本標準偏差 \(s\) にどの程度の精度が期待できるかですが、正規分布を仮定すると、\(N\) 回の測定から得られる標本標準偏差 \(s\) の標準偏差はおよそ \(s/\sqrt{2N}\) 程度になります。つまりたかだか 10回程度の測定からえられる標本標準偏差には数十 %の不確かさが存在するので、たいていの場合、詳細な数値をあげつらうのは意味がありません。

平均 \(\mu\)、標準偏差 \(\sigma\) の正規分布に従うならば、測定値の50 %は \(\mu \pm 0.674~\sigma\) の範囲に入ることになります。この \(0.674~\sigma\)を公算誤差と呼ぶことがあります（「公算」は今はあまり使われませんが確率のことです。現在でも「合格の公算が大きい」といった風に、使われています。かつては確率論を公算論と呼んだ時代もあるそうです）。

３．誤差の伝播

いくつかの独立な測定値の関数としてある量 \(z\) が与えられるとき、 \(z\) の分散はそれぞれの測定値の分散の和の形になります。 \(z\) が２変数 \(x\) と \(y\) の関数である場合、 \(z\) の微小な変動 \(\delta z\) は\((\partial z/\partial x) \delta x + (\partial z/\partial y) \delta y\)で表わされ、 \(z\) の分散 \(\sigma_z^2\) は次式のように \(x\) と \(y\) の分散の和の形で表わされます：

\[ \sigma_z^2 = (\partial z/\partial x)^2 \sigma_x^2 + (\partial z/\partial y)^2 \sigma_y^2 \]

これを誤差の伝播則と呼びます。たとえば \(z = xy\) と \(z\) が２つの物理量の積で表される場合には

が成立して、\(z\) の相対誤差の分散は、それぞれの相対誤差の分散の和になります。同様の関係は \(z = x/y\)という除算についても成立し、有効数字の乗除計算の基礎となります。

４．有効数字について

有効数字で表記された値の末尾の数値は ±1 程度に疑わしいと考えられます。たとえば、ビュレットなどの測容器では最小目盛りの1/10 を目測で読んでいるので、 1/10 目盛りが表記の最終桁ということになります。

有効数字を用いた計算では最初に現れる疑わしい桁を考え、それよりも１ケタ余計に数値をとって計算を進めます。そして最後に、余計にとってあったケタの数値を丸めます。

【加減】有効数字の末位が最高のケタとなるものを基準にする。

例　a = 13.57 cm, b = 0.246 cm, c = 0.0567 cm なる長さの和を求める。

例　２辺の長さが、a = 13.57 cm, b = 4.56 cm の長方形の面積を求める。

誤差とデータ処理

１．誤差をめぐる諸概念

２．分散・標準偏差

３．誤差の伝播

４．有効数字について