2021.9
吉村洋介

5.不確かさの精確な記述:GUMのはなし

SI 文書 にも言及がありますが、 GUM と呼ばれる公的な測定値の不確かさの表現についてのルールが整備されています。 この GUM に関わっては、 不確かさの評価に関わる詳細な文書が公開されていますが、 ぼくに理解できる範囲で、 その考え方と、 GUM による表現方法について紹介します。

5-1.データのばらつきの取り扱い

これまで化学系では多くの場合、測定結果の誤差について、 系統誤差と偶然誤差という立場から理解されてきました。 たとえばマイクロピペッターで 100 μL の水を 10 回程度採取して重さをはかり、 そこから平均と標準偏差を求め、 (99.48 ± 0.32) μL という形で表現し、 「系統誤差が -0.52 μL で、偶然誤差が ± 0.32 μL であった」 という具合にしてきたわけです (この文脈の ”偶然誤差” は、平均値の偶然誤差ではなく、1回採取するごとの採取量のばらつきについてのもの)。

ところがこの ± 0.32 μL というところなのですが、 化学の多くの分野では標準偏差を取るようです。 けれども分野によっては標準偏差の 2 倍を採用したりします。 あるいは化学以外に目を転じると、 そもそも ”許容誤差” を考え、公差 tolerance、つまりこの範囲内に入っていなければならないことを主張する場合もあります (機械系ではネジがネジ穴に嵌らなかったりするので、厳格に運用されているようです)。 またこの偶然誤差、データのばらつきをめぐっては、 マイクロピペッターの例を取れば、 先端チップに残る残量や温度変化の影響などマイクロピペッター自体の問題もあれば、 はかり取った水の重さをはかる天秤の問題もあり、 事態は複合的です。

国際単位系 SI は、分野を超えた物理量のやり取り(”単位の換算”)を可能にする枠組みを提供してくれるわけですが、 こうした偶然誤差、ばらつきについても、 1970年代に入ってルール作りが進み、 1985年に略称で GUM と呼ばれる "Evaluation of measurement data — Guide to the expression of uncertainty in measurement"、 「測定における不確かさの表現のガイド」 と呼ばれる文書としてまとめられました (2008年の現行版は、その後若干の修訂を加えたもの)。

5-2.GUM における不確かさの取り扱い

5-2-1.「誤差」と「不確かさ」

さて「不確かさ uncertainty」という、 用語を使うわけですが、 これまでよく使われてきた「誤差 error」ということばは、GUM の中では基本、使われません。

誤差というのは測定値と「真の値」の差として定義されます。 けれども何が「真の値」なのかは難しい問題です。 例えば先のマイクロピペッターの場合、 100 μL になるようにセットして、 平均 99.48 μL の水を採取したわけです。 この時、セットした 100 μL はあくまで「目標値」「理想」であって、 99.48 μL がこのマイクロピペッターで採取できる水量の「真の値」ではないでしょうか。 こうした問題は一種哲学的な問題でもあって厄介です。

そこで GUM では「真の値」をめぐる問題は棚上げして、 較正操作等がすべて行われたとして (つまり従来のことばで言えば、系統誤差、偏りが除かれたとして)、 残っている測定値のばらつき、 不確かさを取り扱うという立場に立ちます (「真の値」があるという立場からは、「偶然誤差」ということになりますが、 測定可能量にこだわる立場からは、「不確かさ」ということになります)。

5-2-2.標準偏差を用いた不確かさの評価

さて不確かさについて、先の原子量の変動範囲表示のように、 単純に不確かさの範囲を足しこんでいく考え方もあれば、 統計学でよく出会う、独立なランダム変数の取り扱いのように、 分散の和で評価する考え方もあります。 GUM では、後者、ランダム変数の和として、不確かさを取り扱う立場を取ります。

おおまかに GUM の不確かさの評価手順をなぞると、 次のような形で進めることになります:

  1. 繰り返し実験から得られた標準偏差(A 型の標準不確かさ uA)と 所与の知見から得られる標準偏差(B 型の標準不確かさ uB)を評価し、
  2. 両者から結合標準不確かさ uCuC2 = uA2 + uB2)を得て、
  3. 統計的な処理で、所要の信頼度の下での信頼区間を ± (k uC) の形で与える (U = k uC を拡張結合不確かさ、k を包含係数と呼ぶ。

よく統計の教科書などに載っている、 t-分布を用いた信頼区間の推定手法をなぞっているわけです。 そしてその統計学の枠組みの中で、 「所与の知見から得られる不確かさ」の取り扱いを明確にし、 実験計画法などの根幹にあるともいえる分散分析の手法を、 さまざまな分野の測定に適用することを宣言したと言ってもいいでしょう。

5-3.不確かさのものさし:標準不確かさと拡張不確かさ

GUM では測定値の不確かさに関して、その(実験)標準偏差(標準不確かさ)を求め、 そこから信頼区間(拡張不確かさ)を決めるという手順を踏みます。 ここではそのあたりを概観します。

5-3-1.A 型の標準不確かさの評価:繰り返し測定(“偶然誤差”)

A 型とされるものは、繰り返し実験を行って統計的に定めた不確かさで、 従来から行われてきた手法です。 データの出現頻度から標準偏差を評価し、 この際、標本分散・標本標準偏差を用います (Excel でいうと var.s 関数、stdev.s 関数 (われわれオールドタイマーはvar 関数、stdev 関数)を用いるわけです)。

\[ s^2 = \frac{1}{n-1} \sum_i {(x_i - \bar{x})^2} \]

標本分散の期待値 \(\langle s^2 \rangle\) は、測定値の分散 \(\sigma^2\) になります(不偏推定)。 これは個々の測定値の標準偏差ですが、 平均値の分散 \(\sigma^2(\bar{x})\) はこの \(1/n\) になります。

\[ \sigma^2(\bar{x}) = \frac{\sigma^2}{n} = \frac{\langle s^2\rangle}{n} \]

原則はこれでよいのですが、 問題は繰り返し回数です。 「十分大きい」ことが求められるのですが、 3 回ぐらいの実験から評価した標準偏差では、 せいぜいケタを議論できる程度のものでしかありません (正規分布に従うとした場合、標準偏差のばらつきはおよそ\(1/\sqrt{2n}\) 程度であることが知られています。 つまり5回程度の繰り返し実験では、3割程度の ”不確かさの不確かさ” は覚悟しないといけません。 天秤の較正操作などで規格化されている手順では 10 回やるというのが多いようです)。

ここで考える「繰り返し実験(併行実験)」というのは、 「同じ人が、同じ場所、同じ手法、同じ装置を用いて、短時間のうちに、」 行うものが想定されています。 またさらに 「あたかも異なる n 個の試料について測定を実施するかのように、独立して行わないといけない。」 ということになっています (JIS Z8402-2:1999「測定方法及び測定結果の精確さ(真度及び精度) 第2部:標準測定方法の併行精度及び 再現精度を求めるための基本的方法」)。 ですから先のマイクロピペッターの実験で言うと、 できれば毎回チップを取り替え、リンスするところから始めて、 水をはかり取る操作を、あまり時間をおかず(途中休憩を挟まず)10 回程度繰り返すことになります。

また「短時間のうちに」とあるのは、単に手早くということではなく、 その時間の間の実験条件の変動が無視できるという意味です。 たとえば同じ条件で 100 回やれば平均値のばらつきは 1/10 になるはずですが、 計算機実験ならともかく、人間が 100 回もやれば、その間にスキルが向上する効果もあるでしょうし、 あるいは疲れ果ててミスが頻発することもあるでしょう。 そうした効果の無視できるような、時間を想定するわけです。

学生実験の容量分析の実験で、 ビーカーを3個並べて、最初に滴定溶液を3つ用意して、 流れ作業式に滴定を行って、3回の実験を行ったことにして、 「3回やったので誤差は \(1/\sqrt{3}\) になった」 とするのを見かけたりしますが、 これで不確かさを議論するには、 そもそも回数が少ないうえに、 繰り返し実験の要件も満たしていないわけです。

なおここでは「繰り返し性 repeatability」を問題にしているわけですが、 よくわれわれが用いる「再現性 reproducibility」ということばは、 JIS(ISO)の規格の中ではかなり厳格な意味で用いられています(JIS Z8402-2:1999)。 つまり先の繰り返し実験で挙げた例にならうと 「異なる人が、異なる場所、異なる手法、異なる装置を用いて、異なる時間に」 行い、測定結果を比較して同じになるかどうかを見ます。 さらに大規模には、国際的な研究機関同士の比較実験も視野に入ってきます。

5-3-2.B 型の標準不確かさの評価:あらかじめの知見から導かれる不確かさ

B 型とされる不確かさは、 あらかじめの知見から分かっているものです。 これにはいろんな種類のものが考えられます。 分かりやすいのは、 測定器などの仕様書についてくる ”確度” や ”精度” です。 場合によっては自分でマルチメーターや天秤の精確さをチェックする(A 型の不確かさ)こともあるでしょうが、 メーカーの仕様書を信じるのが無難でしょう。

あるいはある検査機関で Q さんという人が排水中の亜鉛濃度を分析すると、 分析値の標準偏差が 2 % だというのがこれまでの経験から分かっておれば、 それを不確かさとして折りこむことも考えられます。 こうしたいわば ”属人的” な不確かさの扱いは、 しばしば「あの人に任せておけば安心だ」 「あの人に任せておくと不安だ」といった形で暗黙の裡に行われていますが、 それをもっと明示的に行うことも視野に入れてよいのです。 実際、各人の測定スキルを認証する制度は、 さまざまな現場で導入されているようです。

5-3-3.結合標準不確かさと拡張不確かさ(信頼区間)の評価

繰り返し実験から頻度分布に基づいて得た不確かさ(A 型)と、 あらかじめ分かっている不確かさ(B 型)をえたら、 そこから結合標準不確かさ combined standard uncertainty uC を得ます。

さきのマイクロピペッターの採取量の実験で、 10 回の繰り返し実験で、平均 99.48 μL、 標本標準偏差 0.32 μL であったとすると、 平均値の標準不確かさは 0.32 μL/\(\sqrt{10}\) ≈ 0.10 μL(= uA)です。 B 型の不確かさとして、採取した水の重さをはかる天秤の不確かさだけを考え、 その標準不確かさが仕様書から 0.10 mg、マイクロピペッターの採取量にすると 0.10 μL(= uB) であったとしましょう。 この2つの要素で不確かさが決まっているとすると、 結合標準不確かさは次式から、ほぼ繰り返し実験でえた不確かさに等しいことになります。

uC2 = uA2 + uB2 = 0.20 μL2
uC ≈ 0.14 μL

結合標準不確かさ uC では異なる自由度を持つ標準不確かさの和を考えるわけですが、 こうした場合の信頼区間を評価する手法として、 GUM では、 一般によく用いられているウェルチ-サタスウェイト Welch-Satterthwaite の式で実効自由度 νeff を評価する手法を推しています (GUM 付録G)。 このマイクロピペッターの不確かさの場合、 繰り返し実験の不確かさ uA の自由度は 10 - 1 = 9、 天秤の不確かさ uB の自由度は ∞ と考えられるので、実効自由度 νeff は 36。 実際的には t-分布を用いるまでもなく、 正規分布を仮定して問題ありません。

uC4/νeff = uA4/9 + uB4/∞ = uA4/9

信頼区間として信頼度 95 % を取ると、 正規分布なら ±1.96 σ ですから(自由度 36 として t-分布から評価すると ±2.03 σ )、 信頼区間は ±2.0 × uC = ±0.28 ということになります。 この信頼区間の巾 0.28 μL を拡張不確かさ expanded uncertainty U と呼び、 係数 2.0 を包含係数 coverage factor k と呼びます。

なおここでは非常に単純化したマイクロピペッターの水の採取量の例を考えましたが、 実際には不確かさの要因が 5 個以上になるようなケースや、 それぞれの要因が独立でないことも多いのです (例えばマイクロピペッターの例で、水の密度の不確かさ、 水の蒸発を要因として考えると、両者は温度の不確かさを介して相関を持ちます)。 そうした場合については、ここで考えたようなお行儀のいい方法ではなく、 モンテカルロ法を用いたシミュレーションなどが活躍することになり、 そうした手法のマニュアルがGUM の補足文書にまとめられています。 またそうした計算を補助するサイトも NIST には作られています (NIST Uncertainty Machine)。

5-4.不確かさの表記

5-4a.標準不確かさの表記

GUM では、結合標準不確かさ uc を得たら、次の4種のどれかで表示することになっています (結合標準不確かさ combined standard uncertainty という文言はなくてもよい)。

  1. v = 99.48 μL で(結合標準不確かさ) uc = 0.14 μL。
  2. v = 99.48(14) μL 。ここでカッコ内の数字は示した結果の最後のケタに対応する (結合標準不確かさ) uc
  3. v = 99.48(0.14) μL 。ここでカッコ内の数値は (結合標準不確かさ) uc を結果の単位で表した数値。
  4. v = (99.48 ± 0.14) μL。 ここで記号 ± 以下の数値は(結合標準不確かさ) uc で信頼区間ではない。  【非推奨】

この表記の中で、現在もっともよく見るのは、4 の標準不確かさを a ± b の形で表示するタイプでしょう。 しかしこれは後の拡張不確かさ U を用いた信頼区間の表示と紛らわしいので、 非推奨とされています。 推奨のタイプの中では 2 の表記が、コンパクトなこともあって、少しずつ ”はやり始めている” ように見受けますが、 不確かさについての記述があいまいなケースが多いようです。 GUM が公刊されてもう30年以上になるのですが、 ぼくも含め、方針が徹底していないのは遺憾なところです。

5-4b.信頼区間の表記

拡張不確かさ U を用い信頼区間を表記する時は ± 記号を用い、 包含係数など根拠を明確に示すことになっています。

例:
(99.48 ± 0.28) μL。 ここで ± 記号の後の数値は(拡張不確かさ)U = kuc で、 U は (結合標準不確かさ) uc = 0.14 μL について(包含係数)k = 2.0 になるように定めた。

このあたりになってくると、 統計に対する基本的な知識が必要で、 ちょっと記述も重くなってきます。 実際、ここまで不確かさの評価をしている例は、まれなように思います。


前のページへ   次のページへ
表紙のページへ