3.4回の測定で得た測定値 \(x_1, x_2, x_3, x_4\) の残差2乗和 \(S\) について問いに答えよ。
3-1.\(S = a [(x_1 - x_2)^2 + (x_2 - x_3)^2 + (x_3 - x_1)^2] + b (3x_4 - x_1 - x_2 - x_3)^2\) と表したとき、\(a, b\) はそれぞれいくらか?
3-2.\(S = a (x_1 - x_2)^2 + b (2x_3 - x_1 - x_2)^2 + c(3x_4 - x_1 - x_2 - x_3)^2\) と表すことができる。 \(a, b, c\) はそれぞれいくらか?
\begin{eqnarray} S &=& a [(x_1 - x_2)^2 + (x_2 - x_3)^2 + (x_3 - x_1)^2] + b (3x_4 - x_1 - x_2 - x_3)^2\\ &=& \frac{1}{3} [(x_1 - x_2)^2 + (x_2 - x_3)^2 + (x_3 - x_1)^2] + \frac{1}{12} (3x_4 - x_1 - x_2 - x_3)^2 \label{eq:norma} \end{eqnarray}
\begin{eqnarray} S &=& a (x_1 - x_2)^2 + b (2x_3 - x_1 - x_2)^2 + c(3x_4 - x_1 - x_2 - x_3)^2 \\ &=& \frac{1}{2} (x_1 - x_2)^2 + \frac{1}{6}(2x_3 - x_1 - x_2)^2 + \frac{1}{12} (3x_4 - x_1 - x_2 - x_3)^2 \label{eq:normb} \end{eqnarray}
この問題自身は、中学・高校でも出てきそうな問題で、 何のことやらと思った人がいるかもしれません。 指定のように式の変形ができることを認めれば、 問題を解くこと自身は簡単で、展開した時の\(x_i x_j\) の両辺の係数が等しくなるように \(a, b, c\) を決めればよいだけです。 問 (1) であれば\(x_4^2\) の項に注目して \(b = 1/12\)、 後は\(x_1^2\) に注目して \(2a + b = 3/4\) から \(a = 1/3\) という具合です。 本当に指定の通りに式の変形ができるか心配なら(ぼくの作る問題ではよくあることですが)、 実際に両辺を展開して係数を比較してもらえれば、 \(x_i^2\) の項が \(3/4\)、 \(x_i x_j ~~ (i\ne j)\) の項が \(-1/2\) の係数を持つことが確認いただけるでしょう。
この問題のポイントは、残差2乗和が自由度 N - 1 の χ2 乗分布になることを、 実際に確認するところにあります。 ここで問題にしている残差2乗和は \(\vec{x} = \{x_i\}\) として、 2次形式の形で書くと、次の形にかけます:
\[ S = {}^t \vec{x} \left( \begin{array}{cccc} 3/4 & -1/4 & -1/4 & -1/4 \\ -1/4 & 3/4 & -1/4 & -1/4 \\ -1/4 & -1/4 & 3/4 & -1/4 \\ -1/4 & -1/4 & -1/4 & 3/4 \end{array} \right) \vec{x} = {}^t \vec{x} (E_4 - (1/4) J) \vec{x} \]
ここで \(E_4\) は4次の単位行列、\(J\) は行列要素がすべて 1 の 4 × 4 の行列です。 \(J\) の固有値は 4 と 0 で、4 に対応する固有ベクトル \(\vec{n}\) は t(1, 1, 1, 1)、 0 に対応する固有ベクトル \(\vec{a}\) は3重に縮退していて \(\vec{a} \cdot \vec{n}\) = Σ ai = 0 を満たします。 このことは実際 \(J \vec{a} = \lambda \vec{a}\) に代入して確認できるでしょう。
さて残差2乗和の表式にもどると、 \(E_4 - (1/4) J\) の固有値は 0 と 1 で、固有ベクトルは\(J\) の固有ベクトルと一致し、 固有値 0 に対応する固有ベクトルは \(\vec{n}\) で、 固有値 1 に対応する固有ベクトルは、3重に縮退している\(\vec{a}\) です。 ですから昔勉強したであろう2次形式の議論を思い出すと、 直交するように\(\vec{a}\) を選んで\(|\vec{a}| = 1\) ととれば、固有値が 1 なので
\begin{equation} S = {}^t \vec{x} (E_4 - (1/4) J) \vec{x} = (\vec{a_1} \cdot \vec{x})^2 + (\vec{a_2} \cdot \vec{x})^2 + (\vec{a_3} \cdot \vec{x})^2 \label{eq:norm} \end{equation}
と整理できるはずです。 実際、問 (2) の式 \eqref{eq:normb} で登場している \({}^t \vec{a}\) を眺めてみれば、 \((1, -1, 0, 0) / \sqrt{2}\)、\((-1, -1, 2, 0) / \sqrt{6}\)、\((-1, -1, -1, 3) / \sqrt{12}\)、 となっていて、 \({}^t \vec{n} = (1, 1, 1, 1)\) に直交し、 また互いに直交・正規化されていることが確認できます。
残差2乗和とχ2 乗分布の関係に引き付けてみると、 もとの\(\{x_i\}\) がそれぞれ独立な正規変数であるとすれば、 それを加減したものも同様に正規変数になっているはずです。 ですから式 \eqref{eq:norm} のように整理できるということは、 この残差2乗和 S が、独立な正規変数を2乗したものを3個足しこんだものであること、 つまり自由度 3 の χ2 乗分布に従うであろうことを示しているわけです。
なお縮退した固有ベクトルから直交するベクトルを取り出すには、無数の取り方があります。 たとえば \((1, -1, 0, 0) / \sqrt{2}\)、\((0, 0, 1, -1) / \sqrt{2}\)、\((1, 1, -1, -1) / 2\) といったものを取り出して、
\[ S = \frac{1}{2} (x_1 - x_2)^2 + \frac{1}{2} (x_3 - x_4)^2 + \frac{1}{4} (x_1 + x_2 - x_3 - x_4)^2 \]
としてもいいわけです。 これだけなら形式的な2次形式のお話ですが、 このベクトルに何か「ものがたり」を付けることができれば(たとえば4つのデータを紅白2組に分け、 互いの組の中の差 \(x_1 - x_2\) と \(x_3 - x_4\)と、 紅白それぞれの平均値の差 \((x_1 + x_2)/2 - (x_3 + x_4)/2\) )、 そこから何かもっともらしいデータに対する「解釈」が生まれることになるわけです。
なおこうした「ものがたり」を作る上では、問 (1) の式 \eqref{eq:norma} にみるように、 特に取り出したベクトルが直交している必要がないかもしれません。 ただしこの場合、ベクトル間の相関(共分散)の存在には、特段の注意を払っておく必要があります