検量線が正しいことの確認として、よく相関係数 R²=0.99以上があげられます。今回は相関係数の罠について解説します。
相関係数とは
化学分析の世界でいう相関係数 R²は統計学においては決定係数といい、計算式は一般的に以下の式で表されます。

相関係数 R²は0~1の値を取り、1に近づく程、検量線と各測定点の一致度が高い(フィティングがよい)ことを意味します。
また、検量線が一次式の場合に限り、相関係数 R²はピアソンの積率相関係数の二乗と一致します。
相関係数の罠
相関係数 R²は検量線と各測定点の一致度を表す為、一見するととてもよい指標に思えます。
ですが、計算式を見るとその危険性が分かります。
まず、相関係数の計算式は

です。
そして、分母の

はyの偏差の二乗和を表しており、この式を期待値で表すと、

となります。
この時 E[Y] はyの平均値、E[Y²] はyの二乗の平均値です。
つまり、この分母の

は平均値で算出されていると言えます。
また、分子の

はyの残差 ei の二乗和を表しており、分母同様、期待値で表すことが出来ます。
(計算式は省略します)
なので、相関係数 R²は平均値で算出が可能なため、平均値の特性である外れ値(高い値)の影響を強く受けます。
そのため、検量線の範囲が広ければ広いほど、相関係数 R²の値は当てにならなくなります。
罠の例
ある物質を濃度範囲1~10で4点(BKを除く)で作成した検量線(10倍範囲検量線)が次のようだったとします。

再計算値は検量線「y=0.8688x+0.2586」のxに信号強度を代入した時の値です。
設定濃度との差は「設定濃度-再計算値」つまり残差 ei の値です。
この残差 ei が大きいほど測定点が検量線から大きくずれていると言えます。
そして、この検量線の相関係数 R²は0.9985と良好、残差 ei も設定濃度「1」に対して「-0.2」と良好です。
続いて、濃度範囲1~100で5点(BKを除く)で作成した検量線(100倍範囲検量線)です。
※100倍もの濃度範囲で検量線を作成することはないと思いますが極端な例としてあげました。

見方は10倍範囲検量線と同じです。
相関係数 R²は0.9998と10倍範囲検量線の0.9985よりよくなっています。
しかし、設定濃度との差つまり、残差 ei を見ると設定濃度「1」に対して「-1.0」、再計算値も「2.0」と設定濃度に対して倍の数値となっています。
これが相関係数 R²だけでは検量線を評価してはいけない理由です。
まとめ
- 相関係数 R²は平均値同様、外れ値(高い値)の影響を受ける。
- 検量線の濃度範囲が広いほど、相関係数 R²は当てにならなくなる。
- 検量線の評価は相関係数 R²だけでなく、再計算値や残差 ei も確認する必要がある。
- R²が高い=直線に乗っている。というだけで検量線範囲内(特に低濃度)すべてが正しく測れている保証にはならない。


コメント