Tom Lang 先生による「統計の基礎 」 シリーズ

6. 相関と線形回帰分析

イントロダクション Introduction

一方の変数の変化に伴って他方の変数が変化する場合に、2つの変数間には関係があると考えます。2つの名義(ときに順序)変数が関係している場合は「関連する」と表し、2つの連続(ときに順序)変数が関係している場合は「相関する」と表します。本章では、相関分析について解説します。

相関分析 Correlation Analysis

相関はグラフ(図)で示すことができます。一方の変数をX軸(横軸)にプロットし、他方の変数をY軸(縦軸)にプロットしてグラフを作成することで、視覚的にも理解しやすくなります。この図は、データポイントがデータフィールド内に「散在している」ため、「散布図」と呼ばれます。図1に示すように、データの大部分を囲む丸や楕円は変数間の関係を表しています。図中、左下から右上へと上昇する楕円(図1A)は、2つの変数がともに増加する正の関係を表すのに対し、左上から右下へと下降する楕円(図1B)は、一方の変数が増加するに伴って他方の変数が減少する負の関係を表しています。また、正円に近い楕円(図1C)は2つの変数間に関係がないことを表しており、任意のXの値に対して、Yの値が複数存在します。
図1 それぞれの関係を表す散布図
A)正の相関、B)負の相関、C)相関なし
よく用いられる関係の尺度には、以下のものがあります。
・Pearsonの積率相関係数(r): ほぼ正規分布に従う2つの連続変数間の関係を評価する際に用いられます。 ・Spearmanの順位相関係数(ρ、「ロー(rho)」と発音します): 必ずしも正規分布に従わない2つの連続変数間の関係を評価するのに用いられます。 ・Kendallの順位相関係数(τ、「タウ(tau)」と発音します): 2つの順序変数あるいは1つの順序変数と1つの連続変数間の関係を評価するのに用いられます。 ・級内相関および級間相関係数: 同じ量に対する評価者内および評価者間の一致を評価する際に用いられます。
これらの係数は、2人の評価者がX線写真や病理スライドなどの同一の画像を評価するような診断手順に関する研究でよく利用されます。
関連性の解析では、通常、P値が統計学的に有意であるか否かに基づいて関連の有無が決定されますが、相関は程度の問題です。上述した相関係数は、いずれも-1~+1範囲の値をとります。+1は完全な正相関(2つの変数がともに増加すること)を示し、0は無相関であること(変数間に関連がないこと)を、-1は完全な負の相関(一方の変数の増加に伴って他方の変数が減少すること)を示します。
相関の有無がP値に基づいて判断されないということは、結果を解釈する必要があることを意味します。弱い、中程度、強いといった相関の記述は、関与する薬剤などに依存するもので、相関係数の値の大きさによって決まるものではありません(図2)。たとえば、静脈注射剤に含まれるある物質の濃度は、血中濃度と強く相関するはずです。相関係数が0.85であれば、他の多くの事例では相関は強いといえるかもしれませんが、この例では相関はきわめて低い可能性があります。
図2 相関の強さは薬剤により決定されるもので、相関係数の値の大きさで決まるわけではない 静脈注射剤に含有されるある物質の濃度は、血中濃度と強く相関するはずであるため、相関係数が0.85であっても相関性はきわめて低い可能性がある。
また、相関係数は推定値であるため、信頼区間を併記して推定の精度を示す必要があります。

線形単回帰分析 Simple Linear Regression Analysis

線形回帰分析は、1つ以上の既知の変数から連続変数の値を予測(推定)しようとするものです。解析に用いる既知の変数が1つの場合は「単」回帰分析、既知の変数を複数組み合わせて用いる場合は「重」回帰分析と呼ばれます。線形回帰分析では、散布図に「最小2乗回帰」を「適合させる」ことによって相関分析を行います。最小2乗回帰直線とは、すべてのデータポイントからできる限り距離を最小にするように描いた直線のことです。実際には、各データポイントから直線までの距離を2乗した「2乗和」を最小となるように描いた直線で、通常はデータを最も適切に要約するとされる「最小2乗直線」です(図3)。
図3 散布図に適合させた「最小2乗回帰直線」 この直線は、各データポイントから直線までの距離を2乗した「2乗和」が最小となる直線であり、このような2乗値の和が最小となる「最小2乗直線」は、データを最も適切に要約する直線である。この直線の方程式が線形単回帰モデルとなる。
線形回帰分析では、既知および未知の値が直線的に関係するものと仮定されるため、データは最小2乗直線によって適切に要約しなければなりません。そのため、線形単回帰「予測モデル」は、直線を示す代数方程式(y=mx+b)で表すことができます。ここで、yは予測される(反応)変数、mは回帰直線の勾配(ここでは、xの単位あたりの変化に対してyがどの程度変化するのかを示す回帰係数、または「ベータの重み」)、xはyの値の予測に用いる既知の(説明)変数、bは「y切片」、つまり回帰直線がy軸と交差する点を意味します(図4)。
図4 線形単回帰「予測モデル」は、直線を示す代数方程式(y=mx+b)で表すことができる ここで、yは予測される(反応)変数、mは回帰直線の勾配(ここでは、xの単位あたりの変化に対してyがどの程度変化するのかを示す回帰係数、または「ベータの重み」;図中オレンジの線)、xは既知の値(予測に用いる説明変数)、bは「y切片」、つまり、回帰直線がy軸と交差するときのyの値(この図では1)である。このモデルでは、Xが6のときはYは5.5となり、Xが9のときはYは7.5となることが予測できる。
線形関係による予測は、分析により確認し報告する必要があります。この仮定は「残差分析」で検定されます。残差は、x、yの実測値と直線モデルによる予測値との差です(図5)。xとyの関係が線形である場合、残差のグラフを作成すると、x軸の値の全範囲にわたって差がゼロに近く幅の狭い帯の形をとります。つまり、すべてのxの値で任意のxの値に対するyの実測値とyの予測値の差が小さくなり、こうしたモデルによる予測の精度は高いものになります(図6)。
図5 残差は、実測値とモデルによる予測値(図中、灰色の直線)との差である 残差のグラフは、データ間の関係が線形であるかどうかを判定するのに役立つ。

図6 線形単回帰モデルの残差のグラフの例 A)データ間に線形の関係があることを裏づけるグラフ。
  x軸の値の全範囲を通して差は小さく、ゼロのラインに近い。
B)データ間の関係は線形であるが、データのばらつきが大きく、
  図Aで示したモデルほど予測はよいものではないと考えられる。
一方、残差のグラフがxの範囲に沿った幅の広い水平方向の直線である場合も関係は線形であるといえますが、データのばらつきが大きく、こうしたモデルでは十分に値を予測できません。また、その他の形状をとる残差のグラフは非線形の関係であることを意味します(図7)。
図7 データが非線形の関係をとるモデルの例
関係が線形であるとの仮定を確認する際には、相関係数の2乗値である「決定係数」(r2)を報告する必要があります。r2は、モデルの適合度、つまりyの値のばらつきを既知のxでどの程度説明できるかを示すもので、重要な指標となります。r2の値が0に近いほどモデルの予測の精度は低く、値が1に近いほどモデルによる予測がよいものであることを意味します。
最後に、回帰モデルはデータのモデル化が適切であるか否かを検定し、「妥当性を確認する」必要があります。この妥当性を確認する方法の1つは、たとえばデータの80%でモデルを構築した後に、残りの20%のデータをもとに構築したモデルで適切に予測できるかどうかを確かめるというものです。これらのr2の値が類似していれば、モデルの妥当性が確認されたものと考えられます。もう1つの方法は、類似した別のデータでモデルを構築して既存のモデルと比較するもので、同様にこれらのr2の値が類似していれば、その妥当性が確認されたものと評価されます。
単回帰分析を正しく報告した例を以下に示します。

体重から薬物血中濃度を予測する線形単回帰モデルを作成したところ、方程式はY=12.6+0.25Xとなった。回帰直線の勾配はゼロよりも有意に大きく、薬物血中濃度は体重増加に伴って上昇する傾向がみられた(勾配=0.25、95%信頼区間=0.19~0.31、t451=8.3、P<0.001、r2=0.67)。

ここで、

・Yは薬物血中濃度(mg/dL)である。

・12.6はY切片である。

・Xは体重(kg)である。

・0.25は回帰直線の勾配あるいは回帰係数、ベータの重みである。
体重が1kg増加するごとに、薬物血中濃度が0.25mg/dL上昇することを意味している。

・0.19~0.31は、回帰直線の勾配の95%信頼区間である。
同じ集団のデータを用いて100回研究を行った場合に、95回の研究は回帰直線の勾配が0.19~0.31の範囲内になると予想できる。

・t451=8.3は、「自由度451」のt統計量の値である。
P値を決定するための中間ステップの数値である。

・P<0.001は、xとyの間に関係がないという仮定のもとで、直線の勾配がゼロ(平坦な水平線)とはならない確率である。

・r2は決定係数であり、薬物血中濃度のばらつきの67%が患者の体重との関係で説明されうることを意味している。

線形重回帰分析 Multiple Linear Regression Analysis

線形重回帰分析は、線形単回帰分析と似ていますが、2つ以上の既知の(説明)変数から、ある未知の(反応)変数の値を予測するため、グラフで表すことはできません。また、予測因子が2つ以上存在するため、重回帰モデルを構築するプロセスでのステップがいくつか増えます。
以下に、X1~X4の4つの変数がある線形重回帰モデルの例を示します。各変数の前の数字は、回帰係数またはベータの重みであり、Xの単位あたりの変化に対してYの値がどの程度変化するのかを表しています。
Y=12.6+0.25X1+13X2-2X3+0.9X4
重回帰モデルを構築する際の最初のステップは、それぞれの予測変数とアウトカム変数との関係を1つずつ特定することです。この解析は、第2の変数が関与しないことから「未調整」解析と呼ばれます。また、この解析では、1回の解析で可能性のある予測因子を1つだけ比較することから「単変量解析」と呼ばれたり、1回に1つの予測変数と1つのアウトカム変数を比較する(つまり変数は2つとなる)ことから「2変量解析」とも呼ばれます。これら3つの用語はすべて正しいものですが、同じ論文で3つの用語すべてを目にすることもあります。
アウトカム変数と有意に関係がある予測変数は、最終的に重回帰モデルへの組み入れが考慮されることから「候補変数」と呼ばれます。アウトカム変数と関連する可能性がある予測変数を確実に特定するため、統計学的な有意水準を0.05から0.2などに引き上げることもあります。
候補変数が特定されたら、次はこれらの変数間の「共線性」と「相互作用」を評価します。共線性のある変数は互いに強く相関するため、ほぼ同じ情報をモデルに加えることになります。たとえば、身長と歩幅は強く相関するため、モデルには一方の変数を組み込めばよいことになります。
2つの変数が組み合わさることで、それぞれの変数がもたらす結果よりも大きい結果が生じる場合、2つの変数の間には相互作用があるといわれます。たとえば、バルビツール酸系薬とアルコールを同時に摂取すると、それぞれ単独では致死量ではない摂取量であっても、死に至る場合があります。こうした場合は、2つの変数間の相互作用をモデル化する「相互作用項」を設定し、モデルに組み込む必要があります。
すべての候補変数を特定し、共線性のある変数を除外し、相互作用のある変数を追加したら、次は「変数選択プロセス」の段階に移ります。このプロセスでは、候補変数をさまざまな方法で組み合わせて、複数の回帰モデルを作成します。回帰モデルはそれぞれ、線形重回帰に適用される点を除いて線形単回帰の決定係数(r2)と同様に「重決定係数」(R2)を伴います。このR2が最も大きいモデルが結果を最も適切に予測することから、最終モデルとして選択されます。

重回帰分析を正しく報告した例を表に示します。
3つの説明変数がある線形重回帰モデルを報告する表

参考文献

Lang TA, Secic M. How to Report Statistics in Medicine: Annotated Guidelines for Authors, Editors, and Reviewers. Philadelphia: American College of Physicians, 1997. Reprinted in English for distribution within China, 1998. Chinese translation, 2001. Second edition, 2006. Japanese translation, 2011; Russian translation, 2013.