Tom Lang 先生による「統計の基礎 」 シリーズ

5. 関連性の検定と尺度

イントロダクション Introduction

一方の変数の変化に伴ってもう一方の変数が変化する場合、これらの2つの変数間には関係があると考えられます。変数が名義(ときに順序)変数であれば、これらの変数は「関連する」とされ、連続(ときに順序)変数であれば「相関する」と表現されます。相関性については別項に譲り、本章では関連性について解説します。

関連性の検定 Tests of Association

表1をみると、変数Aと変数Bが強く関連していることが容易に見て取れます。Aの症状が現れるとBの症状も現れ、Aが現れないとBも現れません。また、変数Aは変数CあるいはDとは必ずしも同時に現れておらず、AとCあるいはDとの間にはそれほど強い関連はないことがわかります。さらに、変数Aが現れるときにはEは必ず出現せず、Aが現れないときにはEは必ず出現することから、変数Aは変数Eと強い逆の関連を示すことがわかります。
表1 関連性の概念 変数Aは変数Bと強く関連し、変数Eとは逆の関連を示し、変数Dとはきわめて弱い関連を示す。
関連性を評価する検定方法はさまざまですが、一般にはカイ2乗(χ2)検定が用いられます。ここでは、関連性あるいは独立性のカイ2乗検定、適合性のカイ2乗検定、Fisherの正確検定の3つの関連性の検定について解説します。また、関連性の検定と混同されることが多い差のカイ2乗検定についても触れます。 関連性あるいは独立性のカイ2乗検定
関連性あるいは独立性のカイ2乗検定は、名義(ときに順序)変数間の関係の強さを評価する際に用いられます。「関連性」および「独立性」は、「同じコインの異なる面」を指します。2つの変数間に関連性がある場合は関連している、関連性がない場合は独立していると表現されます。 血清カルシウム濃度(低値対正常値または高値)が骨粗鬆症(の有無)と関連するのかを知りたい場合の例を、表2に示す4つのセル(分割表)を用いて説明します。血清カルシウム濃度と骨粗鬆症が完全に関連していれば、女性100人中全員が上段左側のセルまたは下段右側のセルのいずれかに当てはまるはずです。一方で、血清カルシウム濃度と骨粗鬆症が完全に独立していれば、女性100人中約25人ずつが4つのセルにそれぞれ当てはまると予測されます。つまり、関連が偶然にすぎない場合は、2つの変数の組み合わせは4つのセルにおおむね均等に分布することになります。
表2 骨粗鬆症と血清カルシウム濃度が関連しない場合に、偶然に各セルに分布すると期待される女性の割合
関連性あるいは独立性のカイ2乗検定では、データで観察された「割合の組み合わせ」を、偶然生じると期待される確率と比較します。この検定により、データ上で観察された割合の組み合わせが偶然生じる確率を示すP値が得られます。上述の例では、上段右側および下段左側のセルに全データが分布する場合、P値はきわめて低くなります。一方で、全データが4つのセルにおおむね均等に分布している場合は、P値はきわめて高くなります。これは、データ上で認められた割合の組み合わせは、偶然によって説明できる可能性がきわめて高いことを意味しています。
表3に同様の原理の例を示します。この表にはセルが6つあります。前述の例と同様に、データで観察された割合の組み合わせが偶然の結果であれば、各セルには標本の約16%が分布すると予測されます。割合の組み合わせがすべてのセルにほぼ均等に分布していれば、P値は大きくなり、データは独立していると表現されます。
表3 疾患の有無と症状が関連しない場合に偶然に各セルに分布すると期待される標本の割合
関連性は通常、P値によってのみ判断されます。統計学的に有意なP値は、変数が関連していることを、有意ではないP値は、変数が独立していることを意味します。しかし、以下に示すようなファイ(フィ)係数といった関連の尺度もあるので注意が必要です。
適合性のカイ2乗検定

適合性のカイ2乗検定は、関連性あるいは独立性のカイ2乗(χ2)検定とほぼ同様ですが、観察された割合の組み合わせを、偶然とではなく、既知の結果と比較する点が大きく異なります。たとえば、利き手がボール投げなどのスキルと関係するとの仮説を検証する場合、検証の前に、標本の利き手の割合が、一般母集団を代表しているかどうかを確かめる必要があります。一般には、全体の約8割が右利きで、残りの2割が左利きであることが知られています。利き手の割合が男女の間で等しいと仮定すると、割合の組み合わせは表4のようになります(行および列の最後の百分率の合計は、表の右側および下段の「周辺」または端に示されるため、「周辺和」と呼ばれます)。

表4 利き手の割合が男女間で等しいと仮定した場合の割合の組み合わせ
適合性のカイ2乗検定によって、観察された割合の組み合わせが、一般母集団における利き手の割合の組み合わせと異なる確率を評価します。
Fisherの正確検定
Fisherの正確検定は、カイ2乗検定のように近似値ではなく、「正確な」P値を算出する検定法です。同じデータを解析した場合でも、カイ2乗検定のP値は、Fisherの正確検定で算出したものよりも相当低くなることがあり、この違いは重要となります。Fisherの正確検定は、一般的には少数の標本に用いられますが、大きな標本にも使用できます。
差のカイ2乗検定
差のカイ2乗検定は、これまで説明してきた関連性の検定と同じような名前がついていますが、2つの群のサイズが偶然によって期待されるものと異なる確率を評価します。たとえば、ある疾患を再発しないで生存していた患者の割合を治療群21%、対照群44%とし、これらを比較すると仮定します。この場合も検定からP値が得られますが、このP値は、両群間の割合の23%の差が偶然によって生じる確率を示します。この確率が低い、すなわち100回中5回未満(<0.05)であれば、研究終了時点でこれらの群は実際に異なっていたと結論づけられ、この差は治療の結果生じたものと考えられます。

関連性の尺度 Measures of Association

リスク、オッズとハザード比関連性は通常、P値のみに基づき、その有無が報告されますが、この関連性の強さは関連性の尺度で表されます。たとえば、ファイ(φ、「フィ」と発音します)係数は、-1から+1の値をとる関連を表す尺度のひとつです。+1は完全な(強い)関連、0は関連なし、-1は完全な逆の関連があることを意味します。
比もリスクを報告する際に用いる関連の尺度です。医学分野ではオッズ比、リスク比、ハザード比が広く用いられていますが、これらの3つの比は、値が1の場合は、ある群のリスクがもう一方の群のリスクと同じであることを意味します。また、値が1より大きい場合は、分子の群でリスクが大きいことを、値が1より小さい場合は、分母の群でリスクが大きいことを示します。
リスクは、単に、何かが生じる頻度です。ある町の居住者100人中3人が自転車で転倒すると仮定すると、自転車事故を起こすリスクは3%となります。また、100人中2人が歩行中に転倒する場合、転倒リスクは2%です。リスク比は、単に2つのリスクの比であり、上述の例では、自転車事故リスクを歩行中の転倒リスクで除すると3/2、すなわち1.5となり、これは自転車で転倒するリスクが歩行中に転倒するリスクの1.5倍であることを意味します。
ハザード比はリスク比と同じものと解釈されます。ただし、ハザードはリスクの長期的な尺度であるという点で、両者は異なります。ハザード比は、あるイベントがある期間に生じなかった場合、次の期間に生じるであろう確率です。

ハザード比は、アウトカムが2値(生存または死亡、治癒または治癒しないなど)で、イベントが発生するまでの時間を評価する研究に用いられます。ハザード比は、「イベント発生までの期間」または「無効までの期間」の解析に用いられるCox比例ハザード回帰分析の反応変数でもあります。ここで重要なのは、アウトカムは、ある開始時点からの「イベント発生までの期間」であり、イベント自体ではないという点です。たとえば、死亡した事実そのものではなく、入院から死亡するまでに要した期間が評価の対象となります。ただし、Cox回帰分析は、死亡と関連がある因子を特定する解析にも用いられます。

オッズ比は、リスク比と同じものと解釈されがちですが、これらは大きく異なります。1組52枚のトランプから13枚のハートを選ぶリスク(確率)は、13/52=1/4=25%ですが、オッズは、ハートを選ぶ確率を、ハートを選ばない確率で除したもので13/39=1/3=33%となります。

オッズ比は、ある群のオッズをもう一方の群のオッズで除したものです。表5は、喫煙者および非喫煙者で心臓発作が起こるオッズと、両群のオッズ比をまとめたものです。喫煙者の心臓発作が起こるリスクは、心臓発作を発症した喫煙者の人数を喫煙者の総人数で除して算出し、14/36=0.39となります。喫煙者の心臓発作が起こるオッズは、心臓発作を発症した喫煙者の人数を、心臓発作を発症していない喫煙者の人数で除した14/22=0.636となります。また、非喫煙者の心臓発作が起こるオッズは5/33、すなわち0.152となります。オッズ比は0.636/0.152=4.2となり、これは、喫煙者は心臓発作が起こる可能性が非喫煙者の4.2倍であることを意味します。
表5 オッズおよびオッズ比の計算の例
喫煙者の心臓発作が起こるオッズ:14/22=0.636
非喫煙者の心臓発作が起こるオッズ:5/33=0.152
オッズ比:0.636/0.152=4.2
喫煙者の心臓発作が起こるオッズは、非喫煙者の4.2倍である
リスク比やハザード比と同様に、オッズ比が1の場合、両群のオッズは等しいことを示します。オッズ比が1より大きければ、有害な作用があることを、オッズ比が1より小さければ、イベントを防ぐ作用があることを意味します。
オッズ比は理解が難しい尺度ですが、有用な統計学的手法であるロジスティック回帰分析のアウトカムとして広く用いられています。 カッパ統計量関連性の尺度には、カッパ(κ)統計量も一般的に用いられます。これは、同じ対象者から得られた多数の観察値に対する評価者間の「一致度」を評価するものです。カッパ統計量は、診断検査の正確性を測定する際によく用いられます。これは-1から+1の値をとり、+1は完全な一致を、-1は完全な不一致を示します。

参考文献

Lang TA, Secic M. How to Report Statistics in Medicine: Annotated Guidelines for Authors, Editors, and Reviewers. Philadelphia: American College of Physicians, 1997. Reprinted in English for distribution within China, 1998. Chinese translation, 2001. Second edition, 2006. Japanese translation, 2011; Russian translation, 2013.