生物医学研究文献の誰でも見つけられる20の統計学的誤り


Tom Lang
Tom Lang Communications(米国カリフォルニア州マーフィーズ)


 「生物医学文献を精査すると,つねに約半数の文献で統計学的方法が誤って使用されていることがわかる。」(1)

 「良質な研究は発表もうまく行うべきであり,発表はデータの収集や解析と同様に研究の一部である。よい文章は目にしたときにそれとわかる。科学も上手に表現されてしかるべきだと認識されたい」(2)

 医学文献で統計学的な確率が,はじめて論じられたのは1930年代である(3)。それ以降,一流雑誌を含む多数の学術文献で,高い割合で統計学的誤りが存在することを複数の医学分野の研究者が発見している(4-7)。大部分の誤りは基本的な統計の概念に関わるもので,ガイドラインに従えば容易に回避できるものである。しかし,実際のところ統計報告の質が悪いことは根深い問題であり,深刻な影響を及ぼす恐れがあるものの周知されていない(8)。

 「科学的根拠に基づいた医療」が提唱されるようになり,質の悪い統計報告という問題が注目されるようになってきた。科学的根拠に基づいた医療とは文献に基づく医学であり,発表された研究の質に影響される。そのため,複数のグループが試験のタイプに応じた報告ガイドラインを提案しており(9-11),広範囲の文献調査に基づいた医学統計報告のための包括的なガイドライン集もまとめられている(12)。

 今回は,統計解析に詳しくない論文執筆者,編集者およびレビュアーでも理解できる20項目の共通統計報告ガイドラインについて述べる。ただし,これらのガイドラインは氷山の一角にすぎない。したがって,この問題についてさらに知りたい読者は,今回引用した参考文献や本件についてより詳しく記述した著書(12)にあたってほしい。往々にして退屈な話題において集中力を維持するため,先に進むほど重要度が増す順序でガイドラインを提示する。

エラー1:必要以上に正確な測定値を報告する

 多くの人にとって,1,2桁の数字は3桁以上の数字よりも把握しやすい。つまり,重要な2桁の数字に丸めることで情報伝達効率が高まる(13)。例えば以下の文章は,女性および男性の両方について最終的な集団規模が当初規模の約3倍になることを述べているが,数字を丸めることではじめて明白になる。

 - 女性は29,942名から94,347名に増加し,男性は13,410名から36,051名に増加した。
 - 女性は29,900名から94,300名に増加し,男性は13,400名から36,000名に増加した。
 - 女性は約30,000名から94,000名に増加し,男性は約13,000名から36,000名に増加した。

 桁数の多い数字は正確に報告する必要のない場合が多い。体重60 kgの患者の体重を60.18 kgと報告するのは,たとえ測定がそこまで詳細であっても混乱を招くだけである。同じ理由から,報告する必要のある最小のP値はP<0.001である。


エラー2:理由や方法についての説明なしに連続データを順序カテゴリに分ける

 統計解析を単純化するため,センチメートルで測定する身長などの連続データは,よく低身長,標準身長,高身長といった2つ以上の順序カテゴリに分けられる。このような測定レベルの引き下げは,データの変動を減らすが,測定精度も下げてしまう。論文執筆者は,この精度低下を選択した理由を説明すべきである。さらに,順序カテゴリの境界値をどのように決めたかを説明し,バイアスの出現を回避する必要がある(12)。時には,都合のよい結果に導くためにカテゴリを規定する境界値(すなわち「切点」)を選ぶことも可能である。(図1

  図1

図1. 論文執筆者は連続データを順序カテゴリに分けた理由とその方法を説明してバイアスの可能性を排除すべきである。A. この分布であれば,合理的なカテゴリといえる。B. これらのカテゴリを設定した根拠を説明すべきである。


エラー3:対内変化を報告せずに対データの群平均を報告する

 同一患者から得られたデータは,「対」をなすデータである。2つの時点でデータが記録された1群の患者では,時間経過に伴う群平均の変化に加え,時間経過に伴う各人の測定値の変化も生じうる。しかし,群平均しか報告しないと,個々の測定値の変化が隠れてしまう恐れがある(図2)。個別データが報告されない限り,読者には2つの測度間の不一致を知る術がない。例えば図2の結果は,時点1から時点2にかけて平均が減少したと言える一方,患者3例中2例において値が増加したとも報告できる。どちらの結果も技術的には正しいが,一方だけの報告は誤解を招きかねない。

  図2

図2. 対データは,各患者内の変化と群平均の変化の両方を評価できるように,併せて報告すべきである。この場合,結果は1.6単位の平均減少とも,患者3例中2例における単位増加とも報告できる。


エラー4:不適切な記述統計量を使う

 連続データのもっとも一般的な記述統計量を2つ挙げるとすれば,平均標準偏差である。しかし,これらの統計量による記述が正しいのは,値が「正規」分布,別名「ガウス」分布するときだけである。定義上,正規分布では値の約68%が平均の±1標準偏差の範囲に存在し,約95%が±2標準偏差の範囲に,約99%が±3標準偏差の範囲に存在する。顕著な非正規分布ではこうした関係がもはやあてはまらないため,平均と標準偏差ではその分布の形を十分伝えることができない。代わりに中央値(50パーセンタイル:データをより上半分と下半分に分ける値)と範囲(通常,最小値と最大値で報告される)または四分位範囲(通常25パーセンタイルと75パーセンタイルで報告される)といった他の測度が推奨される(14)。

 平均および標準偏差はデータポイントが2つしかなくても算出できるが,これらの統計量では小規模標本を十分に記述できない恐れがある。さらに,生物学データの大部分は正規分布しない(15)。こうした理由から,おそらく医学文献では平均と標準偏差よりも中央値と範囲または四分位範囲のほうがはるかに一般的であろう。


エラー5:平均の標準誤差(SEM)を記述統計量としてまたは推定値の精度測度として使う

 平均および標準偏差は,ある標本に関するある特性の正規分布の中心および変動を表す。一方,平均および平均の標準誤差(SEM)は,ある母集団のある特性に関する推定値(平均)およびその精度の測度(SEM)である。しかし,SEMはつねに標準偏差よりも小さいため,測定の精度を高く見せようと標準偏差の代わりにSEMが報告されることがある(16)。SEMは推定値の精度を示す1測度である(平均±1 SEMは実質的に68%信頼区間である)が,医学において望ましい精度測度は95%信頼区間である(17)。このように平均とSEMが標本について述べるために使われることもあれば,母集団について述べるために使われることもある。混乱を避けるため,データ(正規分布)については平均と標準偏差を要約統計量とし,推定値およびその精度測度を報告する場合には平均と95%信頼区間を使用することが望ましい。

 例えば,男性100例からなるある標本の平均体重が72 kg,標準偏差(SD)が8 kgだとすると,(正規分布を仮定すれば)男性の約3分の2(68%)は64~80 kgの範囲にあると予想される。この場合,この体重分布を正しく記述するには平均とSDを使用する。

 しかし,この標本の平均体重72 kgは,標本の由来する母集団におけるすべての男性の平均体重のもっともよい推定値でもある。SEM=SD/√nという式にSD=8 kg,n=100を代入するとSEMは0.8と算出される。この場合これは,同じ男性の母集団から同様の(無作為)標本を繰り返し抽出すると,そうした標本の約68%において平均体重が71.2~72.8 kgになる(値は推定平均から上下1 SEMの範囲にある)と予想される,と解釈できる。推定値とその精度を表すには,平均と95%信頼区間(平均±約2 SEMの範囲)を使用することが望ましい。上記の例で言えば,「平均値は72 kg(95% CI = 70.4~73.6 kg)」と表わされ,その意味するところは,同じ男性の母集団から同様の(無作為)標本を繰り返し抽出すると,そうした標本の約95%において平均体重が70.4~73.6 kgになるということである。


エラー6:結果としてP値のみを報告する

 P値は誤って解釈されることが多い(18)。また,正しく解釈されたとしても,いくつかの限界がある。主要な結果については,P値の代わりに,またはP値に加えて群間の絶対差(相対的な差やパーセントで表した差は誤解を招きかねない)と差の95%信頼区間を報告する。以下に示す文章は,質の低いものから高いものへ順に並べたものである。

  - 
「同剤の作用は統計学的に有意であった。」 この文章には,作用の規模,その作用が臨床的に重要か否か,それにその作用がどのように統計学的に有意なのかが書かれていない。読者によっては,この場合の「統計学的に有意」を,この試験は同剤の使用を支持していると解釈するであろう。

  - 
「同剤の拡張期血圧降下作用は統計学的に有意であった(P<0.05)。」 ここでも降下規模は提示されておらず,したがって臨床的重要性も不明である。また,P値が0.049と,たとえ統計学的に有意(有意水準0.05)であっても0.05に近い場合には,おそらく統計的に有意でないP値すなわち0.051と同様に解釈すべきであろう。「有意」な結果と「有意でない」結果を区別するために0.05のような恣意的な切点を使用することが,P値解釈上の問題の1つである。

  - 
「投与群の平均拡張期血圧は110 mm Hgから92 mm Hgに低下した(P=0.02)。」 おそらくこれがもっとも典型的な文章であろう。投与前後の値は提示されているが,差は書かれていない。平均降下幅,すなわち18 mm Hgの差は統計学的に有意であるが,これは推定値でもあり,95%信頼区間がないためにこの推定値の精度(ひいては有用性)を判断することはできない。

  - 
「同剤は拡張期血圧を110 mm Hgから92 mm Hgまで平均18 mm Hg低下させた(95% CI=2~34 mm Hg; P=0.02)。」 この信頼区間は,報告された標本と類似する100標本で同剤を試験した場合,95標本における平均血圧低下幅がおそらく2~34 mm Hgになることを示す。わずか2 mm Hgの低下は臨床的に重要ではないが,34 mm Hgの低下は重要である。したがって,この試験における平均血圧低下は統計学的に有意であったが,他の試験で予想される血圧の差は必ずしも臨床的に重要でないかもしれず,この試験から決定的な結論は下せない。

 ある試験において,すべての値が臨床的に重要となるような信頼区間が得られた場合,その介入は臨床的に有効なことが強く見込める。信頼区間にある値が1つとして臨床的に重要でない場合,その介入はおそらく無効であろう。一部の値しか臨床的に重要でない場合は,その試験はおそらく十分な人数の患者を対象にしなかったと考えられる。


エラー7:データが解析に使用する統計学的検定の前提条件を満たすものであることを
確認しない

 統計学的検定には数百もの種類があり,一つの解析に適切な検定が複数存在することもある。しかし,検定の前提条件が満たされなければ,正確な結果は得られない(19)。そのため,統計解析を報告する際には,検定名を明記し,その前提条件が満たされたという記述を含めるべきである。例えば,「データはほぼ正規分布し,t検定の前提条件に違反しなかった。」などと記す。

 もっとも一般的な問題を以下に示す。

 - データが正規分布しない(歪んだ分布)ときに,パラメトリック検定を使用してしまう。特に,Wilcoxon rank-sum検定(または他のノンパラメトリック検定)のほうが適切な2群間の比較において,Student's t検定が使用されることが多い。

 - 対データについての検定が必要な対標本で,独立標本についての検定を使用してしまう。対のあるt検定が必要なときにStudent's t検定が使用されることが多い。


エラー8:関係が実際に線形であることを確認せずに線形回帰分析を使用する

 前項7で述べたように,統計解析を含む学術文献には,解析の前提条件が満たされることを確認する記述を必ず含めるべきである(12)。目的変数と説明変数の関係が直線をなすと仮定する線形回帰分析では,この確認が特に重要である。この前提条件が満たされないと,解析結果は誤ったものになる恐れがある。

 線形性の仮定は,各データ点と回帰線との差である「残差」をグラフにすることで検証できる(図3)。このグラフが平坦で0に近い場合(図4A)には,関係が直線をなす。グラフがそれ以外のパターンを示す場合,関係は直線にならない(図4B4Cおよび4D)。グラフ化したデータを見るだけでは判断を誤る恐れがあるため,線形性の仮定を検証することは重要である(図5)。

  図3

図3. 実際に観察された値と回帰線によって予測される値との距離が残差である。


    図4

図4. A. グラフ化した残差が値の範囲を通じて0近辺であるとき,回帰線は正確にそのデータの線形関係を表す。それ以外のパターン(BCおよびD)は,関係が線形をなさないことを示し,そういった場合には線形回帰分析を使用すべきでない。


  図5

図5. 線形に見えるが見掛けだけというデータセットもある。この場合,関係は線形のように見える(A)が,残差のグラフでわかるように明らかに線形ではない(B)。


エラー9:すべてのデータおよびすべての患者を説明しない

 データの欠落は,よくあることだが,この論文執筆者は不注意だ,怠惰だ,またはその両方だという考えによってこの問題の不愉快さはさらに増す(20)。欠落データは以下に対する疑念をひき起こす。

 - 欠落データ自体の性質。解析には極端な値が含まれなかったのではないか,検査室の過失でデータを紛失したのではないか,仮説を支持しないデータだったから無視されたのではないか。

 - 提示されたデータの一般化の可能性。値の範囲は真の範囲なのか,脱落率はそれほど低いのか。

 - 試験全体の質。発表文献中の合計が合わないと,それ以外の部分でこの執筆者はどの程度注意深く研究を進めたのか。

 ある臨床試験に参加した患者全員をもっとも効果的に説明する方法の一つは,フローチャートまたはサマリー図である(図6)(9,12,21)。このような視覚に訴えるサマリー図は,試験の各段階において患者全員を説明し,試験デザインを効率的に要約し,割合,パーセンテージおよび率の予想される分母を明らかにする。こうした図は,無作為化試験報告に関するCONSORT陳述で推奨されている(9)。

  図6

図6. 試験の段階ごとに患者配置を示した2投与群からなる無作為化臨床試験のフローチャート。


エラー10:多重仮説検証のために調整を実施したか否か,またどのように実施したかを
報告しない

 大部分の試験で複数のP値が報告されるが,これは,偶然による結果である可能性が高いときにある治療法を効果的であると判断してしまうといった,タイプIの誤りを犯すリスクを高める(22)。例えば,6群を互いに他のすべての群と比較するには15回の「ペアワイズ」統計検定が必要で,P値が15個得られる。こうした多重検定に関する調整を行わないと,タイプIの誤りを犯す確率が100回中5回(0.05の典型的なアルファ水準)から100回中55回(アルファ水準0.55)にまで高まる。

 多重検定の問題は,以下のような場合に生じる(12)。

 - 複数のベースライン特性のそれぞれに関する群間差の検証(差がないことを期待する)を通じた群同等性の確認

 - 3群以上のデータを別々の解析で1度に2群と比較する多重ペアワイズ比較

 - 同一の説明変数セットの影響を受ける多重評価項目の検定

 - 当初の試験デザインでは特定されず,試験中に認められた関係についての二次解析

 - 当初の試験計画になかったサブグループ解析

 - 累積データの中間解析(1評価項目の繰り返し測定)

 - 一連の個別群間比較を伴う多時点群間比較

 多重検定が望ましいことは多く,探索的解析は探索的なものとして報告すべきである。しかし,「データのかき集め」,すなわち統計学的に有意な(したがって報告する価値のある)何かを見つけるために未公表の解析を実施して多くのP値を算出するのは,質の悪い研究とみなされる。


エラー11:無作為化試験においてベースライン統計比較を不必要に報告する

 真の無作為化試験では,各患者が投与群か対照群のどちらかに割り付けられる確率は既知で,通常等しい。つまりベースライン時の群間差は,定義上は偶然によるものである。したがって,ベースラインデータの有意差(表1)は,(他の試験デザインのように)バイアスを示すものではない(9)。そうした比較は,後に解析で考慮しなければならない群間の統計学的な不均衡を示すかもしれないが,P値を報告する必要はない(9)。

  表1

 アルファ水準を0.05と仮定した場合,無作為化試験でベースライン比較をすれば,100回ごとに5回は偶然の所産として統計学的に有意な結果が出るはずである。しかし,ある研究によると,125試験で実施された1,076回のベースライン比較のうち0.05水準で有意になったのはわずか2%であった(23)。


エラー12:診断検査結果を報告する際に「正常」または「異常」を定義しない

 診断検査における陽性結果または陰性結果の重要性は,「正常」および「異常」がどのように定義されるかに左右される。実際に,医学では「正常」の定義が少なくとも6つある(24)。

 - 診断的見地から見た正常の定義は,測定値がその範囲内にあるときは疾患でなく,それを外れると疾患である可能性が高い範囲に基づく。臨床的に有用であることから,そうした正常の定義が望ましい。

 - 治療的見地から見た正常の定義は,測定値がその範囲内にあるときは治療が適応とされず,それを外れるとその治療が有益となる範囲に基づく。この定義も臨床的に有用である。

 その他の正常の定義は,おそらく患者ケアにあまり役立たない。しかし,残念ながらよく使用される。

 - リスク因子の見地から見た正常の定義は,測定値がその範囲内にあるときは疾患リスクが高くならず,それを外れるとリスクが高まる範囲を含む。この定義は,リスク因子の変化によって疾患の実際のリスクが変化すると仮定している。例えば,まれな例外はあるものの,血清コレステロール値が高いこと自体は危険でない。これに高い心疾患リスクが付随することで高値が「異常」となる。

 - 統計学の見地から見た正常の定義は,無病集団で得られる測定値に基づく。通常この定義は,検査結果が「正規分布する」,すなわち「ベル型」曲線をなすと仮定している。正常範囲は測定値の平均から上下2標準偏差までの範囲で,ここにすべての測定値の中央の95%が含まれる。しかし,「異常」スコアとされる高いほうの2.5%と低いほうの2.5%に臨床的な意味はなく,単にそれらは一般的でないというだけである。残念ながら,検査結果の多くは正規分布しない。

 - パーセンタイルの見地から見た正常の定義は,範囲全体における下方(または上方)のパーセンテージとして正常範囲を表す。例えば,試験結果全体のうち低いほうから95%を「正常」,上方 5%を「異常」と定義する。この定義も値の発現頻度に基づくもので,臨床的意味はない可能性がある。

 - 社会的見地から見た正常の定義は,人びとがなにを正常と考えるかに基づく。例えば,理想体重やある年齢における小児の歩行能力には,「正常」について複数の社会的定義があり,医学的に重要なものもあればそうでないものもある。


エラー13:検査の特性(感度や特異度)を算出する際に診断検査の不明確(両義的)な
結果をどのように取り扱ったか説明しない

 診断検査は必ずしも陽性か陰性の明確な結果になるわけではない。バリウムのすべての影が撮影されないこともあれば,気管支鏡検査で診断が否定も確認もされないこともある。臨床家が臨床症状の解釈で一致しない場合もある。非陽性結果および非陰性結果は,検査の臨床的有用性に影響することから,そうした結果の数および割合の報告が重要である。

 不明確な検査結果は,以下の3タイプのいずれかにあてはまると考えられる(25)。

 - 陰性結果と陽性結果の間に位置する中間結果。青く染まる細胞の存在に基づく組織検査では,染まっていないわけではないが青いとも言い切れない「青みがかった」細胞が中間的な結果と考えられる。

 - 陽性とも陰性とも言えない不確定結果。例えば,心理検査の回答では,当該回答者がアルコール依存か否か判断できないことがある。

 - 定められた実施基準に従わなかった検査からは,解釈不能結果が得られる。例えば,一晩絶食していない患者の血糖値は解釈不能となる場合がある。

 感度および特異度の算出にあたり,そうした結果をどのようにカウントしたかを報告すべきである。検査特性は,結果を陽性とカウントしたか陰性とカウントしたか,まったくカウントしなかったか(このケースが多い)に左右される。診断検査の感度および特異度を算出する標準的な2×2の表には,不明確な結果の行や列がない(表2)。ほとんどの結果が不明確になるようでは,たとえ感度や特異度が高い検査でもほとんど役に立たないであろう。


  表2


エラー14:読者に便宜を図るためでなく,データを「蓄える」ためだけに図表を使用する

 図表は,データを蓄え,解析し,解釈する上で非常に役立つ。しかし,学術発表では,単にデータを「蓄える」ためではなく,情報を伝えるために図表を使うべきである(26)。したがって,発表される図表は,データの記録や結果の解析のために作成された図表と異なることもありうる。例として3変数のデータを示す表を8形態提示する(表3)。数字を隣同士もっとも容易に比較できるという理由で表3中もっとも適切な形態は,比較すべき変数が並べてあるものである。つまり,比較すべき変数を隣同士にすることで,読者に特定の比較を行うよう促すのである。

 図7の図表は同じデータ,すなわちある疾患の9地域における有病率を表しているが,表は正確なデータを伝えたり参照したりするのにもっともすぐれ,点図表は地域同士をどのように比較するかを伝えるのに最適である一方,地図は地域と有病率との位置的な関係をもっともよく伝える。

  図7

図7. 図表は単にデータを「蓄える」ためではなく情報を伝えるために使うべきである。A. 表は正確な数値データを伝えたり参照したりするのにもっともすぐれている。B. 点図表は総合的なパターンおよび比較を伝えるのに最適である。C. 地図は位置的な関係をもっともよく伝える。

 図7の図表は同じデータ,すなわちある疾患の9地域における有病率を表しているが,表は正確なデータを伝えたり参照したりするのにもっともすぐれ,点図表は地域同士をどのように比較するかを伝えるのに最適である一方,地図は地域と有病率との位置的な関係をもっともよく伝える。

表3


エラー15:見た目の印象が基データの内容とちぐはぐな図を使う

 見た目の印象は,その基となったデータの内容よりも記憶に残る(27)。したがって,見た目の印象がデータの内容と同じになるように図を工夫すべきである。「ゼロなし」問題(図8A)では,棒グラフ1の長さが棒グラフ2の半分にも満たない。しかし,これは棒グラフがゼロから始まっていない,つまりゼロが「ない」からで,誤解を招く図である。起点となるゼロを示したより正確な図(図8B)は,棒グラフ1の長さが実際には棒グラフ2の3分の2であることを示す。このゼロなし問題を回避するには,Y軸を「不連続」にして棒グラフの起点がゼロでないことを示す方法もある(図8C)。

 「伸縮目盛り」の問題では,一方の軸がもう一方の軸に比べて不相応に圧縮または伸張され,2軸間の関係にゆがみが生じる(図9)。同様に「二重目盛り」問題では,右側の目盛りと左側の目盛りにある程度数学的な関係がないかぎり,2線間の関係がゆがみかねない(図10)。

  図8 A

図8 A. ゼロを起点としない図は見た目の比較を誤らせかねない。B. この図なら両グラフの実際の長さを正確に比較できる。C. スペースの関係で起点をゼロにできない場合には,軸を「不連続」にして起点がゼロでないことを示すべきである。

  図9

図9. 不均等な目盛りは見た目のトレンド間の関係をゆがませかねない。X軸(この例では時間を表す)の目盛りの圧縮は,変化がより急である印象をもたらす。Y軸の目盛りの圧縮は,変化がより緩徐である印象をもたらす。目盛りの間隔を均等にすることが望ましい。

  図10

図10. データを示す線ごとに複数の目盛りがある図は,目盛りの表示法によって線間の関係を誤って印象づけかねない。線A,BおよびCは同じデータを表しているが,その関係の見た目の印象は,それぞれの目盛りをどう表示するかに左右される。この場合,線Bの増加率は線Aの半分に見え,線Cの増加率は4分の1に見える。縦の複数の目盛りに数学的な関係がないかぎり,1つの目盛りが変化するだけで線の関係がゆがみかねない。


エラー16:結果の報告および解釈において「観察対象」が混乱する

 「観察対象」とは,実際に試験されている対象のことである。問題は,その対象が患者以外のときに起こる。例えば,50眼を対象にした試験では,何例の患者を調べるのか。50%成功率とは,なにを意味するのか。

 観察対象が心臓発作であるとき,1,000人中に発現した心臓発作18例についての試験の標本の大きさは18例であって1,000人ではない。1,000人中18例に心臓発作が発現したという事実は重要かもしれないが,それでも調べるべき心臓発作は18例に過ぎない。

 ある診断検査の結果がなんらかの判定である場合,その検査に関して検討しなければならないのは判定の標本であって,判定前の単なる結果の標本とはならない。そうだとすれば,標本の大きさを決めるのは得られた判定の数であり,判定前の検査結果の数ではない。


エラー17:結果が有意でなく統計学的検出力が低い,実際には結論の出ない試験を「差の存在の否定」と解釈する

 統計学的検出力とは,調査対象母集団に任意の規模の差が実際に存在する場合にその差を検出する能力である。統計学的検出力の低い試験における統計学的に有意でない結果は,差の存在を否定するわけではなく,決定的な結論に至らないだけである。つまり,「証拠の不在は不在の証拠とはならない」。残念なことに,統計学的に有意でない知見を報告する多くの試験は「検出力不足」で,決定的な答えをもたらさないという理由から,ほとんど価値がない(28)。

 差がないことを確認するための仮説検証(P値)を利用した観察試験におけるベースライン時の群間比較のように,時には統計学的に有意でない知見が望ましいこともある。そうした比較は,往々にして検出力が低く,実際のところは群間に差がないことを確認していない恐れがある。


エラー18:生物医学研究をデザインおよび解釈する際に「実利的」(効果)試験と「説明的」(効能)試験を区別しない

 説明的試験または効能試験は,疾患または治療の経過を解明する目的で実施される。そうした試験は,患者選定,投与およびフォローアップを厳格に管理できる「理想的な」または「研究室」条件下で実施されるのがもっともよい。そうした試験は,生物学的機序を理解する手がかりとなる可能性があるが,諸条件の管理がそこまで厳格でない臨床現場への一般化は困難かもしれない。例えば,ある診断検査に関する二重盲検実効説明試験は,その検査の科学的根拠の評価には適当であろう。しかし実際には,医師には自分の患者の情報がマスクされていないことから,この試験は現実的とは言えない。

 実利的試験または効果試験は,意思決定の指針を目的に実施される。通常これらの試験は,医療がいつもどおりに提供される環境を反映した「正常な」条件下で実施される。そうした試験の結果は,数多くの非管理因子に影響される恐れがあり,そのことが試験の説明力を制限するが,一方では臨床現場への応用性を高めると思われる。例えば,実利的試験に参加する患者では,たいてい厳格な参加基準を満たさなければならない説明的試験の患者に比べて,人的特性および臨床特性の範囲が広いことが多い。

 多くの試験が両方のアプローチを試み,結果として,どちらも中途半端になる(29,30)。試験結果は,その試験で調べようとした事柄の性質に照らして解釈されるべきである(表4)。

  表4


エラー19:臨床上有用な表現で結果を報告しない

 以下の報告(31,32)は,すべて正確で許容される転帰測度を使用しているが,薬剤の効果について受ける印象がそれぞれに異なる。歩留まり測度,特に治療必要数は臨床的に意義が高く,同様の表現を用いた異なる療法間の比較を可能にする。

 - 絶対的な表現で表した結果。高コレステロール血症の男性を対象にしたヘルシンキ試験では,5年間にプラセボ群患者2,030例中84例(4.1%)が心臓発作を発現したのに対し,ゲムフィブロジル投与男性2,051例のうち心臓発作を発現したのはわずか56例(2.7%)で(P<0.02),1.4%の絶対リスク低下であった(4.1-2.7%=1.4%)。

 - 相対的な表現で表した結果。高コレステロール血症の男性を対象にしたヘルシンキ試験では,5年間にプラセボ投与男性の4.1%が心臓発作を発現したのに対し,ゲムフィブロジル投与男性のうち心臓発作を発現したのはわずか2.7%であった。その差1.4%は,ゲムフィブロジル投与群における心臓発作発現の34%の相対リスク低下に相当する(1.4%/4.1%=34%)。

 - 歩留まり測度である治療必要数で表した結果。高コレステロール血症の男性4,081例を対象にしたヘルシンキ試験の結果は,心臓発作1回の予防には男性71例に5年間投与する必要があることを示している。

 - 別の歩留まり測度で表した結果。高コレステロール血症の男性4,081例を対象にしたヘルシンキ試験の5年後の結果は,心臓発作を1回予防するためにゲムフィブロジルが約200,000回投与されたことを示している。

 - コホート総死亡率で表した結果。ヘルシンキ試験における心イベントによる総死亡例はゲムフィブロジル群6例,対照群10例であった。絶対リスク低下は0.2%,相対リスク低下は40%で,心臓発作による死亡を1例予防するには男性2,460例への1年間の投与を要した。


エラー20:統計学的有意性を臨床的重要性と混同する

 統計では大規模集団間の小さな差が統計学的に有意になりえても,臨床的には意味がないことがある(12,33)。2種類のペースメーカーリードの故障寿命に関する試験において,5年間作動した数千本のリード中の0.25か月という平均差は,たとえそうした差の生じる確率が1,000回に1回(P<0.001)であろうと,臨床的に重要とはいえないであろう。

 小規模集団間の大きな差は臨床的に重要かもしれないが,統計学的に有意ではないというのも本当のところである。末期患者を対象にした小規模試験では,投与群の生存が1例であっても,その生存は臨床的に重要で,対照群と比べた生存率の差が統計学的に有意か否かは関係ない。


結論

 低質な統計報告という問題が本当に解決されるための条件は,以下の通りである:論文執筆者が試験デザインおよび統計学についてもっと学ぶこと;統計専門家が論文執筆者,編集者および読者に対する統計学の説明能力を高めること;研究者が研究の最後ではなく最初から統計専門家を参加させること;編集者が統計報告ガイドライン(12,18,19,34-40)を理解して利用するようになること;より多くの雑誌が統計解析を含む文献をさらに注意深くふるいにかけられるようになること;そして読者が統計量の解釈方法についてもっと学び,適切な統計報告を要求しないまでも期待するようになること,である。