薬剤疫学研究における交絡の定義

はじめに

この記事を読んでいる皆さんは「交絡 counfounding」という言葉をきいたことがあると思います。交絡というのは観察研究におけるバイアスの1つです。本記事では統計的因果推論に基づいた、交絡の厳密な定義と、因果効果推定に必要な条件を紹介します。

交絡の例

厳密な定義の話に入る前に、イメージを掴んでいただくための、簡単な例を挙げてみます。たとえば、「飲酒している人は肺癌になりやすい」という相関を示すデータがあるとします。この場合、「飲酒することが肺癌になるリスクを上昇させる」と言えるでしょうか?

言えません。なぜなら、飲酒している人は喫煙していることも多く、喫煙により肺癌リスクが上昇しているだけだからです。喫煙者の集団、非喫煙者の集団に分けて検証をすると、飲酒と肺癌の相関は消えてしまいます。このような、曝露とアウトカム両方に関係する要因(交絡要因)の存在により、曝露群と非曝露群の比較ができなくなっている状況を交絡と呼びます。

大体のイメージは共有できたと思います。次項から、厳密な定義の話に入ります。

因果推論の基礎

交絡の定義に入る前に、因果推論を基礎付ける考え方についてまとめます。

反事実モデル (counterfactual model)と「因果推論の根本問題」

ある患者さんに、ある抗菌薬を投与した後、肝障害が起きたとします。当然、この抗菌薬が肝障害を起こしたと考えられますが、本当にそうでしょうか。なにか別の理由で起きたかもしれません。

少し仮想的なお話になりますが、タイムマシンを利用して抗菌薬投与前に戻り、抗菌薬を投与しないことにしました。このとき肝障害が発生すれば抗菌薬のせいではなく、肝障害が発生しなければ抗菌薬のせいだとはっきりするでしょう。

このように介入や曝露があった場合と、なかった場合を比較することで因果効果を考えることができます。しかし、今のところ、タイムマシンはありませんから、実現するのはどちらか一方の状況だけです。実現している事実に対し、実現しなかった反事実を比べることになるので、このような因果効果の考え方は「反事実モデル counterfactual modelと呼ばれます。当然、反事実を実際に観測することは不可能であり、因果効果を直接観測することは同様です。これを、「因果推論の根本問題」と呼びます。

潜在アウトカム potential outcome

もう1つ、因果推論の基礎となる考え方を紹介します。「介入・曝露があった場合に起こること、なかった場合に起こることは、それが選択される前に潜在的に決まっている」、という考え方です。この、元から決まっているアウトカムのことを「潜在アウトカム potential outcome」と呼びます。

抗菌薬と肝障害の例で言えば、抗菌薬を投与するという介入に対して、「肝障害が起こる」、「肝障害が起こらない」、という2つの潜在アウトカムがあることになります。

当たり前のことと思われるかもしれませんが、注意点を1つ。介入・曝露があった場合となかった場合、両方のアウトカムを潜在アウトカムと呼びます。実際に起こらなかった方だけ、または注目している場合と異なる方だけを潜在アウトカムと呼ぶわけではありません。

数式で書く

因果推論では論理を明確にするために数式が用いられています。

ここでは、次のように定義しましょう。

  • 介入・曝露の有無を、2値変数Xで表します。X=1のときは有り、X=0のときは無しとします。
  • 同様に、関心のあるイベントの発生を2値変数Yで表します。Y=1のとき有り、Y=0のときは無しとします。
  • また、因果推論をする際、介入・曝露を受けイベントが起こる対象となる個人ないしは集団が存在し、下付き文字で表されます。ここでは個人Aにおける介入Xのイベント発生Yに対する因果効果を推定します。

このとき、2種類の潜在アウトカムはYA(x=1), YA(x=0)で表されます。大文字Xが小文字xになっているのは変数Xが1か0のどちらかに決まった状態、つまり定数xとなったことを示しています。

因果効果の有無、大きさは次のように表されます。

  • \(Y_A (x=1) \neq Y_A (x=0)\)のとき、「XのYに対する因果効果がある」
  • \(Y_A (x=1) = Y_A (x=0)\)のとき、「XのYに対する因果効果がない」
  • XのYに対する因果効果は、\(Y_A (x=1) – Y_A (x=0)\)で表される。

この潜在アウトカム\(Y_A (x=1), Y_A (x=0) \)はタイムマシンがない限りどちらか片方しか観測できず、因果効果はわからないというのが、「因果推論の根本問題」です。

集団を比較する

個人での因果効果がわからないということで、次善の策として、介入・曝露があった集団となかった集団を比べることで、平均的な因果効果を調べられないかを考えます。統計的因果推論の出番です。

必要な概念を記号で定義します。\( E[] \)は期待値を表す記号です。

  • ある集団Aの全員が介入・曝露Xを受けた場合の潜在アウトカムの平均を\( E_A [Y(x=1)]\)と書きます。
  • Aの全員がXを受けなかった場合の潜在アウトカムの平均は\( E_A [Y(x=0)] \)となります。

この定義のもとで次のことが言えます。

  • \( E_A [Y(x=1)] \neq E_A [Y(x=0)] \)のとき、「(集団Aにおいて)XのYに対する因果効果」がある。

これが集団に対する効果ですが、集団全体でXを受けている場合と受けていない場合のどちらかしか実現できないので、AがXを受けた集団である場合は、全員がXを受けていない別の集団Bと比べます。つまり、\( E_B [Y(x=0)] \)を\( E_A[Y(x=0)] \)の代わりとして用いるのです。

結局、

$$ E_A [Y(x=1)] \neq E_B [Y(x=0)] $$

が、我々がたどり着ける、因果効果を示す最善の証拠となります。

交絡の定義

ここまで来れば、交絡の定義を与えることができます。

さきほどの、\( E_A [Y(x=1)] \neq E_B [Y(x=0)] \)を因果効果があると言えるのは、あくまで\( E_A [Y(x=0)] = E_B [Y(x=0)] \)の場合です。このとき、2つの集団A, Bの間に「比較可能性 (交換可能性)がある」と言います。

この比較可能性が崩れていること、数式で表せば

$$ E_A [Y(x=0)] \neq E_B [Y(x=0)] $$

が比較可能性に基づいた交絡の定義になります。

この先は、交絡を起こしている要因、交絡要因をLと表します。Lは1つの要因を表している場合も、複数の要因を表している場合もあります。

因果効果推定に必要な条件

交絡の定義が与えられたので、交絡を排除するための条件をここで挙げておきます。

条件付き交換可能性 conditional exchangeability

「XとすべてのLに対し、Lで条件づけたもと(Lが同じ値のグループの中)で、潜在アウトカムY(x)と曝露Xが独立である(関連がない)こと」

曝露と潜在アウトカムが独立であるというと奇妙に思うかもしれませんが、潜在アウトカムは実際に曝露を受ける前から決まっているものなので、両者は独立である必要があります。未測定の交絡が残っているときにこの条件は満たされません。

たとえば、飲酒と肺癌の例で言えば、喫煙と飲酒に関連があるので、飲酒という曝露のある群は喫煙者が多くなります。このとき、飲酒群は飲酒がなかったとしても、喫煙により肺癌リスクが高いはずです。つまり、飲酒群が飲酒していなかったときの潜在アウトカムと、非飲酒群が飲酒しなかったときの潜在アウトカムが一致せず代入が不可能になります。喫煙者同士であれば、飲酒群と非飲酒群で条件付き交換可能性が成り立ち、因果効果の測定が可能になります(このような交絡の解消法を「限定」と呼びます)。しかし、もし喫煙しているかどうか未測定の場合因果効果を求めることはできません。

正値性 positivity

「すべてのLに対し曝露群、非曝露群ともに少なくとも1人は存在すること」

交絡を排除するために必要な条件です。

例えば性別が交絡要因であるとき、男性群で曝露群と非曝露群の対象者が存在するが、女性群では曝露群のみしか存在しない場合、性別による交絡は排除できません。

一致性 consistency

「実際に受けた曝露がX=x(例えばx=1であれば曝露あり)であるとき、潜在アウトカムY(x)と、実際に観測されたアウトカムYが同一であること」

この条件は、曝露の定義が適切でない場合に満たされない可能性が高いです。例えば、適切量の抗菌薬の処方による効果を知りたいときに、抗菌薬の処方の有無で曝露を定義してしまうと、関心のある因果効果を知ることはできません。

最後に

本記事では、反事実モデルに基づいた統計的因果推論における交絡の定義と因果効果推定に必要な条件をご紹介しました。共変量の存在により、曝露群と非曝露群で比較可能性が破れていることが、交絡の定義でした。今回は比較可能性に基づいた定義の紹介のため、ここまで触れませんでしたが、DAGという因果関係の可視化手法を用いた交絡の定義もあります。2) 読んでいる論文で使われている用語がどのような意味なのか気をつけながら読むとよいでしょう。

また、近日中に、「交絡の対処法」についての記事がアップロードされる予定です。本記事と併せてご一読ください。

参考資料

  1. 佐藤俊哉、山口拓洋他「これからの薬剤疫学 リアルワールドデータからエビデンスを創る」(朝倉書店, 2021)
  2. Hernán MA, Robins JM (2020). Causal Inference: What If. Boca Raton: Chapman & Hall/CRC.
タイトルとURLをコピーしました