薬剤疫学における交絡の対処法

はじめに

「薬剤疫学研究における交絡の定義」では統計的因果推論に基づいた交絡の定義をご紹介しました。本記事ではその対処法を学びます。すなわち、交絡が起きている時に、XのYに対する因果効果を調べるにはどうすればいいかをご紹介します。

順に、研究デザイン段階での対処、統計解析段階での対処、またそのどちらにも関わるバランシングスコアでの対処を説明します。関連するトピックとして欠測 (欠損)データの処理にも触れます。

記号について

本稿で用いる記号をまとめます。

\(X\): 介入または曝露。1 (あり)か0 (なし)の二値変数

\(Y\): アウトカム。1 (あり)か0 (なし)の二値変数

\(L\): 共変量。XとY以外に観測されたデータ。

\(x\): \(Y(x=1)\)などの形で、「介入・曝露があったか」を示す。定数として\(X\)と区別している。

\(E[]\): 期待値を意味します。\(E[Y(x=1)]\)などの形で、アウトカムの平均値を表す際に使われます。

\(Pr[]\): 確率を意味します。

研究デザインによる交絡の対処

まずは、研究デザイン段階での交絡制御法として「限定」と「マッチング」を紹介します。

限定 restriction

曝露群と非曝露群の対象者のうち、交絡要因\(L\)が特定の値\(L=l\)である集団のみを解析対象とする方法です。例えば、喫煙者のみを対象に飲酒と肺癌の関係を調べるなどです。デメリットとして\(L \neq l \)の集団に研究結果を適用できません。また、解析対象人数が減ってしまいます。

マッチング matching

曝露群の対象者と、交絡要因\(L\)の値が同じである非曝露群の対象者を見つけマッチドセットにし、マッチドセットを層として層別解析を行う方法です。

曝露群全員のマッチング相手が見つかれば、曝露群とマッチング群で交絡要因\(L\)の分布が等しくなり、曝露群全員における因果効果を推定できます。

マッチング相手が見つからないと、曝露群全員の効果ではなくなり、たまたま相手が見つかった集団における効果となってしまいます。また、マッチングを行う\(L\)の数が多くなると、マッチング相手が見つからない場合が多くなり、解析対象集団の人数が減少します。

統計解析による交絡の対処

統計解析の段階での交絡の対処法として、「層別解析」と「回帰モデル」の解説を行います。

層別解析 stratified analysis

\(L\)の値に基づいた層(サブグループ)ごとに因果効果を推定し、統合する方法です。統合方法として、以下の2種類が存在します。

  1. 各層における\(X\)の効果がすべて同じであるという仮定のもとに統合する。Mantel-Haenszel法などがある。
  2. 層の人数に対応した重みを各層の推定結果に与えて統合する。標準化と呼ばれる。適切な重みの推定に回帰モデルが使われることがある。

回帰モデル regression model

すべての層のアウトカムの期待値\(E[Y|X,L]\)を一括して統計モデルで近似します。

例: 線形二項回帰モデルの場合、次の式で近似します。

$$E[Y|X,L]=Pr[Y|X,L]= \beta_0 + \beta_X X + \beta_L L$$

曝露群と非曝露群が比較可能かつ一致性が満たされれば、

$$beta_X=E[Y|X=1,L=1]-E[Y|X=0,L=1]=E[Y(x=1)|L]-E[Y(x=0)|L]$$

であり、因果効果を表している。

バランシングスコアによる交絡の対処

交絡要因の影響を一元的に要約したスコアを用いた交絡の対処法として、「傾向スコア」と、薬剤疫学領域で用いられる「疾患リスクスコア」を挙げます。

傾向スコア

傾向スコアは\(L\)で条件づけたもとで各対象者が曝露を受ける条件付き確率であり、\(Pr[X=1|L]\)と表すことができます。観測されたデータから、ロジスティック回帰を用いて推定されることが一般的です。

傾向スコアは曝露群に含まれる確率を表しており、擬似的なランダム化と考えられます。理論的にすべての共変量が調整されるランダム化と比べると、スコア算出に使われた交絡要因のみでしかバランシングされていない点で劣ります。

マッチングにも、統計解析にも用いられる値です。

また、高次元傾向スコアといった発展的な手法も開発されています。

疾患リスクスコア

疾患リスクスコアは傾向スコアと同様に多数の共変量から作られるスコアです。傾向スコアが\(L\)による曝露を受ける条件付き確率であるのに対し、疾患リスクスコアは、共変量で条件付けた対象が曝露を受けなかった場合にアウトカムが発生する確率として推定されます。

疾患リスクスコアを調整することによって、対象者が非曝露の場合のアウトカムと共変量とが独立になります。非曝露の場合に疾患が起きる確率が同じ者同士をマッチングさせることで、曝露による因果効果を調べることができます。

データの欠測に対して

交絡要因となりうる共変量が集団の一部で欠測 (欠損)している場合があります。このような場合の処理を基礎づける考え方と、対処法の一部を述べます。

この分野に関する成書には、参考書籍2, 3がありますので御覧ください。

欠測メカニズム

データの欠測が生じるメカニズムを考えることが、欠測への対処の第一歩です。ここでは3つ紹介します。

完全にランダムな欠測 missing completely at random: MCAR

どのような変数にも依存せずにランダムに欠測する。

ランダムな欠測 missing at random: MAR

欠測していない変数のみに依存して欠測する。

ランダムでない欠測 not missing at random: NMAR

欠測している変数自身に依存して欠測する。

欠測に対する処置

MCAR, MARの場合の処置として、完全ケース解析、多重補完法、重み付け解析などの手法があります。

NMARの場合はこれらの手法を適用することはできず、パターン混合モデルや、セレクションモデルなどが知られています。欠測している変数自身に依存した欠測のため、観測されていないデータに基づいた検証不可能な仮定をおかざるをえないことに注意が必要です。

最後に

本記事では、反事実モデルに基づいた統計的因果推論における交絡の対処法をご紹介しました。共変量の存在により、曝露群と非曝露群で比較可能性が破れていることが、交絡の定義でした。交絡の対処法にはさまざまなものがありますが、その基礎は交絡要因による条件付けをおこない、条件付き比較可能性を満たすことにあります。データの量や性質にしたがった、適切な処理方法を選びましょう。

参考

  1. 佐藤俊哉、山口拓洋他「これからの薬剤疫学 リアルワールドデータからエビデンスを創る」(朝倉書店, 2021)
  2. 星野崇宏「調査観察データの統計科学 因果推論・選択バイアス・データ融合」(岩波書店, 2009)
  3. 高橋将宜、渡辺美智子「欠測データ処理 Rによる単一代入法と多重代入法」(共立出版, 2017)
タイトルとURLをコピーしました