Biasあれこれ

 

”Bias is the deviation from the truth”ということでバイアスのおはなし。論文とかで疫学研究を読むときどうCritical Readingするか、、、という核の1つになるお話です。

バイアスはSystematic Errorとも呼ばれ、いわゆるサンプリングエラーみたいに、たまたまサンプリングした人間が100人だったから、それを200人にしたら適正化されるとかそういうものではありません。100人いようが200人いようがはたまた1万人の被験者がいようが、矯正されません。要は確率的な要因ではないということです。

 

http://jech.bmj.com/content/58/8/635.full

によると、 ”bias is the lack of internal validity or incorrect assessment of the association between an exposure and an effect in the target population"とのことでExposureとEffectの因果関係を誤った方向に導く要因となるものとしていますが、どちらかというと次にある" Bias should be distinguished from random error or lack of precision"が示しているように、統計的なランダムエラーではなく系統的に(研究方法論自体に問題・課題があるゆえに)エラーがあるんじゃないですか、、、ということだと思います。

 

バイアスは大きく分けて次の3つに分類されることが多いようです。

(たぶんこれが一番論文読むときに使いやすい)

1、Selection Bias(選択バイアス)

選択バイアスはおもに疫学研究における被験者の偏り(特徴的な)により、研究の外的妥当性・内的妥当性の双方を大きく損なう可能性のあるバイアスという理解です。

 

代表的な例といえばSelf Slection Bias(自己選択バイアス)でしょう。例えば被験者がボランティアから集められている場合、そのボランティアは大抵一般集団とは異なった特徴(例えばより健康志向だったり、よりよい教育を受けていたり)を持っています。

外的妥当性(一般性)を損なうだけでなく、その特徴をコントロールしていない場合、本当の関連性を見誤る可能性あります。

 

またケースコントロール研究では、コントロールの選び方が結果に影響を与えかねません。例えば肺がんと喫煙関連を、ケース:肺がん患者、コントロール:同じ病院から選ばれた(しかも呼吸器系疾患の患者)だった場合、コントロールは喫煙率が一般集団より高い可能性があるので、肺がんと喫煙の関連をUnder Estimateする可能性があります。

Neighborhood Controlも同様で、例えばExposure環境要因だった場合、同様の地理的環境を持つ近隣住民をコントロールとして比較する際には、Under Estimateとなりえます。

 

2、Information Bias(Differential Bias)

Information BiasとExposureやOutcomeの測定の際に正しく測定が行われないことによる誤差です。特にその影響が、Over estimateあるいはUnder estimateと一定の方向に解釈をゆがめるものをDifferential Biasとよびます(要はOdds RatioといったRatioの値自体を低くあるいは高くゆがめることになります)。

 

代表的なものはResponder BiasやObserver Biasと呼ばれるもので例えば介入試験を行っている際に被験者や計測者が介入ステータスを知っていることで、通常よりよいOutcomeの報告をしてしまう場合がこれにあたります(この場合介入効果をOver estimateすることになります)。

これがDouble Blinded studyを必要とす理由です。

 

3、Information Bias(non-Differential Bias)

Non-differentialは、Over estimateでもUnder estimateでもなく、関連性の強さを弱めうるバイアスのことです(つまりRatioを低く見積もります)。

 

例えば計測機器の計測誤差で、暴露群と非暴露群をそれぞれ20%ずつそれぞれ別の群にゆがめていたとします。その場合下の票のようにORが低く見積もられてしまうのです。

もし

真の暴露群: Case:50名 

真の暴露群: Contorol:25名 

真の非暴露群: Case:50名

真の非暴露群: Control:75名

OR=3

 

だとすると、それぞれ20%が暴露群、非暴露群に間違って分類されるので、

計測された暴露群: Case:50名 (50+50*0.2-50*0.2)

計測された暴露群: Contorol:35名 (25+75*0.2-25*0.2)

計測された非暴露群: Case:50名(50+50*0.2-50*0.2)

計測された非暴露群: Case:65名(50+25*0.2-75*0.2)

OR=1.86

になってしまうのです。

 

論文を読むときには対照のPopulationに偏りはないか?Inclusion Criteria,Exclusion Criteria、コホートでじゃLoss to Follow upといったことと、計測は正しく行われているかを注意深く見る必要があるわけです。