統計リテラシー
2006年 08月 01日
私は前々から「早期英語教育よりも国語教育を大切に」「論理的な文章の読み書きを」ということを主張しているので、つぶやきさんの「いまさら」ということは分かるのですが、今からでも変えないと、と思っています。
もう一つ、高校までに教えておいた方がよいと思うのは「統計」です。
疫学調査や経済分析に用いられるような高度なレベルまでは必要ありませんが、集団における値のばらつき、集団を代表する値の求め方、有意差の検定の仕方などについては馴染んでおいた方が良いと考えます。
その理由として挙げられることの一つに、インフォームドコンセント(説明同意と訳されることもあります)の問題があります。
昔なら、治療法は医者に任せていればよかったのですが、現在では患者さんやその家族に判断がゆだねられることが多々あります。
例えば自分の家族が癌にかかったとします。
幸い手術によって腫瘍は取り除けたのですが、再発予防のために抗癌剤の治療を勧められました。
「Aという薬はこれこれの副作用がありますが、X%の有効性があります。これに対して、Bという薬はAよりも副作用は少ないのですが、有効性もAよりも少なくY%になります」という「エビデンス」が告げられ、さあ、判断して下さい、ということになる訳です。
このとき、統計リテラシーがあれば、より正確な判断が可能です。
Aという薬を投与したのは何例あり、どんな性別、人種、年齢構成なのか、他に持病はないのか、そもそも「有効性」とはどんな基準を用いているのか、元データに当たることができれば自分できちんと判断できるでしょう。
例数が10例なのか、100例なのか、1000例なのかによって、データの信憑性は変わってきます。
上の例で言えば、実はAという薬の方はアメリカの臨床研究で、50人の患者の人種構成はアフリカンアメリカンと白人が半々だった、というような場合に、日本人患者100名に対して投与した結果を基にしているBという薬よりも、本当に有効性があると判断してよいのか、ということになる訳です。
もちろん、「統計」は集団を扱っていますので、本当にその患者さんにとってAという薬の方が効くのかどうかについては、試してみなければ分からないということもありえるでしょう。
「統計」は占いでも神のお告げでもありませんから、本当のところはそのようなデータを元に自分で判断するしかないのです。
このような「一回性」に対して、科学は今後どのように対応できるのかについては、興味深いテーマであると思われますが、今のところは無力であるともいえます。
* ****
ところで、精神疾患の遺伝子の話に戻ります。
精神疾患の診断はなかなかに難しく、アメリカのDSM-IV(まもなくVになる)とヨーロッパのICD-10という基準の間にも食い違いがありますが、そもそも血糖値や血圧などのように「測定できる値」を元にしていないという問題があります。
とはいえ、一応臨床の専門家が「この患者さんは統合失調症の症状にもっともあてはまる」というような判断を下します。
さて、スコットランドで統合失調症および双極性障害の患者さんが多数みられる家系が見つかり、患者の染色体を調べてみると、1番の染色体のq42.1という部分と、11番染色体のq14.3という部分より端の部分が、ちょうど入れ替わっている(転座と言います)ということが分かりました。
数十名から成る家系で、疾患を発症しているヒトにはこの転座があり、発症していないヒトには転座がない、ということが統計的に有意なものであることが解析され(連鎖解析)、2000年に論文として報告されました(今回のWorkshopのオーガナイザーの一人であるDavid Porteousの研究室の論文です)。
※ ちなみに、上記のように番号の付いている常染色体はヒトの場合全部で22種類あり、このほかに性染色体と呼ばれるXおよびY染色体がありますが、女性ではこの22種類およびX染色体が2セットあり、男性では22種類が2セットとXおよびY染色体となり、数としては通常男女とも46本です。さらに言うと、Y染色体はX染色体よりもかなり短いです。コメントに「女性は染色体の数が少ない」というものがありましたので、念のため。
上記の論文では、ちょうど1番染色体の入れ替わりの部分(break pointと言います)には2つの遺伝子があり、DISC1(disrupted in schizophrenia 1)およびDISC2と名付けられました。
2001年の論文では、さらに詳しくDISC1の構造などが報告されました。
このような解析と並行してDIC1の部分で転座がある上記家系の患者を調べると、p300という脳波の現れ方が減少していることが示され、p300を統合失調症and/or双極性障害の生物学的指標として用いることの有効性が調べられましたが、遺伝学的解析としてその次に行われたのは、統合失調症等の患者でDISC1遺伝子の変異等があるかどうかを調べることでした。
これは関連性解析と呼ばれるもので、エジンバラのグループの他にもこのプロジェクトに取り組む研究室があり、大きな競争となったようですが、やはり関連性があるいということが統計学的に示されました。
これがだいたい2003年から2004年のことです。
では、DISC1という遺伝子が作るタンパク質は、いったいどのような働きがあるのだろうかということが問題になります。
生物学的に説明が付かないと、統合失調症のマーカーとしては有効かもしれませんが、原因を明らかにすることにはなりません。
さらに他のグループも参入する時代となり、DISC1タンパク質と結合するタンパク質の同定などが進み、2005年にはDISC1が神経細胞の移動や神経活動に関わるという論文が発表されました。
そのうちの1報は澤明さんという日本人でJohns Hopkins大学で研究室を主催されている方のものでもあり、この論文とDavidのものは2005年度に最もインパクトのあった論文としてScienceに取り上げられました。
この簡単な歴史で言いたかったことは、病気に関連する遺伝子が統計学的に見つかった場合、それが本当の意味で原因となるものかについては、慎重にさまざまな方向から研究が進められるということです。
頂いたコメントの中に誤解されておられる方があるようでしたので、具体的な事例として説明させていただきました。
なお、もう一つ大事なことは、「ある病気の遺伝子」というものはありません。
例えば、遺伝子を元にして、神経細胞の中で対応するタンパク質が作られ、それは何らかの生物学的活性を持ちます。
そのような神経細胞が結合することにより神経回路が形成され、さらに脳が構成され、そして個体の行動へと繋がるのです。
遺伝子からひとっ飛びに行動へとジャンプして働くなどということはありえません。
さて、そろそろ先日の「問題発言」に戻ることにしましょう。