2011年6月30日木曜日

SI接頭辞

以前も同じことを調べたのですが,忘れてもう一度調べてしまったので忘備録.

塩基配列の距離(に限らないわけですが)を表す時に,何故キロベースはkbでメガベースがMbなのか.つまり何故Mは大文字でkは小文字なのか.

基本的には1より小さい値を表す接頭辞(ナノとかピコとか)は小文字,大きい方(103以降)は大文字ですが,キロだけは7つの基本単位の一つであるケルビン(K)とかぶるために小文字のkが使われていると思われます.

2011年6月25日土曜日

スカシユリ

人に頼まれて,スカシユリ(Lilium maculatum)のサンプリングに西伊豆方面に行ってきました.

植物の多様性は混とんとしすぎているのであまり深入りはしていませんが,たまには実験室を離れて実際の生物に触れ合うのも精神衛生上良いことだと思います.

2011年6月20日月曜日

集団構造の解析

Marko P, Hart M (2011) Retrospective coalescent methods and the reconstruction of metapopulation histories in the sea. Evolutionary Ecology: 1-25.

以前からの記事のトピック(集団構造とcoalescent)に関連した論文です.海洋生物が専門の著者の方々のようですが,最初の三つのセクションはとても良いサマリーになっています.後半はじっくりと読んでいないので評価できませんが,前半だけでも頭の中を整理するために読む価値はあります.

2011年6月13日月曜日

単座位多サンプルの解析

Maruvka YE, Shnerb NM, Bar-Yam Y, Wakeley J (2011) Recovering population parameters from a single gene genealogy: An unbiased estimator of the growth rate. Mol Biol Evol 28: 1617-1631.

先日の続きです.座位数が少ない場合に,塩基多様度などの所謂summary statisticsの分散はサンプル数が多かったとしてもとても大きくなることはわかっていますが,サンプル数を増やすことで別の情報が得られないかというのがこの論文です.

もちろんアイデア自体は昔からあるのですが,この論文ではnumber of lineages as a function of time (NLFT)というsummary statistics(のようなもの)を提案しています.これはある時間における系統の数を表しています.

実際の内容は論文を読んでもらえばわかるとして(細かい計算はともかく,イントロはうまくまとまっています),直感的には単位時間当たりのcoalescent rateは集団サイズと負の相関を示すので,サンプルが多ければ多いほど単位時間あたりに存在する系統が多くなり,coalescent simulationを用いずにわりと正確にその時の集団サイズが推定できるはずです.

2011年6月11日土曜日

モデルに基づいた検証の重要性

Beaumont MA, Nielsen R, Robert C, Hey J, Gaggiotti O, et al. (2010) In defence of model-based inference in phylogeography. Mol Ecol 19: 436-446.

少し前の論文ですが取り上げます.これは,名だたる統計生物学者のオールスターズが連名である人のある方法をフルボッコにする論文です.

生物の集団内の構造と歴史,近縁種との関係などを現在の地理的分布などと絡めて研究する分野をphylogeographyと呼びます.有名なところではJ.C.Avise(c.f., 生物系統地理学―種の進化を探る)の一連の研究があります.こういった研究が生物の歴史を知るのにとても重要なことであることは確かでしょう.

ただし,こういった研究の多くはその簡便さから一座位(多くはミトコンドリア座位)のデータを使うことが多く,Genetic Driftの効果が大きいということは指摘されていますし,僕も以前のエントリーや学会の発表などで指摘させてもらっています.

で,こういった研究の多くは,数学的に厳密なモデルにしたがって歴史を推定するのではありません.例えば,距離的に生息域の近い種がより近いクラスターを系統樹で形成すれば,Isolation by Distance(距離による隔離)であると推定し,ある一つの集団が他と比べて少ない多様性を持っているようであれば,Bottleneckがあったと推定する,といったように観測者の主観が入り,人によって得られる結論が違ってくる可能性があります.

恐らくそこを克服するために考えられたのが,A.TempletonのNCA(Nested Clade Analysis)と呼ばれる方法とその派生法です.僕は実際には使ったことがないので,細かいところは間違っているかもしれませんが,サンプルの系統樹と地理的条件(サンプル場所)を組み合わせてチャート式に解析していくと,Templetonが考えたパターンを導くことができ,「地理的隔離があり,生息域が広がった集団がボトルネックを経験した」のような結論が得られるものです.確かに主観的な要素は少ないような気がします(といってもTempletonの主観に基づくわけですが).

この方法はしばしば批判の的にされています.一つの大きな理由は,Templetonはシミュレーションをほとんど行わないということです.系統樹の一座位のあるパターンは様々なdemographyのモデルのもとに起こりえます.それに反してモデルベースの考え方では,まずdemographyのモデルを考え,その中でどのような系統樹がどのような確率で起こりうるかということを考えます.したがって,推定したパラメータ(移住率や集団サイズ)がどれくらい確からしいかということに対しての検証ができます.

Templetonは自分の方法によほど自信があるのか(確かにNCAはものすごく良く使われてきた方法です),モデルベースの研究への批判,特にABC(Approximate Bayesian Computation)をしばしば論文で批判してきました.その内容は特にABCに限定せず,モデルベースの方法全般を批判しているものが多いのです.

Templetonの主張はわからないわけでもありません.モデルを用いた方法はあくまでもモデルがある程度正しいときにのみ意味があり,まったく的外れなモデルから得られる結果は何の意味もありません.扱っているモデルに妥当性があるかは議論の余地が残るところでしょう.しかし,だからと言ってモデルベースの研究すべてがおかしいという主張にはなりません.また,現在の方法の限界として,パラメータ数の増加による複雑なモデルの検証が不可能ということがありますが,今後計算速度が飛躍的に伸びれば,異なった複雑なモデル間をジャンプするような方法も実用的になってくると思いますので,原理的に間違っているわけではありません.

実際の論文では,NCA(ここではNCPA(改良版なのか名前が変わったのかは僕はチェックしていません))に対してあらゆる角度から批判を行っています.NCPAのカイ二乗検定は統計的に間違っているといった細かいものから,前述のシミュレーションに対する問題など様々です.最終的にはデータをどう捉えるかという統計哲学的な議論になってしまうので答えが出るような形のものではないのかもしれませんが,現在のところモデルベースな考え方の方が色々な点で有効な方法であるというという点は明らかでしょう.

個人的な意見では,ミトコンドリアを用いた集団構造の研究なんかは,データが限られていた時にやむなく使われていた方法であって,これから非モデル生物で多座位(もしくはゲノム全体)の多様性のデータが得られれば,わざわざミトコンドリアのみを用いる理由はなくなってくるはずです.

ただ,前述のように,モデルが自分が現在調べている集団にとって妥当かどうかというのは常に気を付けなければいけません.モデルベースの研究のために多くの既存のソフトウェアがあります.その中身はベイジアンやCoalesenceやマルコフ過程などについての知識がないと理解できない高度なものです.ソフトを使う人すべてがそれを理解することは期待できないでしょう.ただ,少なくともどのような仮定でそのソフトは動いているのか,それを知らないととんでもない結果をつかまされるかもしれないことは意識しておくべきです.

ところで,単座位の解析の信頼性について僕は割と批判的なのですが(もちろん研究自体を否定するわけではありません),別の点から見て単座位でも信頼性のある結果が得られるという面白い論文が最近ありましたのでそれはまたの機会に紹介したいと思います.

2011年6月10日金曜日

共著論文のありがたみ

共著論文が立て続けにアクセプトされました.僕は自分の研究は「役に立たない研究」と自虐的に表現していますが,集団遺伝・分子進化の研究手法自体はは色々なところで社会の役に立っています.そういった意味では自分がサポートした研究が社会に還元される,少なくともその可能性がある,のは大事なことではないかと.

とりあえず,持つべきものは共同研究者です.感謝.

Koei Sato, Akiko Iwata-Takamura, Naoki Osada, Yoshikawa Akira, Yuji Hoshi, Keiko Miyakawa, Yuko Gotanda, Masahiro Satake*, Kenji Tadokoro, Hideaki Mizoguchi. Novel DNA sequence isolated from blood donors with high transaminase levels. Hepatol. Res. accepted (2011).

肝臓でのALT(トランスアミナーゼ,肝炎の指標の一つ)が高い検体から得られた,ウィルス由来の可能性がある二重鎖環状DNAの解析.今後の研究が期待されます.

Alice Aarnink, Pol-André Apoil, Ichiro Takahashi, Naoki Osada, Antoine Blancher*.
Characterization of MHC class I transcripts of a Malaysian cynomolgus macaque by high throughput pyrosequencing and EST libraries. Immunogenetics accepted (2011).

カニクイザル主要組織適合遺伝子(MHC)の,ESTとNGSを用いたタイピング.実験用サルの遺伝子タイピングは製薬企業にとっても重要な問題です.

Renchao Zhou, Shaoping Ling, Wenming Zhao, Naoki Osada, Sufang Chen, Meng Zhang, Hua Bao, Cairong Zhong, Bing Zhang, Xuemei Lu, David Turissini, Norman C. Duke, Jian Lu*, Suhua Shi*, Chung-I Wu*. Population genetics in non-model organisms: II. Natural selection in marginal habitats revealed by deep sequencing on dual platforms. Mol. Biol. Evol. (2011).

マングローブ集団のNGSを用いた集団遺伝学的解析.NGSでマングローブのDNAを読んでみたら集団がほとんどクローンでしたというお話.更に一部の遺伝子のみが淘汰がないと説明できないくらい変異していました.こういった知見は生態保全に役立つでしょう.

2011年6月3日金曜日

NO initial

ちょっとした論文を投稿したんですが,しばらく待たされた後に,サブミッションに問題があるとのことで戻ってきました.

著者のイニシャルを入れるところに「No」としか書いてない,と編集者のメールにあったのですが,NOは僕のイニシャルです.細かいところまでチェックしている割に,肝心なところが抜けているようです.

と,入力をし直してみましたが,確認のためにイニシャルを入れる欄と,「この論文は他に投稿していますか?」みたいな質問に答える欄が入り混じっているので,No,NO,NO,Noとかになっていて確かに紛らわしいです.