FramePlot (Ishikawa & Hotta, 1999)

Streptomyces属に代表される放線菌と呼ばれる菌群のDNAは、 一般に68-70%を超える高いG+C含量をもっている。 そのためcodon usageに極端な偏りを示し、 各tripletの3rd letter (例えばATGのG)は 80-90%以上の頻度でGあるいはCとなる。 このことは 「3rd letterが80-90%以上のopen reading frame (ORF)は protein-coding regionである可能性が高い」 ということを示している。 Frame Plot analysisはこのような特徴をもつORFを探すことにより、 protein-coding regionを予測するために Bibb [1984]らによって開発された方法であり、 現在では放線菌遺伝子の研究に広く使われ、 必要不可欠な解析のひとつとなっている。

FramePlot は以下の手順により解析を行う:

  1. 解析しようとする配列の1塩基目から、 "Window size"で指定したcodon数 (デフォルトでは40 codons = 120 bases)に着目。
  2. "Window"内で3rd letter(3,6,9...番目の塩基)が GあるいはCであるtripletの割合(%)を求める。
  3. "Window"を1 codon分下流にずらしながら、 2.を繰り返す。
  4. 1-3.を他のふたつのframeについて繰り返し行う。
次に示すのはStreptomyces griseuskan [Ishikawa & Hotta 1991] およびその周辺領域の配列(1794 bp)に対して上記の解析を行った結果である:


2nd frame (緑)の450-1300付近に 3rd letter G+C%の高い領域の存在が見て取れるが、 事実、434-1288がprotein-coding regionであることが明らかとなっている。

以下にその他のサンプルを示す:

開発の経緯

Frame 解析を行うためのソフトウェアは、まずBibbらによってVAX (DEC) 上で開発されたが、他のプラットフォームへの移植は容易ではなかった(Bibb 私信)。続いてG. Kleman (オハイオ州立大)によってIBM PC上で動作するもの が作られたが、当時日本で最も多く使われていたPC-98シリーズパソコン(NEC) では動作せず、近年普及した(いわゆる)DOS/Vパソコンにおいても英語モード でしか動作しなかった(Jan. 1993バージョンは、Windows 95のMS-DOSプロンプ トで動作することを確認した)。また、遺伝子解析ソフトGENETYX (ソフトウエ ア開発(株))にはFrame解析機能が含まれているが、この手のソフトウェアは一 般に高価(数十万円以上)であり、誰でもが気軽に利用できるとはいえない。こ のような状況のため、Frame解析を行うための安価なソフトウェアを希望する 声は、以前から少なくなかった。そこで筆者は8年ほど前にQuickBASIC (マイ クロソフト(株))を用いて、PC-98シリーズ上で動作するFRAME.EXEを作成し、 筆者自身で利用するとともに数人の知人に無償で配布した。

ところが、ここ1, 2年で状況が一変した。インターネットの爆発的な普及 である。大学を始めとするほとんどの研究施設でインターネットが利用できる ようになり、ことにWorld Wide Web (WWW)の登場はそれに拍車をかけた。WWW ではNetscape Navigator(ネットスケープ・コミュニケーションズ社)などの優 れたブラウザーにより、親しみやすいユーザーインターフェースが提供され、 さらに任意のプログラムをサーバー側で実行し、ユーザーにその結果を送ると いう仕組み(CGI)により、見かけ上どのような種類のコンピューターからでも プログラムを実行できるようになった(プラットフォーム非依存)。そこでプロ グラム言語Perlを用いて、CGIプログラムとして動作するFramePlotを新たに作 成した。これにより、WWWを利用できる誰でもが無償でFrame解析を行えるよう になり、Frame解析を行うことのできる研究者の数は飛躍的に増加したと考え られる。

FramePlotは放線菌を念頭に置いて開発されたが、 放線菌以外の高GC含量バクテリアにも適用可能である。 Pseudomonas , Micrococcus などの塩基配列を数例解析した限り、 これらのバクテリアの遺伝子予測にも有効であった。

References

Bibb, M.J., Findlay, P.R. and Johnson, M.W. (1984) The relationship between base composition and codonusage in bacterial genes and its use for the simple and reliable identification of protein-coding sequences. Gene 30: 157-166.

Ishikawa, J., Hotta, K. (1991) Nucleotide sequence and transcriptional start point of the kan gene encoding an aminoglycoside 3-N-acetyltransferase from Streptomyces griseus SS-1198PR. Gene 108: 127-132.

Ishikawa, J. and Hotta, K. (1999) FramePlot: a new implementation of the Frame analysis for predicting protein-coding regions in bacterial DNA with a high G+C content. FEMS Microbiol. Lett. 174:251-253.