アライメントファイルの編集・修正
exonuc.pl, ligase.pl (Modifing enzymes)

アライメントのすんだシーケンスは、必ずしもこのまま解析に供するわけではありません。 たとえば、長い配列のある決まった領域を解析したり、部分的に抜きだして解析したりすることは多いとおもわれます。 SHeadではこの様な時のために、アライメントファイルのシーケンス部を編集するツールをいくつか取り揃えてあります。 (ファイルのメンバーを抽出するにはリストファイル機能をお使い下さい。)

アライメントファイル中の配列の削除

手持ちのシーケンスのある領域を削って残りを解析したいときには、 exonuc.plというフィルタを使います。exonuc.plは、ファイルに対して exonucleaseの様に働きます。 すなわち、ファイル中の配列データを末端から削りとるわけです。
exonuc.plは非常に多機能なフィルタです。まず、そのコマンド形態を記します。
exonuc.pl [-5|-3 -c -p[offset]] number < ファイル名.aln

[]で囲まれた所は省略可能で、|で区切った所はどちらかを指定します。
オプション( - に続く部分)は次の通りです。
exonuc.plの制限
本versionでは、入力できる塩基数が最大10,000に制限されています。 実用上は問題ありませんが、10,000を越える塩基を解析したい時はスク リプトの変更が必要です。

exonuc.plの使用例
  1. file.alnの5'endの10塩基を取り去り、output.alnに書き出す。
    user@host% exonuc.pl 10 < file.aln >output.aln
    
  2. file.alnの3'endの10塩基を取り去り、output.alnに書き出す。
    user@host% exonuc.pl -3 10 < file.aln >output.aln
    
  3. file.alnの5'endの10コドンを取り去り、output.alnに書き出す。
    user@host% exonuc.pl -c 10 < file.aln >output.aln
    
  4. file.alnの先頭から数えて+24の位置以降を取り出し、output.alnに書 き出す。
           
    user@host% exonuc.pl -p 23 < file.aln >output.aln
    
  5. file.alnの先頭から数えて+24の位置までを取り出し、output.alnに書 き出す。
           
    user@host% exonuc.pl -3 -p 24 < file.aln >output.aln
    
  6. file.alnの先頭から数えて+24の位置が翻訳開始点のとき、10番目のア ミノ酸以降を取り出し、output.alnに書き出す。
    user@host% exonuc.pl -c -p24 9 < file.aln >output.aln
    
  7. file.alnの+10から、+120までの領域を取り出し、output.alnに書き出 す。
    user@host% exonuc.pl -3 -p 121 < file.aln | exonuc.pl -5 9 > output.aln
    (3’端から切りだしていることに注意。こうしないと位置指定がうまく行かない)
    
  8. file.alnの先頭から数えて+24の位置が翻訳開始点で、30残基のペプチドがcodeされている。coding regionを取り出し、output.alnに書き出す。
    user@host% exonuc.pl -3 -c -p24 30 | exonuc.pl 23 > output.aln
    
個々の数字の指定に注意して下さい。exonuc.plの引数に指定するnumberは、常に削除する数|サイトです。

複数のアライメントファイルの配列を繋げる

手持ちの配列データを繋げて解析したいときには、ligase.plというスクリプトを使います。 ligase.plはいわばアライメントファイルのligaseです。 ligase.plは引数に指定したファイルの配列を、その順番に繋げて、 標準出力にアライメントファイル形式で出力します。
user@host% ligase.pl file1.aln file2.aln file3.aln >output.aln
こうすると、file1,2,3の順で繋げた配列を持つファイルを、 output.alnに書き出します。引数に指定できるファイルの数には上限は ありませんが、すくなくとも2つの引数が必要です。