シーケンスデータを統合するスクリプト
seqasm.pl

SHeadの環境では、シーケンサから出力される単純なシーケンスデータをアライメントツール(ClustalW) 用のファイルにアセンブルする所から解析が始まります。従来こういった作業はエディタやワープロを使って、手で行っていました。SHeadでは、このアセンブルを自動化するために、seqasm.plというスクリプトを用意しています。

seqasm.plの使い方

SHeadが使える環境下で、
user@host% seqasm.pl ファイル名 ファイル名 ファイル名 ....
と打ち込んで下さい。ファイル名は生データで、幾つでも続けて書き込めます。リターンキーを押すと、画面上にClustalW用データが出力されます。これをファイルにする為には、以下のようにリダイレクトしてください。
user@host% seqasm.pl ファイル名 ファイル名 ファイル名 > 名前.seq
拡張子.seqは必須では有りませんが、SHeadでの推奨です。

迅速に処理するコツ

seqasm.plを使えば、取り敢えずエディタを使って手入力する手間は省けますが、クローン数が多いと、コマンドを打ち込むのが大変です。次のようにすると、大量のクローンを一発でシーケンスファイルに変換できるでしょう。
  1. まとめて解析したい生データを、一つの新たなディレクトリに移して下さい。このディレクトリには、生データ以外のファイルは書き込まないように注意して下さい。AppleTalk (Mac)や Samba (Win95)で、直接UNIXのディスクを操作できる環境があれば、マウスでファイルのアイコンをドラッグ&ドロップするだけで、これらの作業が出来る筈です。
  2. Unix Workstationにloginし、先程生データを納めたディレクトリの一つ上までcdコマンドで移動します。lsコマンドで生データを納めたディレクトリの名前があれば成功です。
  3. 解析用ディレクトリを作ります。
    mkdir ディレクトリ名
  4. 解析用ディレクトリに移ります。
    cd ディレクトリ名
  5. 生データを納めたディレクトリの名前を仮にdataとしたら…
    seqasm.pl ../data/* > シーケンスファイル名.seq
    と打ち込んで下さい。カレントディレクトリに シーケンスファイルが完成します。
注釈:*はUNIXのシェルのワイルドカードで、全ての文字の0〜数回の繰り返しをあらわします。つまり、*だけは指定ディレクトリの全てのファイルを示します。*や?などのワイルドカードを応用すれば、指定ディレクトリの特定のファイルのみをアセンブルする事も出来ます。詳しくはUNIXの解説書を参考にして下さい。

シーケンスを追加する

seqasm.plは出力を全て標準出力にしてあるので、既存ファイルへのデータの追加も次のようにして簡単に行う事が出来ます。
user@host% seqasm.pl ファイル名 ファイル名 ファイル名 >> 既存ファイル.seq

アライメントの必要がないときは

seqasm.plは出力を全て標準出力にしてあるので、SHeadのseq関連のフィルタ群にパイプ処理で繋げる事ができます。アライメントをする必要がないときは、次のようにするとPHYLIPやMega用のファイルを直接作る事が出来ます。
user@host% seqasm.pl ファイル名 ファイル名 ファイル名 | seq2phy.pl > ファイル名
                                         seq2mns.plでもよい↑