apeescape2.com
  • メイン
  • Uiデザイン
  • Kpiと分析
  • 分散チーム
  • モバイルデザイン
データサイエンスとデータベース

ジスルフィド結合研究のためのバイオインフォマティクスデータベースの開発

Protein Data Bank(PDB)バイオインフォマティクスデータベースは、実験的に決定されたタンパク質、核酸、および複雑なアセンブリの構造の世界最大のリポジトリです。すべてのデータは、X線、分光法、結晶学、NMRなどの実験方法を使用して収集されます。

この記事では、PDBからデータを抽出、フィルタリング、およびクリーンアップする方法について説明します。これにより、記事で説明されているタイプの分析が可能になります 生命の異なる領域におけるタンパク質ジスルフィド結合の発生:タンパク質データバンクからのタンパク質の比較 、 に発表されました タンパク質工学、設計および選択 、第27巻、第3号、2014年3月1日、65〜72ページ。

PDBには、解像度、方法、変異などが異なる多くの繰り返し構造があります。同じまたは類似のタンパク質で実験を行うと、グループ分析に偏りが生じる可能性があるため、重複セットの中から正しい構造を選択する必要があります。 。そのためには、非冗長(NR)タンパク質セットを使用する必要があります。



正規化の目的で、ダウンロードすることをお勧めします 化合物辞書 3NFを使用する、またはスタースキーマと次元モデリングを使用するデータベースに原子名をインポートするため。 (私も使用しました DSSP 問題のある構造を排除するのに役立ちます。この記事ではそれについては説明しませんが、他のDSSP機能は使用しなかったことに注意してください。)

この研究で使用されたデータには、異なる種から得られた少なくとも1つのジスルフィド結合を含む単一ユニットのタンパク質が含まれています。分析を実行するために、すべてのジスルフィド結合は、最初に、ドメイン(古細菌、原核生物、ウイルス、真核生物、またはその他)によって、また長さによって、連続または非連続として分類されます。

一次および三次タンパク質構造

タンパク質フォールディングの前後の一次および三次タンパク質構造。
ソース: タンパク質工学、設計および選択 、この記事の冒頭で述べたように。

出力

に入力する準備をする R 、SPSS、またはその他のツールの場合、アナリストはデータが データベース この構造のテーブル:

カラム タイプ 説明
code character(4) 実験ID(英数字、大文字と小文字を区別せず、ゼロで開始することはできません)
title character varying(1000) 参考のために、実験のタイトル(フィールドはテキスト形式にすることもできます)
ss_bonds integer 選択した鎖のジスルフィド結合の数
ssbonds_overlap integer 重複するジスルフィド結合の数
intra_count integer 同じチェーン内で作成された結合の数
sci_name_src character varying(5000) シーケンスが取得された生物の学名
tax_path character varying リンネ分類木のパス
src_class character varying(20) トップレベルの生物(真核生物、原核生物、ウイルス、古細菌、その他)
has_reactives7 boolean シーケンスに反応中心が含まれている場合にのみ真
len_class7 integer セット7のシーケンスの長さ(爆風によって計算されたp値10e-7で設定)

材料および方法

この目標を達成するための最初のステップは、 データを集めます から rcsb.org 。このサイトには、さまざまな形式の実験のダウンロード可能なPDB構造が含まれています。

データは複数の形式で保存されますが、この例では、フォーマットされた固定スペース区切りのテキスト形式(PDB)のみが使用されます。 PDBテキスト形式の代替はそのXMLバージョンであるPDBMLですが、データ分析で問題を引き起こす可能性のある不正な形式の原子位置命名エントリが含まれている場合があります。古いmmCIFやその他の形式も利用できる場合がありますが、この記事では説明しません。

PDBフォーマット

PDB形式は、断片化された固定幅のテキスト形式であり、SQLクエリ、Javaプラグイン、Perlモジュールなどで簡単に解析できます。ファイルコンテナ内の各データ型は、適切なタグで始まる行として表されます。次のサブセクションで各タグタイプについて説明します。行の長さは80文字以下です。ここで、タグは6文字以下で、1つ以上のスペースを合わせて8バイトを使用します。タグとデータの間にスペースがない場合もあります。通常はCONECTです。タグ。

TITLE

TITLEタグは、分子名と特定のアミノ酸の挿入、突然変異、削除などの他の関連データを含む、実験のタイトル(の一部)として行をマークします。

12345678901234567890123456789012345678901234567890123456789012345678901234567890 TITLE A TWO DISULFIDE DERIVATIVE OF CHARYBDOTOXIN WITH DISULFIDE TITLE 2 13-33 REPLACED BY TWO ALPHA-AMINOBUTYRIC ACIDS, NMR, 30 TITLE 3 STRUCTURES

TITLEへの行が複数ある場合レコードの場合、タイトルを連結する必要があります。継続番号の順に並べて、バイト9と10に右揃えで配置します(これらの行の数によって異なります)。

ATOM

ATOMに保存されているデータ線は、実験における各原子の座標データです。実験には、挿入、突然変異、代替の場所、または複数のモデルがある場合があります。これにより、同じ原子が複数回繰り返されます。適切な原子の選択については、後で説明します。

12345678901234567890123456789012345678901234567890123456789012345678901234567890 ATOM 390 N GLY A 26 -1.120 -2.842 4.624 1.00 0.00 N ATOM 391 CA GLY A 26 -0.334 -2.509 3.469 1.00 0.00 C ATOM 392 C GLY A 26 0.682 -1.548 3.972 1.00 0.00 C ATOM 393 O GLY A 26 0.420 -0.786 4.898 1.00 0.00 O ATOM 394 H GLY A 26 -0.832 -2.438 5.489 1.00 0.00 H ATOM 395 HA2 GLY A 26 0.163 -3.399 3.111 1.00 0.00 H ATOM 396 HA3 GLY A 26 -0.955 -2.006 2.739 1.00 0.00 H

上記の例は、実験1BAHから抜粋したものです。最初の列はレコードのタイプを示し、2番目の列はアトムのシリアル番号です。構造内のすべての原子には、独自のシリアル番号があります。

シリアル番号の横には、4バイトかかる原子位置ラベルがあります。その原子位置から、元素の化学記号を抽出することができます。これは、レコードデータの別の列に常に存在するとは限りません。

原子名の後に3文字の剰余コードがあります。タンパク質の場合、その残基はアミノ酸に対応します。次に、チェーンは1文字でコード化されます。沿って 鎖 ギャップの有無にかかわらず、アミノ酸の単一の鎖を意味しますが、リガンドを鎖に割り当てることができる場合もあります。このケースは、次の列にあるアミノ酸配列の非常に大きなギャップから検出できます。変異を含めて同じ構造をスキャンできる場合もあります。その場合、挿入コードはシーケンス列の後の追加の列で使用できます。挿入コードには、影響を受ける残基を区別するのに役立つ文字が含まれています。

次の3つの列は、オングストローム(Å)で測定された各原子の空間座標です。これらの座標の隣にある占有列は、原子がその場所にある確率を、通常の0から1のスケールで示しています。

最後から2番目の列は温度係数で、Ųで測定された結晶の乱れに関する情報を伝達します。 60Ųより大きい値は無秩序を意味し、30Ųより小さい値は自信を意味します 。実験方法に依存するため、PDBファイルに常に存在するとは限りません。

次の列(記号と料金)は通常欠落しています。化学記号は、前述のように、原子位置の列から収集できます。料金が存在する場合、整数の後に+が続く記号の接尾辞が付けられます。または-、例: N1+。

TER

これはチェーンの終わりを示します。この線がなくても、チェーンの終わりを簡単に見分けることができます。したがって、多くの場合TER行がありません。

MODELおよびENDMDL

A MODEL構造のモデルが始まる場所を線で示し、モデルのシリアル番号が含まれています。

そのモデルのすべてのアトミックラインの後、ENDMDLで終わります。ライン。

SSBOND

これらの系統には、システインアミノ酸間のジスルフィド結合が含まれています。ジスルフィド結合は他の残基タイプに存在する可能性がありますが、この記事ではアミノ酸のみが分析されるため、システインのみが含まれます。次の例は、コード132Lを使用した実験からのものです。

12345678901234567890123456789012345678901234567890123456789012345678901234567890 SSBOND 1 CYS A 6 CYS A 127 1555 1555 2.01 SSBOND 2 CYS A 30 CYS A 115 1555 1555 2.05 SSBOND 3 CYS A 64 CYS A 80 1555 1555 2.02 SSBOND 4 CYS A 76 CYS A 94 1555 1555 2.02

この例では、ファイルに4つのジスルフィド結合がタグ付けされており、2番目の列にシーケンス番号が示されています。これらの結合はすべてシステインを使用し(列3および6)、それらはすべて鎖に存在しますA (列4および7)。各鎖の後に、ペプチド鎖における結合の位置を示す残基配列番号があります。挿入コードは各残基配列の隣にありますが、この例では、その領域にアミノ酸が挿入されていないため、挿入コードは存在しません。最後の列の前の2つの列は 対称操作 、最後の列は硫黄原子間の距離で、Åで測定されます。

このデータにいくつかのコンテキストを与えるために少し時間を取ってみましょう。

rcsb.org NGLビューアを使用して撮影した以下の写真は、実験の構造を示しています132L。特に、それらはリガンドのないタンパク質を示しています。最初の画像はスティック表現を使用しており、CPKカラーは硫黄とその結合を黄色で示しています。 V字型の硫黄結合はメチオニン結合を表し、Z字型の結合はシステイン間のジスルフィド結合です。

黄色の硫黄ジスルフィド結合を示すCPKカラーリングによるスティック表現

次の写真では、タンパク質の視覚化の簡略化された方法が バックボーンの視覚化 はアミノ酸で色分けされており、システインは黄色です。これは、側鎖が除外され、ペプチドグループの一部(この場合はタンパク質バックボーン)のみが含まれている同じタンパク質を表しています。 N末端、Cアルファ、C末端の3つの原子で構成されています。この写真はジスルフィド結合を示していませんが、タンパク質の空間配置を示すために簡略化されています。

システインが黄色であるアミノ酸によって着色された単純化されたタンパク質骨格

パイプは、ペプチド結合原子をC-アルファ原子と結合することによって作成されます。システインの色は、CPK配色法の硫黄の色と同じです。システンが十分に近づくと、それらの硫黄がジスルフィド結合を形成し、それが構造を強化します。そうしないと、このタンパク質は結合しすぎて、その構造は高温で不安定になります。

CONECT

これらのレコードは、原子間の接続にタグを付けるために使用されます。これらのタグがまったく存在しない場合もあれば、すべてのデータが入力される場合もあります。ジスルフィド結合を分析する場合、この部分は役立つ場合がありますが、必須ではありません。これは、このプロジェクトでは、距離を測定することでタグなしの結合が追加されるため、これはオーバーヘッドになり、チェックする必要があるためです。

SOURCE

これらのレコードには、分子が抽出されたソース生物に関する情報が含まれています。これらには、分類法で簡単に見つけられるようにサブレコードが含まれており、タイトルレコードで見たのと同じ複数行構造になっています。

SOURCE MOL_ID: 1; SOURCE 2 ORGANISM_SCIENTIFIC: ANOPHELES GAMBIAE; SOURCE 3 ORGANISM_COMMON: AFRICAN MALARIA MOSQUITO; SOURCE 4 ORGANISM_TAXID: 7165; SOURCE 5 GENE: GST1-6; SOURCE 6 EXPRESSION_SYSTEM: ESCHERICHIA COLI; SOURCE 7 EXPRESSION_SYSTEM_TAXID: 562; SOURCE 8 EXPRESSION_SYSTEM_STRAIN: BL21(DE3)PLYSS; SOURCE 9 EXPRESSION_SYSTEM_VECTOR_TYPE: PLASMID; SOURCE 10 EXPRESSION_SYSTEM_PLASMID: PXAGGST1-6

NRフォーマット

これは、非冗長(NR)チェーンPDBセットのリストです。そのスナップショットはで見つけることができます ftp.ncbi.nih.gov/mmdb/nrtable/ 。その目的は、タンパク質の類似性によって引き起こされる不必要なバイアスを回避することです。 NRには、すべてのPDB構造の比較によって作成された異なるIDp値レベルの3つのセットがあります。結果は、後で説明するテキストファイルに追加されます。このプロジェクトではすべての列が必要なわけではないため、重要な列のみを説明します。

最初の2列には、ATOMで説明されている一意のPDB実験コードとチェーン識別子が含まれています。上記の記録。列6、9、およびCには、p値の代表性に関する情報が含まれています。これは、によって計算されたシーケンスの類似性のレベルです。 BLAST 。その値がゼロの場合、セットの一部として受け入れられません。値が1の場合、です。上記の列は、p値のカットオフがそれぞれ10e-7、10e-40、および10e-80のセットの受け入れを表しています。分析には、p値のカットオフが10e-7のセットのみが使用されます。

最後の列には、構造の許容性に関する情報が含まれています。ここで、a許容可能であり、nではありません。

#--------------------------------------------------------------------------------------------------------------------------- # 1 2 3 4 5 6 7 8 9 A B C D E F G H I J K L M N O P Q #--------------------------------------------------------------------------------------------------------------------------- 3F8V A 69715 1 1 1 1 1 1 1 1 1 9427 1 1 0.00 0.00 0.00 0.00 1.08 1 6 5 164 X a 3DKE X 68132 1 2 0 1 2 0 1 2 0 39139 1 1 0.00 0.00 0.00 0.00 1.25 1 11 7 164 X a 3HH3 A 77317 1 3 0 1 3 0 1 3 0 90 1 0 0.00 0.00 0.00 0.00 1.25 1 5 4 164 X a 3HH5 A 77319 1 4 0 1 4 0 1 4 0 90 2 0 0.00 0.00 0.00 0.00 1.25 1 4 4 164 X a

データベースの構築とデータの解析

何を扱っているのか、何をする必要があるのか​​がわかったので、始めましょう。

学ぶのは難しい

データのダウンロード

この分析のすべてのデータは、次の3つのアドレスにあります。

  • ftp.wwpdb.org/pub/pdb/data/structures/divided/pdb/
  • ftp.ncbi.nih.gov/mmdb/nrtable/
  • ftp.ncbi.nih.gov/pub/taxonomy/taxdmp.zip

最初の2つのリンクには、アーカイブのリストが含まれています。解像度や品質の欠如に起因する問題を回避するために、それぞれの最新のアーカイブを使用する必要があります。 3番目のリンクには、最新の分類法アーカイブが直接含まれています。

データの解析

通常、PDBファイルの解析は、Java、Perl、またはPythonのプラグインまたはモジュールによって行われます。この調査の場合、事前に作成されたPDB解析モジュールを使用せずにカスタムPerlアプリケーションを作成しました。その理由は、大量のデータを解析する場合、私の経験では、実験データを使用する際の最も一般的な問題はデータのエラーです。座標、距離、行の長さ、あるべきではない場所のコメントなどにエラーがある場合があります。

これに対処する最も効果的な方法は、最初にすべてを生のテキストとしてデータベースに保存することです。一般的なパーサーは、仕様に完全に準拠する理想的なデータを処理するように作成されています。ただし、実際には、データは理想的ではありません。これについては、Perlインポートスクリプトが記載されているフィルタリングセクションで説明します。

データベース構築

データベースを構築するとき、このデータベースはデータを処理するために構築されていることに注意してください。後で分析はSPSSまたはRで行われます。ここでの目的のために、少なくともバージョン8.4のPostgreSQLを使用することをお勧めします。

テーブル構造は、ダウンロードしたファイルからわずかな変更を加えるだけで直接コピーされます。この場合、レコードの数が少なすぎるため、正規化に時間を費やす価値はありません。前述のように、このデータベースは1回限りの使用です。これらのテーブルは、 ウェブサイトで提供されるように構築されています —データを処理するためだけにあります。それが終了したら、おそらく他の研究者によるプロセスを繰り返すために、それらを削除するか、補足データとしてバックアップすることができます。

この場合、最終結果は1つのテーブルになり、SPSSやRなどの統計ツールで使用するためにファイルにエクスポートできます。

テーブル

ATOMからのデータ抽出レコードはHEADERに接続する必要がありますまたはTITLE記録。データ階層は次の図で説明されています。

3番目の正規形のデータベースになるジスルフィド結合データの自然な階層

この図は、第3正規形(3NF)でのデータベースの簡略化された表現であるため、私たちの目的では、オーバーヘッドが多すぎます。理由:ジスルフィド結合を検出するために原子間の距離を計算するには、結合を行う必要があります。この場合、テーブルはそれ自体に2回結合され、2次構造と1次構造にもそれぞれ2回結合されます。これは、非常に遅いプロセスです。すべての分析に二次構造情報が必要なわけではないため、データを再利用したり、大量のジスルフィド結合を分析したりする必要がある場合は、別のスキーマを提案します。

二次構造(3NF)を使用しないデータベーススキーマのより詳細なモデル

ジスルフィド結合は他の共有結合ほど頻繁ではないため、ウェアハウスモデルは使用できますが、必要ありません。以下のスタースキーマとディメンションモデリングは、開発に時間がかかりすぎ、クエリがより複雑になります。

スタースキーマと次元モデリングを使用したデータベースレイアウト

すべての結合を処理する必要がある場合は、スタースキーマをお勧めします。

(それ以外の場合、ジスルフィド結合は他の結合ほど一般的ではないため、必要ありません。この作業の場合、ジスルフィド結合の数は30,000近くであり、3NFでは十分に速い可能性がありますが、正規化されていないテーブルなので、ここには示されていません。)

すべての共有結合の予想される総数は、三次構造の原子数の少なくとも2倍であり、その場合、3NFは非常に遅いため、スタースキーマ形式を使用した非正規化が必要です。そのスキーマでは、一部のテーブルに2つの外部キーチェックがあります。これは、2つのアトム間に結合が作成されるため、各アトムには独自のprimary_structure_id、atom_name_idが必要です。およびresidue_id。

d_atom_nameを埋めるには2つの方法があります寸法表:データから、および別のソースから、前述の化学成分辞書。その形式はPDB形式に似ています:RESIDUEのみおよびCONECT線は便利です。これは、RESIDUEの最初の列に3文字の残基コードが含まれており、CONECTが含まれているためです。原子の名前とその接続が含まれます。これは原子名でもあります。したがって、このファイルから、すべての原子名を解析してデータベースに含めることができますが、リストされていない原子名がデータベースに含まれる可能性を考慮に入れることをお勧めします。

RESIDUE PRO 17 CONECT N 3 CA CD H CONECT CA 4 N C CB HA CONECT C 3 CA O OXT CONECT O 1 C CONECT CB 4 CA CG HB2 HB3 CONECT CG 4 CB CD HG2 HG3 CONECT CD 4 N CG HD2 HD3 CONECT OXT 2 C HXT CONECT H 1 N CONECT HA 1 CA CONECT HB2 1 CB CONECT HB3 1 CB CONECT HG2 1 CG CONECT HG3 1 CG CONECT HD2 1 CD CONECT HD3 1 CD CONECT HXT 1 OXT END HET PRO 17 HETNAM PRO PROLINE FORMUL PRO C5 H9 N1 O2

このプロジェクトでは、コーディングの速度は、実行の速度やストレージの消費よりも重要です。正規化しないことにしました。結局のところ、私たちの目標は、イントロで説明した列を含むテーブルを生成することです。

このパートでは、最も重要な表のみを説明します。

主なテーブルは次のとおりです。

  • proteins:実験名とコードの表。
  • ps:sequence、chain_id、およびcodeを含む一次構造テーブル。
  • ts:生データから抽出されてATOMに変換された3次/ 4次構造を含むテーブルレコード形式。これはステージングテーブルとして使用され、抽出後に削除できます。リガンドは除外されます。
  • sources:実験データが得られた生物のリスト。
  • tax_names、taxonomy_path、taxonomy_paths:NCBI分類データベースからのリンネ分類名。sourcesにリストされている生物から分類パスを取得するために使用されます。
  • nr:NRセットから抽出されたNCBI非冗長タンパク質のリスト。
  • pdb_ssbond:特定のPDBファイル内のジスルフィド結合のリスト。

データのフィルタリングと処理

データは、RCSBPDBリポジトリのスナップショットから取得されます。

各ファイルは単一のテーブルにインポートされますraw_pdb Perlスクリプトを使用してPostgreSQLデータベースで。スクリプトは、チャンクごとに10,000挿入のトランザクションを使用します。

raw_pdbの構造これは:

カラム タイプ 修飾子
コード 文字変化(20) nullではない
line_num 整数 nullではない
line_cont 文字変化(80) nullではない

インポートスクリプトは次のようになります。

#!/usr/bin/perl -w use FindBin '$Bin'; use DBI; $dbName = 'bioinf'; $dbLogin = 'ezop'; $dbPass = 'XYZ'; $conn = DBI->connect('DBI:Pg:database=$dbName;host=localhost', '$dbLogin', '$dbPass', {'RaiseError' => 1, 'AutoCommit' => 0}); die './pdb_lines_unos.pl ' if not defined($ARGV[0]); $recordCount = 0; $table = $ARGV[0]; $fName = $ARGV[1]; open F, 'zcat $fName|'; while () { chomp; $linija = $_; $recordCount += 1; $sql = 'insert into $table (code, line_num, line_cont) values (?, ?, ?)'; $conn->do($sql, undef, $fName, $recordCount, $linija); $conn->commit() if ($recordCount%10000 == 0); } close F; $conn->commit(); 1;

行がインポートされた後、以下で定義する関数を使用して行が解析されます。

raw_pdbからデータの場合、テーブルts、ps、proteins、sources、sources_organela、およびss_bondを生成します。対応するレコードを解析することによって。

psテーブルには、chain、length、およびsequenceの3つの重要な列があります。タンパク質配列は、各鎖および残基配列順に並べられた各残基のC-アルファ原子を使用して生成され、最初の挿入と最初の代替位置のみを取ります。 chain TS.chainから取得されます列、およびlength sequenceの事前計算された長さですストリング。この記事は単鎖と鎖内接続のみを分析することを目的としているため、ここでの分析では多鎖タンパク質はスキップされます。

SSBOND内レコードでは、すべてのジスルフィド結合はpdb_ssbondに保存されますpdb_ssbond_extendedから継承するテーブルテーブル。 pdb_ssbondこのように見えます:

カラム タイプ Nullable デフォルト 説明
id 整数 nullではない nextval( ‘pdb_ssbond_id_seq’ :: regclass)
コード 文字(4) 4文字のコード
ser_num 整数 ssbondのシリアル番号
残基1 文字(3) 結合の最初の残基
chain_id1 文字(1) ボンドの最初のチェーン
res_seq1 整数 最初の残基の連続番号
i_code1 文字(1) 最初の残基の挿入コード
残基2 文字(3) 結合の2番目の残基
chain_id2 文字(1) ボンドの2番目のチェーン
res_seq2 整数 2番目の残基の連続番号
i_code2 文字(1) 2番目の残基の挿入コード
sym1 文字(6) 最初の対称操作
sym2 文字(6) 2番目の対称操作
距離 数値(5,2) 原子間の距離
is_reactive ブール値 nullではない false 反応性のマーク(設定予定)
is_consecutive ブール値 nullではない true 連続債券のマーク(設定予定)
rep7 ブール値 nullではない false セット7構造のマーク(設定予定)
rep40 ブール値 nullではない false セットのマーク-40構造(設定予定)
rep80 ブール値 nullではない false set-80構造のマーク(設定予定)
is_from_pdb ブール値 true ソースとしてPDBから取得(設定予定)

これらのインデックスも追加しました。

'pdb_ssbond_pkey' PRIMARY KEY, btree (id) 'ndxcode1' btree (code, chain_id1, res_seq1) 'ndxcode2' btree (code, chain_id2, res_seq2)

カットオフ前のジスルフィド結合の分布はガウス分布であると想定されているため(KSテストなどでテストせずに)、同じタンパク質のシステイン間の各距離で標準偏差を計算して、許容される結合長の範囲を見つけて比較しました。カットオフに。カットオフは、計算された平均プラスマイナス3標準偏差と同じでした。 SSBONDのPDBファイルに含まれていなかった可能性のあるジスルフィド結合を導入するために範囲を拡大しました行ですが、ATOM間の距離を計算して自分で挿入しました記録。 ssbondsに選択された範囲1.6175344456264と2.48801947642267Åの間です。これは、平均(2.05)プラスマイナス4標準偏差です。

select count(1) as cnt , stddev(dist) as std_dev , avg(dist) as avg_val , -stddev(dist) + avg(dist) as left1 , stddev(dist) + avg(dist) as right1 , -2 * stddev(dist) + avg(dist) as left2 , 2 * stddev(dist) + avg(dist) as right2 , -3 * stddev(dist) + avg(dist) as left3 , 3 * stddev(dist) + avg(dist) as right3 , -4 * stddev(dist) + avg(dist) as left4 , 4 * stddev(dist) + avg(dist) as right4 , min(dist) , max(dist) from pdb_ssbond_tmp where dist > 0 and dist <20;

TS表にはすべての原子の座標が含まれていますが、システインのみが使用され、硫黄の名前は' SG 'です。したがって、' SG 'を含む別のステージングテーブル硫黄原子は、検索するレコードの数を減らしてプロセスを高速化するためにのみ作成されます。硫黄のみを選択した場合、組み合わせの数はすべての原子の場合よりもはるかに少なくなります。前者は194,574で、後者は122,761,100です。結合されたこのテーブル内で、距離はユークリッド距離を使用して計算され、結果はpdb_ssbondにインポートされます。表。ただし、距離が前に計算された定義済みの長さの間にある場合のみ。このスピードアップを行う理由は、チェックの目的でプロセス全体を再度実行する時間を短縮し、1日以内に維持するためです。

ジスルフィド結合を洗浄するには、次のアルゴリズムを使用します。

  • 接続の両側が同じアミノ酸を指している場合は削除します
  • 長さが1.6175344456264と2.48801947642267の間にない結合を削除します
  • 挿入を削除します
  • 交互の原子位置によって引き起こされた結合を削除しますが、最初の位置は残します

このためのコード(最初の引数としてpdb_ssbondテーブルを使用)は次のとおりです。

CREATE OR REPLACE FUNCTION pdb_ssbond_clean2( clean_icodes boolean, clean_altloc boolean, mark_reactive boolean, mark_consecutive boolean) RETURNS void AS $$ declare _res integer; BEGIN delete from pdb_ssbond b where exists ( select a.id from pdb_ssbond a where a.code = b.code and a.id > b.id and ( ( a.chain_id1 = b.chain_id1 and a.res_seq1 = b.res_seq1 and a.chain_id2 = b.chain_id2 and a.res_seq2 = b.res_seq2) or ( a.chain_id1 = b.chain_id2 and a.res_seq1 = b.res_seq2 and a.chain_id2 = b.chain_id1 and a.res_seq2 = b.res_seq1) ) ) ; delete from pdb_ssbond where chain_id1 = chain_id2 and res_seq1 = res_seq2 and i_code1 = i_code2; update pdb_ssbond set is_consecutive = true , is_reactive = false; delete from pdb_ssbond where not dist between 1.6175344456264 and 2.48801947642267; if clean_icodes then delete from pdb_ssbond where i_code1 not in ('', ' ', 'A') or i_code2 not in ('', ' ', 'A') ; end if; if clean_altloc then delete from pdb_ssbond a where exists ( select 1 from pdb_ssbond b where b.code = a.code and b.chain_id1 = a.chain_id1 and b.res_seq1 = a.res_seq1 and b.i_code1 = a.i_code1 and b.ser_num

これにより、非冗長なタンパク質のセットがnrにインポートされます。 psに結合されているテーブルおよびproteinsテーブルとセットにはマークが付けられます(set7、set40、およびset80)。最後に、タンパク質の量に応じて、1セットのみが分析されます。 PDBとNRの間の不一致のチェーンは、分析から削除されます。

ジスルフィド結合のないタンパク質は、どのセットにも属さないタンパク質とともに、研究から除外されます。データはDSSPで処理され、解像度に問題があるか、処理するには原子が多すぎるこれらのファイルも除外されます。 ssbondから簡単に計算できますが、チェーン間の接続が維持されなかったため、分析の結果として単鎖のタンパク質のみが使用されます。異なるチェーンを持つ接続の数を数えることによってテーブル。

残りのタンパク質については、結合の総数と重複する結合の数が更新され、これは各セットに対して行われます。

ソース生物はSOURCEから抽出されます記録。未知、合成、設計、人工、またはハイブリッドの場合、研究から除外されます。低解像度のタンパク質も、側鎖が見えない場合にのみ除外されます。

SOURCEレコードはsourcesに保存されます分類行を含むテーブル。場合によっては、分類法が欠落しているか、正しくありません。このような場合、専門家の手動修正が必要です。

NCBIからダウンロードしたソースと分類法から、クラスは各一次構造に割り当てられます。クラスを割り当てることができない場合、タンパク質は分析リストから削除されます。生物学データベースが使用されていることを知っているので、生物学者はすべてのソースレコードとNCBI分類クラスの追加チェックを実行することをお勧めします。そうしないと、異なるドメイン間の分類に問題が生じる可能性があります。ソースセルラーの場所を分類IDと照合するために、ソーステーブルのデータがテーブルに抽出されますsources_organelaここで、すべてのデータはコード、タグ、および値として書き込まれます。その形式を以下に示します。

select * from sources_organela where code = '1rav';
コード mol_id 鬼ごっこ 時間
1rav 0 MOL_ID 1
1rav 7 CELLULAR_LOCATION 細胞質(白)

使用する分類法アーカイブは、7つのダンプファイルを含むZIPファイルです。これらのファイルの中で、最も重要な2つはnames.dmpです。およびmerged.dmp。どちらのファイルもCSVタブパイプ区切りファイルです。 ドキュメントで詳しく説明されています :

  • ファイルmerged.dmp以前の分類IDのリストと、それぞれがマージされた現在の分類IDが含まれています。
  • names.dmp次の重要な列がこの順序で含まれています。
    • tax_id:分類ID
    • name_txt:種の名前、および該当する場合は一意の名前(種が複数の名前で見つかる場合、これは曖昧さを解消するのに役立ちます)
  • division.dmpクラスとして使用するトップレベルドメインの名前が含まれています。
  • nodes.dmp分類IDを使用した生物の階層構造を含むテーブルです。
    • これには、names.dmpにある外部キーである親分類IDが含まれています。
    • また、関連するトップドメインデータを正しく保存するために重要な部門IDも含まれています。

このすべてのデータと手動の修正(正しい生活領域の設定)により、taxonomy_pathの構造を作成することができました。テーブル。データのサンプリングは次のようになります。

select * from taxonomy_path order by length(path) limit 20 offset 2000;
納税者番号 道 is_viral is_eukaryote is_archaea is_other is_prokaryote
142182 細胞生物;細菌;ゲンマティモナス f f f f t
136087 細胞生物;真核生物; Malawimonadidae f t f f f
649454 ウイルス;未分類のファージ;シアノファージG1168 t f f f f
321302 ウイルス;未分類ウイルス;テリーナウイルス1 t f f f f
649453 ウイルス;未分類のファージ;シアノファージG1158 t f f f f
536461 ウイルス;未分類のファージ;シアノファージS-SM1 t f f f f
536462 ウイルス;未分類のファージ;シアノファージS-SM2 t f f f f
77041 ウイルス;未分類ウイルス;ステルスウイルス4 t f f f f
77042 ウイルス;未分類ウイルス;ステルスウイルス5 t f f f f
641835 ウイルス;未分類のファージ;ビブリオファージ512 t f f f f
1074427 ウイルス;未分類ウイルス;マウスロザウイルス t f f f f
1074428 ウイルス;未分類ウイルス;マウスモサウイルス t f f f f
480920 他の配列;プラスミド; IncP-1プラスミド6-S1 f f f t f
2441 他の配列;プラスミド;プラスミドColBM-Cl139 f f f t f
168317 他の配列;プラスミド; IncQプラスミドpIE723 f f f t f
536472 ウイルス;未分類のファージ; Cyanophage Syn10 t f f f f
536474 ウイルス;未分類のファージ; Cyanophage Syn30 t f f f f
2407 他の配列;トランスポゾン;トランスポゾンTn501 f f f t f
227307 ウイルス; ssDNAウイルス;サーコウイルス科;ジャイロウイルス t f f f f
687247 ウイルス;未分類のファージ;シアノファージZQS-7 t f f f f

分析の前に、バイアスを回避するために、シーケンスの同一性のレベルをチェックする必要があります。 NRセットには、すでに相互に比較されているシーケンスが含まれていますが、追加のチェックを常にお勧めします。

各ジスルフィド結合の以前の統計分析について、データが反応性または重複しているかどうかがマークされます。オーバーラップをマークした後、その情報は、各タンパク質内にある連続した非連続の結合の数を自動的に明らかにし、そのデータはproteinsに保存されます。最終結果ですべてのタンパク質複合体が除外された表。

各ジスルフィド結合は、両方の結合側をチェックして、それらが同じNRセットに属しているかどうかを確認することにより、セットへの関連付けについてもマークされます。そうでない場合、そのセット分析ではジスルフィド結合はスキップされます。

分散によって債券の量を分析するには、各長さを特定のクラスに分類する必要があります。この場合、以下の関数で記述されているように、5つのクラスのみが選択されます。

CREATE OR REPLACE FUNCTION len2class(len integer) RETURNS integer AS $BODY$ BEGIN return case when len 100 and len 200 and len 300 and len <= 400 then 4 else 5 end; END; $BODY$ LANGUAGE plpgsql VOLATILE COST 100;

ほとんどのタンパク質サイズは400アミノ酸未満であるため、長さの分類は、長さを5つの範囲に分割することによって行われます。各範囲は、残りを占める最後の1つを除いて、100アミノ酸を取ります。以下に、この関数を使用して分析用のデータを抽出する方法を示します。

SELECT p.code, p.title, p.ss_bonds, p.ssbonds_overlap, p.intra_count, p.sci_name_src, p.len, p.tax_path, p.pfam_families, p.src_class, ( SELECT s.id FROM src_classes s WHERE s.src_class::text = p.src_class::text) AS src_class_id, p.len_class7, ( SELECT s.val FROM sources_organela s WHERE s.code = p.code::bpchar AND s.tag::text = 'EXPRESSION_SYSTEM_CELLULAR_LOCATION'::text) AS expression_system_cellular_location, ( SELECT s.val FROM sources_organela s WHERE s.code = p.code::bpchar AND s.tag::text = 'CELLULAR_LOCATION'::text) AS cellular_location, ps.sequence, ps.uniprot_code, ps.accession_code, ps.cc, ps.seq_uniprot, ps.chain_id FROM proteins p JOIN nr n ON n.code::text = p.code::text AND n.rep7 = true JOIN ps ps ON ps.code::text = n.code::text AND ps.chain_id = n.chain_id AND ps.het = false WHERE p.is_excluded = false AND p.chain_cnt = 1 AND p.is_set7 = true AND p.reactive_cnt7 = 0 ORDER BY p.code;

タイトルを修正し、手動で列を追加した結果の例を以下に示します。

PDBコード SS結合の総数 非連続SS結合の数 PDBの長さ/アミノ酸 ドメイン TargetP 1.1 TatP 1.0 SignalP 4.1 ChloroP 1.1 TMHMM2.0膜貫通ドメインの数 ビッグパイ nucPred NetNES 1.1 PSORTb v3.0 SecretomeP 2.0 LocTree2 コンセンサスローカリゼーション予測
1akp 2 0 114 バクテリア ND Tat-signal シグナルペプチドなし ND 0 ND ND ND わからない ND 線毛 わからない
1bhu 2 0 102 バクテリア ND Tat-signal シグナルペプチド ND 1 ND ND ND わからない ND 分泌 わからない
1c75 0 0 71 バクテリア ND Tat-signal シグナルペプチドなし ND 0 ND ND ND 細胞膜 非古典的な分泌 ペリプラズム わからない
1c8x 0 0 265 バクテリア ND Tat-signal シグナルペプチド ND 1 ND ND ND わからない ND 分泌 わからない
1cx1 1 0 153 バクテリア ND Tat-signal シグナルペプチド ND 1 ND ND ND 細胞外 ND 分泌 わからない
1dab 0 0 539 バクテリア ND Tat-signal シグナルペプチド ND 0 ND ND ND 外膜 ND 外膜 わからない
1dfu 0 0 94 バクテリア ND Tat-signal シグナルペプチドなし ND 0 ND ND ND 細胞質 ND サイトゾル わからない
1e8r 2 2 50 バクテリア ND Tat-signal シグナルペプチド ND 0 ND ND ND わからない ND 分泌 分泌
1esc 3 0 302 バクテリア ND Tat-signal シグナルペプチド ND 1 ND ND ND 細胞外 ND ペリプラズム わからない
1g6e 1 0 87 バクテリア ND Tat-signal シグナルペプチド ND 1 ND ND ND わからない ND 分泌 わからない

処理仲介者としてのPostgreSQL

この作業では、フェッチから分析まで、データを処理する方法を示しました。科学データを扱う場合、正規化が必要な場合と不要な場合があります。別の分析に再利用されない少量のデータを処理する場合は、処理が十分に高速な場合は非正規化したままにしておくだけで十分です。

これがすべて1つのバイオインフォマティクスデータベースで行われた理由は、PostgreSQLが多くの言語を統合できるためです。これには、データベース内で直接統計分析を行うことができるRが含まれます。これは、バイオインフォマティクスツールに関する今後の記事の主題です。


ApeeScapeの同僚であるStefanFuchsとAldoZelenの貴重な相談に特に感謝します。

基本を理解する

データベースとは何ですか?

データベースは、電子的に整理されて保存され、簡単に取得できるデータです。

データベースの2つの主なタイプは何ですか?

バイオインフォマティクスに関しては、アミノ酸データベースと核酸データベースの2つの主要なタイプがありますが、ハイブリッドもあります。

生物学におけるジスルフィド結合とは何ですか?

ジスルフィド結合は、2つの硫黄原子間の結合(この場合はシステイン間の結合)です。さらに、異なるタンパク質鎖からの2つのシステイン間でジスルフィド結合を形成することができます。

ジスルフィド結合の役割は何ですか?

タンパク質の場合、ジスルフィド結合が構造を安定させます。

ジスルフィド結合は極性共有結合ですか?

ジスルフィド結合は共有結合です。結合の両側が対称である場合(両方の残基がシステインである場合)、それは非極性です。金属イオンが近くにあると、電子雲が変化し、非対称の場合と同じように極性になります。極性はそれが水を引き付けることを意味します。

どのタンパク質構造にジスルフィド結合がありますか?

ベータシート、ベータバレル、およびベータストランドにはジスルフィド結合があります。他の構造でも見つけることができます。

プログラミング言語の書き方

データベースの目的は何ですか?

簡単に取得できるようにデータを保存および整理するため。この記事では、データベースは、比較的大量のデータを使用してETL(抽出、変換、および読み込み)を実行するのに役立ちます。データはデータベースに保存され、データベース内で処理された後、抽出されてSPSSまたはRで分析されます。

バイオインフォマティクスはどのように使用できますか?

それは主に医学と生物学にありますが、物理学と化学にもあります。さまざまな医薬品、病気、異常の構造と特性をよりよく理解するのに役立ちます。これは、生物の機能を調査し、未知の種を認識し、特定の種に最も近い種を見つけるのに役立ちます。

データクリーニングとはどういう意味ですか?

生物学者のデータベースは常にキュレーションされていますが、人的および機械的なエラーが発生することがよくあります。たとえば、不可能なほど長いジスルフィド結合、誤って分類された生物、誤った分類番号などです。データベースが大きいほど、より多くのエラーを見つけることができます。開始点として使用される1つの手法は、外れ値の検索です。

シニアフルスタックエンジニア、スクリーニング運用チーム

その他

シニアフルスタックエンジニア、スクリーニング運用チーム
シニアフロントエンドエンジニア、クライアントポータルチーム

シニアフロントエンドエンジニア、クライアントポータルチーム

その他

人気の投稿
正しい方法でアプリビジネスを始める
正しい方法でアプリビジネスを始める
カードの並べ替え:ユーザーのメンタルモデルに合わせた情報アーキテクチャの改善
カードの並べ替え:ユーザーのメンタルモデルに合わせた情報アーキテクチャの改善
PeerJSでWebRTCを使いこなす:シンプルなP2PWebゲームの作成
PeerJSでWebRTCを使いこなす:シンプルなP2PWebゲームの作成
落ち着いて新しい開発チームに移行する
落ち着いて新しい開発チームに移行する
HorusLPを使用した最適化アルゴリズムの設計
HorusLPを使用した最適化アルゴリズムの設計
 
誰が、何を、そしてなぜ–ユーザーテスト方法のガイド
誰が、何を、そしてなぜ–ユーザーテスト方法のガイド
WebVRとブラウザエッジコンピューティング革命
WebVRとブラウザエッジコンピューティング革命
Laravelゼロダウンタイム展開
Laravelゼロダウンタイム展開
現代のCFOの役割と責任–移行期の機能
現代のCFOの役割と責任–移行期の機能
ApeeScapeでの製品管理:リモートで成功するための戦略
ApeeScapeでの製品管理:リモートで成功するための戦略
人気の投稿
  • 組織図またはプロセスを表すために使用する必要があるのは次のうちどれですか?
  • 次の設計原則のうち、ページを統一できるのはどれですか?
  • データマイニング用のTwitterデータセット
  • erc20トークンを作成する方法
  • クレジットカードのスパムを送信する方法pdf
カテゴリー
トレンド モバイル 人とチーム 仕事の未来 ブランドデザイン 設計プロセス 製品の担当者とチーム ヒントとツール プロジェクト管理 アジャイルタレント

© 2021 | 全著作権所有

apeescape2.com