Skip to main content
QUICK REVIEW

[論文レビュー] MAP Format for Representing Chemical Modifications, Annotations, and Mutations in Protein Sequences: An Extension of the FASTA Format

Aditi Shendre, Naman Kumar Mehta|ArXiv.org|May 6, 2025
Genetics, Bioinformatics, and Biomedical Research被引用数 5
ひとこと要約

MAPは、ヘッダーメタタグとインライン残基タグを介して化学修飾、注釈、変異をエンコードする FASTA を拡張した新しいタンパク質配列形式です。

ABSTRACT

Several formats, including FASTA, PIR, GenBank, EMBL, and GCG, have been developed for representing protein sequences composed of natural amino acids. Among these, FASTA remains the most widely used due to its simplicity and human readability. However, FASTA lacks the capability to represent chemically modified or non-natural residues, as well as structural annotations and mutations in protein variants. To address some of these limitations, the PEFF format was recently introduced as an extension of FASTA. Additionally, formats such as HELM and BILN have been proposed to represent amino acids and their modifications at the atomic level. Despite their advancements, these formats have not achieved widespread adoption within the bioinformatics community due to their complexity. To complement existing formats and overcome current challenges, we propose a new format called MAP (Modification and Annotation in Proteins), which enables comprehensive annotation of protein sequences. MAP introduces meta tags in the header for protein-level annotations and inline tags within the sequence for residue-level modifications. In this format, standard one-letter amino acid codes are augmented with curly-brace tags to denote various modifications, including phosphorylation, acetylation, non-natural residues, cyclization, and other residue-specific features. The header metadata also captures information such as organism, function, and sequence variants. We describe the structure, objectives, and capabilities of the MAP format and demonstrate its application in bioinformatics, particularly in the domain of protein therapeutics. To facilitate community adoption, we are developing a comprehensive suite of MAP-format resources, including a detailed manual, annotated datasets, and conversion tools, available at http://webs.iiitd.edu.in/raghava/maprepo/.

研究の動機と目的

  • 天然アミノ酸を超えるタンパク質配列の総合的な注釈を可能にする。
  • 修飾、非天然残基、そして変異をサポートする現実的で読みやすい形式を提供する。
  • 既存の形式(例:PEFF)を、よりシンプルで導入しやすいアプローチで補完する。

提案手法

  • 生物種、機能、バリアントなど、タンパク質注釈のためのヘッダーレベルのメタタグを導入する。
  • 標準の1文字アミノ酸コードに付随する中括弧タグをインラインで導入し、残基レベルの修飾を示す。
  • サポートされる修飾タイプを説明する(例:リン酸化、アセチル化、非天然残基、環化)。
  • MAP の構造と機能、および意図されたバイオインフォマティクス用途を説明する。
  • マニュアル、注釈付きデータセット、変換ツールなど、コミュニティリソースの計画を概説する。

実験結果

リサーチクエスチョン

  • RQ1MAP はタンパク質配列内の残基レベルの修飾をどのようにエンコードしますか?
  • RQ2タンパク質注釈とバリアントに必要またはサポートされるヘッダーメタデータは何ですか?
  • RQ3使いやすさと普及の可能性の面で、MAP は PEFF、HELM、BILN のような既存形式とどのように比較されますか?
  • RQ4MAP はタンパク質治療薬やバリアント注釈などの分野に効果的に適用できますか?

主な発見

  • MAP はタンパク質配列における修飾と注釈を表すために、ヘッダーメタタグとインラインの残基レベル中括弧タグを導入します。
  • MAP はリン酸化、アセチル化、非天然残基、環化など、残基特有の機能の範囲をサポートします。
  • この形式は構造、目的、能力の観点から説明され、タンパク質治療薬への関連性が示されています。
  • 著者らは詳細なマニュアル、注釈付きデータセット、変換ツールを含む、より広範な MAP エコシステムを開発しています。
  • MAP は既存の形式の制限を解決するための FASTA の補完的な拡張として位置づけられています。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。