UniProt数据库使用技巧：蛋白质信息查询与挖掘

发表时间：2024-11-05 访问次数：17274

UniProt数据库全称Universal Protein，是由欧洲生物信息研究所（EMBL-EBI）、瑞士苏黎世大学的Swiss Institute of Bioinformatics（SIB）和美国国家生物技术信息中心（NCBI）三家机构合作维护的知识库，旨在整合、注释和提供全面的蛋白质序列及相关功能信息。

该数据库由三个主要部分组成：

UniProtKB：是UniProt的核心组成部分，分为Reviewed（Swiss-Prot）和Unreviewed（TrEMBL）。Reviewed包含专家手动注释的高质量蛋白质数据，包括蛋白质的功能描述、域结构、变异信息、文献引用等详细资料；TrEMBL则收集自国际核酸序列数据库（GenBank/DDBJ/EMBL），包含了自动注释的蛋白质序列数据，主要用于那些未经过人工审核的序列信息。

Proteomes：用于集中展示特定物种的完整蛋白质组信息。聚焦于那些已经完成了全基因组测序的物种，通过将基因组预测出的所有蛋白质编码基因的产物进行编目和注解，形成了全面的物种蛋白组图谱。

UniRef：是一个聚类数据库，通过算法将相似的蛋白质序列归类在一起，生成代表性的序列集合，提高数据检索效率。细分为UniRef100、UniRef90和UniRef50三种不同层次的聚类标准，分别对应于97%、90%和50%的序列一致性阈值。

UniParc：这个数据库汇集了来自多个来源的全部蛋白质序列，包括但不限于UniProtKB、PIR、PRF、NCBI RefSeq等，它作为一个综合存储库，确保每个序列只被收录一次，即便同一序列出现在多个来源中，也只保留一份，有效防止重复。

我们今天以一个具体的基因为例子，来演示这个数据库的使用方法，以人源的IL-6为例。

关键词搜索：直接在首页搜索框中输入蛋白质名称、ID、物种名、功能描述等关键词进行快速检索。

高级搜索：点击“Advanced”链接进入高级搜索页面，这里可以通过构建复杂的逻辑语句（AND、OR、NOT）和使用特定字段（如gene、protein name、organism等）进行精准查询。

1. 首先打开官网主页：www.uniprot.org/，搜索栏输入IL-6，点击Search或键盘回车，然后左侧栏选择Human

Entry：Uniprot给每个蛋白质赋予的独一无二的ID（由此进入查看具体信息）

Entry name：蛋白ID的简要名字

Protein names：蛋白质的名字

Gene names：编码这个蛋白的Gene名字

Organism：蛋白质的种属来源

Length：氨基酸长度

2. 找到你想要的蛋白，点击进入，到达详情页面，左侧栏为目录，点击即可查看，包含丰富的信息板块，如蛋白功能、亚细胞定位、序列特征、蛋白表达与互作、文献引用、相似性蛋白、结构域预测等。

Function：有关蛋白质的功能信息

Names & Taxonomy：有关蛋白质和基因名称和同义词以及源生物的信息

Subcellular location：有关成熟蛋白质在细胞中位置的信息

Disease & variants/ Phenotypes & Variants：在人类条目中，有关与蛋白质相关的疾病的信息。在非人类条目中，有关与蛋白质相关的表型的信息。在所有情况下，都描述了变异氨基酸的作用。

Expression：关于基因在多细胞生物的细胞或组织中mRNA或蛋白质水平的表达的信息

PTM/Processing：描述翻译后修饰（post-translational modifications，PTM）和/或蛋白加工等信息

Interaction：关于蛋白质的四级结构以及与其他蛋白质或蛋白质复合物相互作用的信息

Structure：关于蛋白质的三级结构的信息。如果没有完整的实验确定的结构，在许多情况下，将显示 AlphaFold 预测

Family & Domains：关于与其他蛋白质的序列相似性以及蛋白质中存在的结构域的信息

Sequence：默认情况下显示规范蛋白质序列，并根据要求显示条目中描述的所有亚型。还包括与序列相关的信息，包括长度和分子量

Similar proteins：提供指向 UniProt 引用集群（UniRef）的链接

Uniprot常用功能：

BLAST，全称Basic Local Alignment Search Tool，是一种用于比较核酸或蛋白质序列与大型数据库中存储的所有序列的软件工具包。UniProt提供的Blast工具专门针对其收录的蛋白质序列进行优化，使用户能够搜索相似序列、蛋白功能预测、物种进化分析、结构建模。

具体步骤：

1. 以人类的IL-6为例，复制粘贴或输入刚刚选择的IL-6的Entry标识符，会自动跳出相应的序列信息，或直接粘贴已有的序列。

2. 选择目标数据库。默认情况下，搜索所有参考蛋白质组 + UniProtKB/Swiss-Prot，但您可以选择仅针对 UniProtKB/Swiss-Prot 中已审阅的序列运行。

3. 限制物种选项让你精准定位搜索范围，只需输入特定代码，例如，输入“9606”，搜索便只针对人类蛋白质；若想涵盖整个哺乳动物界，则使用“哺乳动物 [40674]”。也可以选择自动完成功能，轻松完成，确保你的查询更贴合研究需求。

4. 点击RUN blast，等待结果。

Align，用于两个或多个序列的信息比对，以识别相似区域，这些区域可能是序列之间功能、结构或进化关系的结果。

具体步骤：

1. 将准备好的两段（或两段以上）序列输入进去，或输入Uniprot的Entry标识符，会自动识别序列。

2. 点击RUN Align，等待结果

“Tree”部分通过系统发育树来表示序列之间的进化关系。

Search with list map IDs：“检索/ID 映射”工具，您可以在其中提交标识符列表以检索相应的 UniProt 条目，或将 UniProt 标识符映射到外部数据库，UniProt条目中包含指向GenBank、PubMed、KEGG、GO等外部资源的链接，方便获取更多相关信息。

Search peptides：多肽搜索”工具，允许您提交至少 3 个残基的短肽序列，并找到与查询序列完全匹配的所有 UniProtKB 序列