KEGG

23小时前更新 115 00

KEGG是一个整合了基因组、化学和系统功能信息的综合数据库,广泛应用于生物通路分析、疾病机制研究和药物开发等领域。

收录时间:
2026-05-17

KEGG应用深度解析:从基因组到系统的生物信息学桥梁

KEGG(Kyoto Encyclopedia of Genes and Genomes,京都基因与基因组百科全书)是国际最权威的生物信息学数据库之一。它由日本京都大学化学研究所的Kanehisa实验室于1995年启动开发,旨在从分子层面系统性地理解生物体功能。KEGG的核心价值在于它不仅仅是一个基因序列的仓库,更是一个将基因组信息与更高层次的功能联系起来的“知识图谱”。

一、KEGG的核心数据库体系

KEGG由多个相互关联的子数据库构成,形成一个完整的信息系统。其中最核心的包括:

1. GENES数据库

GENES数据库收录了所有已完全测序的基因组序列信息,包括基因的核苷酸序列、氨基酸序列以及基因在染色体上的位置信息。这些数据来源自GenBank、RefSeq等公共数据库,但经过KEGG的整合与标准化处理,确保了一致性和可比较性。截至目前,KEGG GENES收录了超过8000个物种的基因组数据。

2. KO(KEGG Orthology)数据库

KO是KEGG最具有特色的核心概念。它是一个基于序列相似性进行功能同源分类的系统。每个KO编号代表一个在进化上保守的、具有特定功能的蛋白质功能单元。通过KO系统,研究人员可以将不同物种中功能相同的基因进行统一标注和比较,这是跨物种功能研究的基础。

3. PATHWAY数据库

PATHWAY是KEGG最广为人知的部分。它收录了手工绘制的代谢通路、信号转导通路、遗传信息处理通路等分子相互作用网络图。每个通路图都使用统一的图形语言,包含酶、受体、转录因子等分子节点以及它们之间的相互作用关系。PATHWAY数据库目前包含超过500条参考通路,覆盖了人类、小鼠、果蝇、大肠杆菌等模式生物。

4. BRITE数据库

BRITE是一个功能层级分类系统,它将基因、化合物、疾病、药物等生物实体按功能类别进行层次化组织。BRITE提供了比传统基因本体(GO)更丰富的功能注释维度,特别是在代谢和信号转导领域。

5. REACTION数据库

REACTION收录了化学反应方程式的详细信息,包括底物、产物、酶、反应条件等。它是PATHWAY数据库中代谢反应的基础数据单元。

二、KEGG的核心应用场景

1. 代谢通路分析

这是KEGG最经典的应用。研究人员可以通过KEGG Mapper工具,将自己的基因列表(通常是差异表达基因或蛋白质组数据)映射到KEGG通路上,从而识别出被显著富集的代谢通路。例如,在癌症研究中,通过KEGG通路富集分析可以发现p53信号通路Wnt信号通路糖酵解/糖异生通路是否在肿瘤组织中发生了异常激活或抑制。这种分析通常借助DAVID、KOBAS、ClusterProfiler等工具完成,这些工具的后端数据源正是KEGG。

2. 功能注释与基因功能预测

对于新测序的基因组,KEGG的KO注释系统是最常用的功能预测工具。通过将新基因的序列与KEGG GENES数据库进行BLAST比对,并利用KEGG的KO分配算法(如KEGG BlastKOALA、GhostKOALA),可以自动为每个基因分配KO编号,进而推断其参与的生物学过程。例如,在宏基因组研究中,研究人员通过KEGG注释可以了解微生物群落的整体代谢潜力,包括碳水化合物活性酶(CAZymes)的丰度、抗生素抗性基因的分布等。

3. 疾病机制研究

KEGG DISEASE数据库提供了疾病相关的基因、药物和通路信息。研究人员可以利用KEGG PATHWAY中的疾病通路(如糖尿病通路、阿尔茨海默病通路、非小细胞肺癌通路)来理解疾病发生的分子机制。例如,在新冠研究中,KEGG的SARS-CoV-2感染通路被广泛用于解析病毒如何劫持宿主细胞机制。结合KEGG的药物数据库(DRUG),还可以进行药物靶点预测和药物重定位研究。

4. 比较基因组学

KEGG的KO系统为跨物种比较提供了统一的语言。通过比较不同物种中KO的分布情况,可以揭示物种间代谢和信号通路的进化差异。例如,比较人类与小鼠的KEGG通路可以发现,虽然大部分核心代谢通路高度保守,但在免疫相关通路和神经递质受体方面存在显著差异,这对动物模型的选择至关重要。KEGG的SSDB(Sequence Similarity Database)提供了直接的同源基因比对功能。

5. 代谢工程与合成生物学

在工业微生物改造中,KEGG是代谢网络重建和代谢工程设计的核心工具。研究人员利用KEGG PATHWAY绘制目标菌株的代谢网络,识别关键代谢节点,设计基因敲除或过表达策略。例如,在大肠杆菌生产生物燃料或药物中间体的研究中,KEGG帮助研究人员找到碳代谢流中的限速步骤,并设计CRISPR干扰蛋白质工程方案来优化代谢流。KEGG的ATLAS工具可以自动生成物种特异性代谢网络模型。

三、KEGG的常用分析工具

1. KEGG Mapper

这是最直接的在线可视化工具。用户只需输入基因ID列表,KEGG Mapper会自动将这些基因标记到相应的通路图上,以不同颜色高亮显示。支持多个物种的并行映射。

2. BlastKOALA 和 GhostKOALA

这两个工具用于KO注释。BlastKOALA基于BLAST进行序列比对,准确度较高但速度较慢;GhostKOALA基于隐马尔可夫模型(HMM),速度更快,适合大规模宏基因组数据。用户只需上传蛋白质序列文件,即可获得KO注释结果。

3. KEGG API

对于需要批量处理数据的高级用户,KEGG提供了REST风格的API接口。通过编程方式(如Python、R语言),可以自动下载KEGG通路数据、基因列表、化合物信息等。例如,使用R语言的KEGGREST包可以轻松实现通路富集分析。

4. KEGG PATHWAY的R/Bioconductor接口

在生物信息学分析流程中,clusterProfilerGSEApathview等R包都深度集成了KEGG数据。特别是pathview包,可以将基因表达数据直接可视化到KEGG通路图上,用颜色梯度表示基因的上调或下调,极大提升了数据解读的直观性。

四、KEGG的局限性与发展趋势

尽管KEGG功能强大,但也存在一些局限性。首先,KEGG通路的手工绘制需要大量专家投入,更新速度相对较慢,部分新兴通路(如长链非编码RNA调控通路)可能尚未收录。其次,KEGG的KO系统主要针对蛋白质编码基因,对非编码RNA的覆盖不足。此外,KEGG的数据库访问需要商业许可,对于大规模商业应用存在成本问题。

为了应对这些挑战,KEGG团队近年来推出了KEGG 2.0计划,重点增加了对细胞类型特异性通路、疾病亚型特异性通路的支持。同时,KEGG加强了与ReactomeWikiPathways等其他通路数据库的互操作,通过BioPAXSBML标准格式实现数据交换。此外,KEGG正在开发基于机器学习的通路预测工具,利用已知的基因相互作用数据自动生成候选通路,减少对人工绘制的依赖。

五、总结

KEGG作为生物信息学领域最成熟、应用最广泛的知识库之一,其价值在于它成功地将基因序列数据转化为可解释的生物学功能。无论是基础研究中的通路富集分析,还是应用领域的代谢工程,KEGG都提供了不可替代的底层支持。对于生物信息学初学者,掌握KEGG数据库的结构和使用方法是进入系统生物学研究的必修课;对于资深研究者,KEGG的KO系统和通路图仍然是解析复杂生物数据的核心参考框架。随着多组学数据的积累和人工智能技术的融合,KEGG将继续在精准医学、合成生物学和微生物组学等领域发挥关键作用。

PMKG知识社交

相关导航

暂无笔记

您必须登录才能记录笔记!
立即登录
none
暂无笔记...