ProtGPS :重塑生命科学基础设施,AI助力蛋白质一键预测定位与新序列设计
🧪 告别Western Blot!MIT ProtGPS蛋白质AI开创实验室新纪元:5分钟出亚细胞定位结果,还能自动设计“导航蛋白”
你是否曾在实验室经历过:
- 👉 花费数周做荧光标记,只为研究蛋白质的亚细胞定位
- 👉 深夜设计突变体,却被导师批评“定位预测不可信”
- 👉 渴望定制靶向蛋白,却被卡在序列设计的第一步…
如今,MIT推出的ProtGPS将彻底打破这些困境!这款登上《Nature Machine Intelligence》的AI模型,只需输入氨基酸序列:
- ✅ 5分钟预测蛋白质在12种亚细胞区域的定位概率
- ✅ 自动设计精准导航至核仁/核斑点的蛋白质
- ✅ 揭示导致定位异常的致病突变
现在,连诺贝尔奖得主实验室也在使用ProtGPS加速癌症靶点研究——你的移液枪准备好迎接AI革命了吗?
🚀 快速阅读
ProtGPS 是一个基于深度学习的蛋白质语言模型,致力于预测蛋白质在细胞内的亚细胞定位。
- 核心功能:预测蛋白质在12种亚细胞区域的分布概率,设计出能够特异性定位至特定区域的蛋白质序列。
- 技术原理:基于 ESM2 架构的 Transformer 模型,结合神经网络分类器,学习蛋白质序列中的复杂模式和相互关系。
ProtGPS 是什么

ProtGPS(Protein Localization Prediction Model)是麻省理工学院(MIT)与怀特黑德生物医学研究所联合开发的蛋白质语言模型。该模型通过分析蛋白质的氨基酸序列,能够精准预测蛋白质在细胞内的亚细胞定位。
ProtGPS基于进化尺度的Transformer架构,能够学习蛋白质序列中的复杂模式及相互关系,预测蛋白质在12种亚细胞区域(如核仁、核斑点等)中的分布概率。
其独特之处在于,ProtGPS不仅能预测蛋白质的定位,还能设计新型蛋白质序列,使其特异性地组装到特定的亚细胞区域。而且,ProtGPS还能够识别导致蛋白质定位异常的致病突变,为生物学研究和疾病机制的理解提供了强大工具。
ProtGPS 的核心功能
- 预测蛋白质定位:预测蛋白质在12种不同的亚细胞区域(如核仁、核斑点、应激颗粒等)的定位概率。
- 设计特异性蛋白质:自动生成能够特异性定位至目标亚细胞区域(如核仁或核斑点)的蛋白质序列。
- 识别致病突变:通过分析突变对蛋白质定位的影响,预测突变是否会导致蛋白质分布异常。
ProtGPS 的技术原理
- 基于 Transformer 的序列学习:ProtGPS使用ESM2(Evolutionary Scale Model 2)架构,这是一种基于Transformer的蛋白质语言模型。它能够同时学习输入序列中氨基酸间的相互关系,捕捉蛋白质序列中的复杂模式。
- 神经网络分类器联合训练:ProtGPS结合神经网络分类器,将ESM2提取的特征输入到分类器中,进行预测。分类器的任务是根据特征预测蛋白质在不同亚细胞区域的定位概率。该训练使用了5480个人类蛋白质序列,并标注了这些蛋白质的亚细胞定位。
- 生成蛋白质序列的算法:为了设计具有特定亚细胞定位的蛋白质,ProtGPS采用马尔可夫链蒙特卡洛(MCMC)算法,在生成蛋白质序列时考虑化学空间和蛋白质的内在无序性,确保生成的序列符合自然蛋白质的分布,并能精确定位到目标区域。
- 致病突变分析:ProtGPS通过比较野生型和突变型蛋白质的定位预测,识别哪些突变会导致蛋白质分布的异常。使用Shannon熵和Wasserstein距离来量化突变对蛋白质定位预测不确定性的影响。
如何运行 ProtGPS
1. 安装环境
首先,安装 mamba(推荐)或 conda:
bash Miniforge-pypy3-Linux-x86_64.sh
然后创建并激活环境:
mamba env create -f environment.yml
mamba activate protgps
2. 下载模型检查点
从zenodo
下载模型检查点并解压到 checkpoints/protgps
文件夹。
3. 加载预训练模型
加载 ESM2 和 DR-BERT 模型:
import torch
torch.hub.set_dir(\"checkpoints/esm2\")
model, alphabet = torch.hub.load(\"facebookresearch/esm:main\", \"esm2_t6_8M_UR50D\")
from transformers import AutoModel, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained(\"Dr-BERT/DrBERT-7GB\", cache_dir=\"checkpoints/drbert\")
model = AutoModel.from_pretrained(\"Dr-BERT/DrBERT-7GB\", cache_dir=\"checkpoints/drbert\")
4. 训练
运行以下命令进行训练:
python scripts/dispatcher.py --config configs/protein_localization/full_prot_comp_pred.json --log_dir /path/to/logdir
5. 推理
编辑并运行 notebook/Predict.ipynb
笔记本来进行预测。
6. 生成蛋白质
生成具有特定亚细胞定位的蛋白质:
cd esm/examples/lm-design
./generate_nucleolus.sh
./generate_nuclear_speckle.sh
7. 分析
分析脚本位于 notebook/Analysis.ipynb
,使用的数据可以从zenodo repository
获取。
- zenodo repository:https://zenodo.org/records/14795445
资源
- GitHub 仓库:https://github.com/pgmikhael/protgps
通过ProtGPS,蛋白质的定位与设计变得更加精准高效,开启了生物学研究的新篇章。