ProtGPS:颠覆生命科学的AI创新,蛋白质预测定位与设计登上《Nature》子刊

Written by 30115776@qq.com

ProtGPS :重塑生命科学基础设施,AI助力蛋白质一键预测定位与新序列设计

🧪 告别Western Blot!MIT ProtGPS蛋白质AI开创实验室新纪元:5分钟出亚细胞定位结果,还能自动设计“导航蛋白”

你是否曾在实验室经历过:

  • 👉 花费数周做荧光标记,只为研究蛋白质的亚细胞定位
  • 👉 深夜设计突变体,却被导师批评“定位预测不可信”
  • 👉 渴望定制靶向蛋白,却被卡在序列设计的第一步…

如今,MIT推出的ProtGPS将彻底打破这些困境!这款登上《Nature Machine Intelligence》的AI模型,只需输入氨基酸序列:

  • ✅ 5分钟预测蛋白质在12种亚细胞区域的定位概率
  • ✅ 自动设计精准导航至核仁/核斑点的蛋白质
  • ✅ 揭示导致定位异常的致病突变

现在,连诺贝尔奖得主实验室也在使用ProtGPS加速癌症靶点研究——你的移液枪准备好迎接AI革命了吗?

🚀 快速阅读

ProtGPS 是一个基于深度学习的蛋白质语言模型,致力于预测蛋白质在细胞内的亚细胞定位。

  1. 核心功能:预测蛋白质在12种亚细胞区域的分布概率,设计出能够特异性定位至特定区域的蛋白质序列。
  2. 技术原理:基于 ESM2 架构的 Transformer 模型,结合神经网络分类器,学习蛋白质序列中的复杂模式和相互关系。

ProtGPS 是什么

ProtGPS(Protein Localization Prediction Model)是麻省理工学院(MIT)与怀特黑德生物医学研究所联合开发的蛋白质语言模型。该模型通过分析蛋白质的氨基酸序列,能够精准预测蛋白质在细胞内的亚细胞定位。

ProtGPS基于进化尺度的Transformer架构,能够学习蛋白质序列中的复杂模式及相互关系,预测蛋白质在12种亚细胞区域(如核仁、核斑点等)中的分布概率。

其独特之处在于,ProtGPS不仅能预测蛋白质的定位,还能设计新型蛋白质序列,使其特异性地组装到特定的亚细胞区域。而且,ProtGPS还能够识别导致蛋白质定位异常的致病突变,为生物学研究和疾病机制的理解提供了强大工具。

ProtGPS 的核心功能

  • 预测蛋白质定位:预测蛋白质在12种不同的亚细胞区域(如核仁、核斑点、应激颗粒等)的定位概率。
  • 设计特异性蛋白质:自动生成能够特异性定位至目标亚细胞区域(如核仁或核斑点)的蛋白质序列。
  • 识别致病突变:通过分析突变对蛋白质定位的影响,预测突变是否会导致蛋白质分布异常。

ProtGPS 的技术原理

  • 基于 Transformer 的序列学习:ProtGPS使用ESM2(Evolutionary Scale Model 2)架构,这是一种基于Transformer的蛋白质语言模型。它能够同时学习输入序列中氨基酸间的相互关系,捕捉蛋白质序列中的复杂模式。
  • 神经网络分类器联合训练:ProtGPS结合神经网络分类器,将ESM2提取的特征输入到分类器中,进行预测。分类器的任务是根据特征预测蛋白质在不同亚细胞区域的定位概率。该训练使用了5480个人类蛋白质序列,并标注了这些蛋白质的亚细胞定位。
  • 生成蛋白质序列的算法:为了设计具有特定亚细胞定位的蛋白质,ProtGPS采用马尔可夫链蒙特卡洛(MCMC)算法,在生成蛋白质序列时考虑化学空间和蛋白质的内在无序性,确保生成的序列符合自然蛋白质的分布,并能精确定位到目标区域。
  • 致病突变分析:ProtGPS通过比较野生型和突变型蛋白质的定位预测,识别哪些突变会导致蛋白质分布的异常。使用Shannon熵和Wasserstein距离来量化突变对蛋白质定位预测不确定性的影响。

如何运行 ProtGPS

1. 安装环境

首先,安装 mamba(推荐)或 conda:

bash Miniforge-pypy3-Linux-x86_64.sh

然后创建并激活环境:

mamba env create -f environment.yml
mamba activate protgps

2. 下载模型检查点

zenodo下载模型检查点并解压到 checkpoints/protgps 文件夹。

3. 加载预训练模型

加载 ESM2 和 DR-BERT 模型:

import torch
torch.hub.set_dir(\"checkpoints/esm2\")
model, alphabet = torch.hub.load(\"facebookresearch/esm:main\", \"esm2_t6_8M_UR50D\")

from transformers import AutoModel, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained(\"Dr-BERT/DrBERT-7GB\", cache_dir=\"checkpoints/drbert\")
model = AutoModel.from_pretrained(\"Dr-BERT/DrBERT-7GB\", cache_dir=\"checkpoints/drbert\")

4. 训练

运行以下命令进行训练:

python scripts/dispatcher.py --config configs/protein_localization/full_prot_comp_pred.json --log_dir /path/to/logdir

5. 推理

编辑并运行 notebook/Predict.ipynb 笔记本来进行预测。

6. 生成蛋白质

生成具有特定亚细胞定位的蛋白质:

cd esm/examples/lm-design
./generate_nucleolus.sh
./generate_nuclear_speckle.sh

7. 分析

分析脚本位于 notebook/Analysis.ipynb,使用的数据可以从zenodo repository获取。

资源

通过ProtGPS,蛋白质的定位与设计变得更加精准高效,开启了生物学研究的新篇章。

30115776@qq.com

Pretium lorem primis lectus donec tortor fusce morbi risus curae. Dignissim lacus massa mauris enim mattis magnis senectus montes mollis taciti accumsan semper nullam dapibus netus blandit nibh aliquam metus morbi cras magna vivamus per risus.

PippoMeta单张照片秒转3D人像多视角视频,AI自动补全身体细节

告别文案焦虑!Social Media Agent助力AI自动生成高转化社交媒体帖子

发表评论