V
主页
蛋白质交流的艺术:ProLLM用'思维链'重新定义蛋白质相互作用预测!
发布人
主题 蛋白质交流的艺术:ProLLM用'思维链'重新定义蛋白质相互作用预测! ProLLM: Protein Chain-of-Thoughts Enhanced LLM for Protein-Protein Interaction Prediction 嘉宾 金明宇 英国利物浦大学本科, 现罗格斯大学博0在读。 研究方向: AI for Science, 大模型可解释性, 大模型安全问题, AI Agent, 图神经网络。 发表成果: ACL, AAAI. 薛皓辰 英国利物浦大学本科大四。 研究方向: AI for Science, 图神经网络。 发表成果: IJCNN。 主持人 华文越 罗格斯大学博士生 内容 PPI (protein-protein interaction) 任务的背景介绍 以前PPI任务的模型的简要介绍 ProLLM的详细内容 总结与展望 Q&A 研究背景 蛋白质-蛋白质相互作用(PPI)在所有生物体的各种生物过程中扮演着关键角色,对生物医学、遗传学和制药研究尤为重要。为了研究PPI,生物领域已经提出了许多实验方法,例如酵母双杂交技术和定量蛋白质组学方法。然而,这些实验方法通常耗时且费力,凸显了对更精确和高效的计算工具的需求。 近年来,计算生物学发展迅速。卷积神经网络(CNN)和图神经网络(GNN)等方法已经成为研究蛋白质相互作用的强大工具。基于CNN的方法如TAG-PPI,通常使用预训练的嵌入模型将蛋白质序列转换为数值向量表示,然后采用一维卷积神经网络从向量中提取特征,以进行后续的PPI任务。 尽管CNN方法在PPI预测中表现出了一定的效果,但由于其特征提取范围固定,且蛋白质序列中缺乏明确的空间关系,限制了预测的准确性和解释性。基于GNN的方法如GNN-PPI,将蛋白质视为节点,将它们的关系视为边,构建由蛋白质组成的网络,更好地捕捉了蛋白质之间的关系和相互作用,并在蛋白质相互作用预测中优于CNN。然而,尽管GNN能够有效提取网络结构信息,但它们忽略了没有直接物理相互作用的蛋白质之间的非物理连接,导致在学习蛋白质链方面不如基于Transformer的模型表现好。此外,GNN不能完全捕捉生物体中信号传递过程中的关系和动态变化,限制了其在PPI预测中的表现。 继GNN和CNN方法之后,大语言模型(LLM)也被应用于PPI领域,如ProBert和ProteinLM。只要这些模型能够获得蛋白质表示,我们就可以使用表示的直接余弦相似度或训练一个MLP进行PPI预测。然而,这些方法仍然无法捕捉蛋白质之间的链关系,例如信号传导途径。此外,以往文献仅使用LLM作为特征提取器。最近,使用LLM作为链路预测器显示它可以更好地捕捉知识图谱任务中节点之间的关系信息,其性能超过了传统的GNN基线。因此,引入LLM进行蛋白质-蛋白质相互作用(PPI)任务是很有前景的,因为PPI任务中最重要的生物信号是蛋白质的链关系,即信号传导途径。 为了解决这一问题,我们提出了ProLLM,其关键思想如图1所示,现有方法与ProLLM之间的区别如图2所示。现有方法只关注单一的蛋白质-蛋白质相互作用,忽略了应用蛋白质链来预测信号传导途径中的PPI。而我们使用大型语言模型来学习信号传导途径的规律,并使LLM能够直接预测蛋白质之间的相互作用类型。 信号传导途径解决了传统方法忽略蛋白质之间全局非物理连接的问题。信号传导途径通常从一个上游蛋白质开始,通过几个中间体向下游蛋白质传递生物信号,因此需要考虑多个蛋白质相互作用的累积效应。这一系列的相互作用形成了顺序链。因此,我们提出了Protein Chain of Thought (ProCoT)来克服在理解信号传导途径和蛋白质功能方面的限制。ProCoT是一种模拟信号传导过程的数据格式,使用思维链方法,从而能够在信号传导途径问题中预测蛋白质相互作用。CoT可以逐步表达思维过程,形成推理链,而ProCoT进一步将这一原则扩展到蛋白质相关领域,以模拟蛋白质信号传导途径,使LLM对蛋白质有更深入的理解。 此外,我们的方法通过用蛋白质信息嵌入替换标准语言模型嵌入,解决了LLM对蛋白质理解不佳的问题。当我们在提示中处理蛋白质名称时,我们用ProtTrans的嵌入替换其原始嵌入,因为其嵌入包含蛋白质的结构信息。我们还在蛋白质知识数据集上进行指令微调,以将蛋白质领域知识注入LLM。通过这些步骤,LLM获得了推理蛋白质直接关系的强大能力,如图1所示。它可以回答有关蛋白质关系的问题,这在生物学研究中发挥了重要作用。
打开封面
下载高清视频
观看高清视频
视频下载器
思维链CoT(Chain of Thought)-O1底层算法优化思路
从0开始训练1.4b中文大模型的经验分享
李开复透露「GPT5训练遇到困难,O1模型被迫放出来」OpenAI还有很多私货没有发布
B站讲的最好的AI大模型实战(2024最新版)LLM+RAG系统+GPT-4o+OpenAI,全部都讲明白了!!
【李宏毅】2024秋《生成式人工智能导论》教程!LLM大模型入门到进阶,比刷剧爽多了!--附带课件代码
让我们一起构建ChatGPT,用代码,拼出来
LLMLingua: 压缩prompt构造LLMs的语言
从零开始训练大模型
【全网最细】逼自己一周吃透AI大模型(LLM+RAG系统+GPT-4o+OpenAI)通俗易懂,2024最新版,学完即就业!!
EMNLP2024分享会之Agent主题
EMNLP2024分享会之多模态主题
官方正版ChatGPT4.0,公益项目,免费免魔法
(超爽中英!) 2024公认最全的【吴恩达大模型LLM】系列教程!附代码_LangChain_微调ChatGPT提示词_RAG模型应用_agent_生成式AI
大模型事实性综述
全栈大模型微调框架LLaMA Factory:从预训练到RLHF的高效实现
【大模型面试】Flash Attention面试连环炮,淘汰80%面试竞争者
2024最新版AI大模型短期训练教程,逼自己一周学完(LLM+RAG系统+GPT-4o+OpenAI)光刷完就赢麻了,通俗易懂|学完即就业!
被 Cursor 逼急了?GitHub 又发布了一款自然语言编程工具 - GitHub Spark
更适合GalGame的ai桌宠,拥有长期记忆和表情动作显示,支持纯本地运行
你的模型真的擅长数学吗?MathCheck:大模型数学推理能力的新评估范式
2024年吃透AI大模型(LLM+RAG系统+GPT-4o+OpenAI) 全程通俗易懂,别再走弯路了,逼自己一周学完,少走99%弯路,学不会我退出IT界!
EMNLP2024分享会之NER、模型微调
黑丝小南娘吮吸大○○里面的白浊蛋白质
LLM推理加速新范式!推测解码(Speculative Decoding)最新综述
评估中文大模型中的幻觉
这可能是B站讲的最好的AI大模型教程,一周吃透AI大模型(LLM+RAG系统+GPT-4o+OpenAI) 让你少走99%弯路!(2024最新版)
CMU本科生带你搞抽象顶会 看到最后送顶会Idea
ChatGPT4.0国内如何免费使用!免翻,无任何限制,官方版GPT4o体验分享,教程来了 !
无矩阵乘法LLM - 一个来自线性Transformer的视角
生成式搜索引擎能否取代检索技术?
【11月10日最新版国内直连ChatGPT4.0】免费使用教程,免翻,无任何限制!
孙正义:比人类聪明一万倍的,超级智能AGI将在2035年到来!人工智能技术
关于LLaMA & Alpaca 微调、代码生成、RAM配置等,更多你的疑问都在这里
EMNLP2024分享会之模型编辑主题
2024吃透AI大模型(LLM+RAG系统+GPT-4o+OpenAI)全程干货,拿走不谢,允许白嫖!!
Deita: 用高质量数据在微调中“四两拨千斤”
冷暖LLM知?大语言模型对物理概念的理解能力探究
“显微镜”下的RAG:通过 RAGChecker 进行细粒度诊断评估
【2024年11月最新chatgpt】GPT4.0免费使用教程来了,无限次数使用,随便用!
在上下文学习中,语言模型究竟学到了什么? 探索结构化任务假说