药物表示学习研究进展
陈鑫, 刘喜恩, 吴及    
清华大学 电子工程系, 北京 10084
摘要:药物开发过程存在资本密度高、风险大、周期长的特点,需要投入大量的资金、人力与物力。传统的机器学习方法虽然可以在一定程度上辅助药物开发,但需要分子描述符作为特征输入,而不同的分子描述符的选择对机器学习模型的性能影响较大,因此传统的机器学习方法大多需要进行繁复、耗时的特征工程。近年新兴的深度学习方法,能够从药物的"原始"结构中直接提取特征,从而绕开特征工程,缩短开发周期。该文将现有的药物表示学习方法划分为2类:基于简化分子线性输入规范(SMILES)表达式的药物表示学习和基于分子图的药物表示学习,报告了这两类药物表示学习方法的最新研究进展,阐述了各种方法的创新点与局限性。最后,指出了当前药物表示学习研究中存在的重大挑战,并讨论了可能的解决方案。
关键词药物    表示学习    简化分子线性输入规范(SMILES)    分子图    
Research progress on drug representation learning
CHEN Xin, LIU Xien, WU Ji    
Department of Electronic Engineering, Tsinghua University, Beijing 100084, China
Abstract: The drug development process is characterized by large capital density, high risk and long cycles; thus, drug development requires much capital, manpower and resources. While traditional machine learning methods can aid drug development some, they require molecular descriptors as inputs. The selection of the molecular descriptors then greatly impacts the performance of the machine learning models. Therefore, most traditional machine learning methods require complex and time-consuming feature engineering. The emerging deep learning methods can directly learn the features from raw representations of the drugs which bypasses the feature engineering and shortens the drug development cycle. In this paper, the drug representation learning methods are divided into simplified molecular input line entry specification (SMILES) expression based drug representation learning methods and molecular graph based representation learning methods. This paper then surveys the innovations and limitations of various drug representation learning methods. This paper then identifies major challenges in current drug representation learning methods and presents possible solutions.
Key words: drug    representation learning    simplified molecular input line entry specification (SMILES)    molecular graph    

在过去的30年中,药物开发领域的研究人员尝试将机器学习方法引入到药物化学研究中,以期解决药物开发过程中面临的问题。但是,传统的机器学习方法要求研究人员进行特征工程以合理选择药物的分子描述符作为模型的特征输入。分子描述符的选取是一个繁琐、耗时的过程,而且选取的描述符会对模型施加较强的预设先验,使模型产生偏差,进而影响模型的预测性能。在过去的10年中,深度学习方法在语音识别、计算机视觉、自然语言处理和数据挖掘等不同的领域均取得了显著的成功。药物化学领域的研究人员也尝试将新兴的深度学习方法应用于药物开发过程,降低药物开发的成本,缩短药物开发的周期。深度学习方法有别于传统的机器学习方法,它能够在大量标注数据的监督下自动学习数据的表示,从而实现数据特征的自动提取,绕开传统机器学习方法的特征工程。深度学习方法的核心在于使用神经网络模块自动从分子结构或保留大量原始结构信息的描述符中直接学习分子的低维稠密表示向量。

在2005年,Merwirth等[1]提出直接从药物的分子图中学习对分子拓扑结构高度敏感的自适应的“描述符”,而不是使用预定义的描述符,这一工作可以视作药物表示学习的“先声”。对于药物表示学习这一研究工作,目前存在2条不同的技术路线:第一,将保留大量原始结构信息的简化分子线性输入规范(simplified molecular input line entry specification, SMILES)[2]表达式视作包含丰富语义的序列数据,使用循环神经网络(recurrent neural network, RNN)等序列建模方法[3]或变分自编码器(variational autoencoder, VAE)[4]等无监督学习方法对SMILES表达式进行编码,将序列在模型中的隐藏状态作为药物分子在低维连续空间中的嵌入向量,本文称之为“基于SMILES表达式的药物表示学习”;第二,将药物的分子图(molecular graph)视作图结构数据——药物的原子作为图的节点,连接原子的化学键作为图的边,然后使用图卷积网络(graph convolutional network, GCN)[5]直接从图结构数据中学习药物/图的低维连续表示,本文称之为“基于分子图的药物表示学习”。这2种技术路线分别使用了药物分子的2种典型表示:SMILES表达式和分子图(如表 1所示)。基于这两条技术路线,药物表示学习的相关研究工作可以按照图 1所示的分类体系做进一步的划分。

表 1 水杨酸(salicylic acid)的SMILES和分子图
项目 表示
名称 水杨酸(salicylic acid)
化学式 C7H6O3
SMILES OC(=O)C1=CC=CC=C1O
分子图

图 1 药物表示学习的研究工作

本文将依据图 1所示的分类体系对药物表示学习近期的研究工作进行详细的论述,并指出药物表示学习工作面临的机遇与挑战,给出可能的解决方案。

1 基于SMILES表达式的表示学习

如引言所述,药物的SMILES表达式可以视作如同文本一般包含丰富语义的序列数据,因而在自然语言处理中得到广泛应用的RNN可以用于编码药物的SMILES表达式[3],将RNN的隐藏状态作为药物分子的表示。本文认为,这些研究工作遵循了“药物类比文本”的指导思想。除此之外,文[6]认为:能够从低维连续空间中以最高精度重构SMILES表达式的表示向量才具备表示药物的合理性。本文认为,这些研究工作遵循了“精确重构即合理”的指导思想。本节将分别介绍遵循上述2种指导思想的基于SMILES表达式的药物表示学习工作。

1.1 药物类比文本

基于SMILES表达式的药物表示学习方法大多用于解决药物开发过程中的药物从头设计(de novo drug design)问题。所谓的药物从头设计问题,指的是高通量筛选(high throughput screening, HTS)或虚拟筛选(virtual screening, VS)得到的候选小分子化合物虽然对靶标具有理想的生物活性,但其水溶性、毒性等相关性质却并不令人满意,需要在保证生物活性基本不变的情况下重新合成具有期望生物活性和理想性质的化合物分子。药物的从头设计问题可以类比于文本生成问题。文本生成问题可以使用语言模型[7-8]解决,药物从头设计问题同样可以使用该模型解决。Selger等[9]的研究工作即基于上述思想开展,他们的研究工作表明在SMILES表达式上训练的语言模型可以有效生成具有化学意义的药物分子。为保证模型充分训练以生成具有实际效用的SMILES表达式/药物分子,他们还引入了模型微调方法。借助模型微调方法,上述研究工作生成了分别对金黄色葡萄球菌和恶性疟原虫分别具有生物活性的新药物。除了简单的模型微调方法,强化学习(reinforcement learning, RL)方法也可以用于引导模型生成对某类特定靶标具有生物活性的药物。对于SMILES表达式来说,下一步选择哪个记号(token)是行动(action),已经生成的序列是状态(state)。当SMILES表达式生成之后,模型就会为SMILES表达式打分,故而强化学习可以使模型生成具有期望分数的SMILES表达式。Olivecrona等[10]提出基于策略的强化学习方法以调整预训练的RNN模型来生成具有用户期望特性的分子。该方法能够生成对DRD2靶标具有期望生物活性的药物分子,并且成功应用于QSAR问题中。Popoval等[11]则通过增强的偶发似然性和用户自定义的评分函数对预训练的RNN模型进行微调,能够降低RNN模型因长距离依赖减弱造成“遗忘”的风险。该方法能够生成对Janus蛋白激酶2的抑制剂。在药物设计任务中,强化学习方法多是作为建构于RNN语言模型之上的引导机制,弥补RNN模型难以灵活控制新药物性质的不足,引导模型生成具备期望特性的新药物。但是,现有的解决方案均缺少有效的评分函数。对于生成可成药性分子的药物设计任务,现有的知识和规则都可以为评分函数的设计提供先验知识。但是,对于生成具备针对特定靶标生物活性的药物来说,却没有十分可信的评分函数。以RNN为代表的序列建模方法除了用于药物设计,也可以用于分子性质的预测。Zheng等[12]使用双向长短时记忆单元(bidirectional long short-term memory, BiLSTM)[13]结合自注意力机制[14]从药物的SMILES表达式中学习自适应的表示向量,然后基于药物的表示向量预测分子性质。该模型不仅在分子性质预测任务上取得了更优的性能,而且还能借助自注意力机制自动定位出对分子性质影响较大的局部结构。

在“药物类比文本”的思想指导下,一些研究将自然语言处理领域中的经典深度学习方法用来学习药物的自适应表示。Jaeger等[15]提出的mol2vec将word2vec方法[16]用于药物表示学习中:将药物分子视作非空有限的化学子结构生成的序列,如果将化学子结构视作单词的话,药物分子可以看作是由一个个“单词”组成的“句子”;然后使用skip-gram模型[16]对药物分子组成的海量“语料库”进行无监督学习,从而得到各种化学子结构的表示向量,药物分子的表示向量即为包含的化学子结构的表示向量之和。基于mol2vec的药物表示向量在溶解度、毒理学性质、毒性预测等下游任务中的表现超过了人工设计的分子描述符和指纹向量。

在自然语言处理中,基于神经网络的机器翻译任务的通常做法是采用seq2seq[3]的模型架构:使用RNN或注意力机制[14, 17]对源语言进行编码,得到源语言文本在低维连续空间中的隐藏表示,然后基于隐藏表示,再利用神经网络或注意力机制生成目标语言文本。如果将这里的目标语言更改为源语言的话,机器翻译任务本质上就等同于文本生成或重构任务,这种情况下的seq2seq就可以看作是一种特殊的无监督学习方法。Xu等[18]的研究工作即采用了上述思想。他们使用了目标语言等同于源语言的seq2seq架构生成了药物的seq2seq指纹/表示向量。seq2seq指纹能够充分利用pubChem[19]、ChEMBL[20]等化学数据库中海量的无标注数据,为下游任务提供预训练的表示向量。Winter等[21]的研究工作扩展了seq2seq指纹:他们将编码器端的输入替换为诸如InChI[22]这样的语义相同、形式不同的“原始”描述符,然后将SMILES表达式和InChI等其它类型的表达式看作是不同的“语言”,从而利用神经机器翻译(neural machine translation, NMT)模型[17]抽取表征药物概念的语义信息。基于seq2seq架构,合成反应中生成物的SMILES表达式也可以被解码为反应物的SMILES表达式,因而可以用于逆合成反应预测,为药物开发过程中新药物的合成提供宝贵线索。基于上述动机,Liu等[23]在seq2seq架构的编码器端加入了注意力机制以使逆合成反应的反应物能够关注输入SMILES表达式的特定部分。

1.2 精确重构即合理

除了上述遵循“药物类比文本”指导思想的药物表示学习工作之外,还有大量的研究工作[6, 24-27]遵循“精确重构即合理”的思想。所谓的“精确重构即合理”思想是指:能够从低维连续的隐状态空间中以最佳精度重构本身(药物的SMILES表达式)的表示向量才具备表示药物分子的合理性。

鉴于无监督学习方法的核心思想就是以重构自身为建模目标的,以VAE为代表的无监督学习方法也在药物表示学习任务中得到了应用,这些无监督学习方法可以改善药物从头设计任务的性能。

Gomez等[6]首先利用VAE实现了一种能够在分子的离散表示和低维连续表示之间自由转换的模型。通过对该模型中生成的低维连续表示进行操作,可以生成具有特定化学性质的新分子,因而在药物设计中大有用武之地,有助于在化合物/药物设计领域中进行有效的优化。为生成具有实际意义的化学分子,该研究工作还将化学性质预测任务和SMILES表达式重构任务进行联合的多任务学习,以保证模型在正确的方向上得到优化。他们借助上述模型生成了可成药、易合成的新药物。其他的研究工作扩展了分子性质预测任务的个数,力求构建同时满足不同性质目标值的模型。Jaechang等[24]采用条件变分自编码器(conditional variational autoencoder, CVAE),可以生成同时满足5种不同性质目标值的新分子,并解除各性质之间的耦合性。Kang等[25]设计了半监督条件变分自编码器(semi-supervised conditional variational autoencoder, SSCVAE)以充分利用大量未标记数据,有效生成同时满足不同目标条件的新分子。Blaschke等[26]比较了几种不同的自编码器,发现基于元学习的教师驱动(teacher forcing)机制和基于先验分布的对抗机制均能够大幅度提升新生成SMILES表达式的有效比例,表明了在自编码器解码过程中引入先验约束的重要性。Iovanac等[27]基于自编码器抽取药物语义的能力,将其用于多任务学习中,缓解某些预测任务数据稀疏的问题。

本节提及的研究工作见表 2

表 2 基于SMILES的药物表示学习研究工作总结
参考文献 方法 特色 结果
文[9] RNN 使用RNN构建SMILE表达式的语言模型以自动生成具有实际意义的SMILES表达式 生成对特定靶标具有生物活性的新药物
文[10] RL 使用增强的偶发性似然和用户自定义的评分函数对预训练的RNN模型进行微调,降低RNN模型因长程依赖减弱而导致遗忘的风险 生成不含硫的分子;生成塞来昔布的类似物;生成对多巴胺受体2型具有期望生物活性的新分子
文[11] RL 提出基于策略的强化学习方法以调节预训练RNN模型来生成具有用户期望性质的分子 生成对多巴胺受体2型具有期望生物活性的新分子
文[12] RNN 使用BiLSTM抽取药物SMILES的语义表示,结果具有可解释性 在毒性预测等任务上的表现超过了传统的指纹和基于图卷积的方法
文[15] mol2vec 使用Skip-Gram模型在SMILES表达式数据上学习SMILES表达式子结构的“词向量” 在ESOL溶解度、毒理学性质、毒性预测任务上的表现超过了传统方法
文[18] seq2seq 使用seq2seq架构在SMILES表达式数据上进行无监督学习 基于seq2seq的药物表示构建的监督学习模型在LogP分类任务和PM2值分类任务上的表现超过了传统方法
文[21] seq2seq 使用seq2seq架构在多种SMILES表达式数据上进行无监督学习 在2个虚拟筛选任务上的表现超过了所有的基线指纹
文[23] seq2seq 使用seq2seq架构处理逆合成反应预测问题,使用注意力机制引导模型关注编码端SMILES表达式的特定部分 模型性能在逆合成反应预测任务中的表现与基于规则的专家系统基线模型相当
文[6] VAE 使用VAE学习药物分子在隐空间的表示,使用辅助的分子性质预测任务引导模型的训练 生成可成药、易合成的新药物
文[24] CVAE 可以生成同时满足不同性质目标值的新分子,并能够解除各性质之间的耦合性 生成同时满足5种性质的新类药分子,在不影响其他性质的条件下,任意调节一种性质的期望值
文[25] SSVAE 设计了半监督条件变分自编码器,利用未标记数据提升分子性质预测任务的性能 未标记数据在标记数据稀疏时效果提升明显;可以生成同时满足5种不同性质的新类药分子
文[26] VAE 比较了几种自编码器在分子设计任务中的表现,说明先验约束在解码过程的重要性 教师驱动机制和对抗机制均能大幅提升新生成的SMILES表达式的有效率
文[27] VAE 将VAE用于多任务学习中,缓解个别任务的数据稀疏问题 数据稀疏的任务的预测性能得到提升

2 基于分子图的表示学习

基于分子图的药物表示学习工作将分子视作天然的图结构数据:分子中的原子可视作图的节点,连接原子的化学键可视作图的边。从理论上来讲,将深度学习方法应用于图结构数据需要面临相当大的挑战:图结构数据不具备语音、文本、图像等数据的规则结构,属于非规则结构数据,不具备平移不变性(translation invariance),针对规则结构数据设计的卷积神经网络无法直接应用于图结构数据。针对这一问题,研究人员试图将深度学习方法由图像、文本等规则结构数据推广至具有不规则结构的图数据上[28-34]。其中的一些研究工作如文[28]理论优美,文[29]颇具开创性,为之后不同种类图卷积神经网络的诞生奠定了坚实的理论基础。

自从2015年以来,学术界诞生了很多基于分子图的药物表示学习方法。这些方法实质上都是图表示学习方法。这些方法根据图卷积运算定义的不同,可以简单地划分为图谱方法和非图谱方法。药物表示学习中使用的图卷积神经网络基本上都是使用非图谱方法进行定义,仅有少数的研究工作采用了图谱方法。本节着重介绍基于非图谱方法的图卷积神经网络在药物开发中的重要应用。鉴于药物开发过程中有3种比较比较重要的任务——性质预测任务、相互作用预测任务和药物从头设计任务,本文将分别介绍图卷积神经网络在这3种任务中的应用。

2.1 性质预测任务

使用图卷积神经网络直接从分子图中学习药物的表示的最早工作是Duvenaud于2015年提出的神经指纹(neural fingerprint, NFP)[32]。他们基于指纹可微分优化的目标修改了Morgan指纹的生成算法,用以sigmoid为激活函数的单层神经网络代替了Hash操作,用softmax函数代替了索引操作。为了保证模型学习的药物表示对原子顺序具有不变性,他们将所有层节点的状态向量进行简单的求和得到最终的药物表示向量。NFP中的卷积运算体现出局部相关和权重共享的特性:原子特征的更新使用了一阶邻居原子的特征,特征更新使用的滤波器的权重参数为具备相同度的原子所共享。基于节点度的权重共享机制借鉴了图论的重要论断——节点度反映了原子的重要性。上述的权重共享机制可以看作是对原子的聚类,同时也具备一定的化学意义:化学环境中的度与有机化学中的“化合价”暗合,即化合价相同的原子通常会表现出相似的性质。端到端生成的NFP在不同下游任务上的预测性能超过了传统的药物指纹向量。但是,端到端方法具有一个不容忽视的缺点:模型从头开始训练相比传统方法需要花费大量的时间。

NFP仅仅为原子分配特征向量,不为化学键分配特征向量。事实上,基于分子图的药物表示学习也可以利用化学键特征。Kearnes等[34]的研究工作同时考虑了分子图中的原子和化学键。他们的研究工作同样遵循药物表示向量对原子顺序的不变性,并且另外给出了2种关于不变性的约束,在不变性约束的基础上定义了4种原子操作(这里的“原子操作”等同于卷积操作)。基于4种原子操作,严格定义了类似谷歌网络(GoogLeNet)[35]的基本模块——编织(weave)模块。文中的整体网络由编织模块组成。他们将提出的方法与RDKit生成的摩根指纹进行比较,发现文中的网络无法在所有的任务上都超过基准方法。尽管如此,他们的研究工作仍然为药物表示学习引入化学键特征提供了一种可行的方案。

前面的研究工作关注的分子性质大多是诸如水溶性、毒性、生物活性这样的物理化学性质。事实上,基于分子图的药物表示学习方法也可以用于预测药物的量子力学性质。量子力学性质也是药物开发过程中关注的重点。药物量子力学性质的计算机模拟有助于加快分子效能的预测过程。

Schutt等[36]于2017年提出了深度张量神经网络(deep tensor neural networks, DTNN)以预测分子总能量。DTNN以核电荷数作为原子特征,以Gauss分布作为化学键的特征,网络根据原子特征和化学键特征分配状态向量,原子的状态向量使用前一层的状态和当前层邻居原子的状态进行更新,化学键的状态向量则使用简单的神经网络进行更新。Gilmer等[37]使用消息传递(message passing)框架系统总结了上述几种网络的特点,并提出了优化版本的消息传递神经网络(message passing neural network, MPNN)。MPNN使用的化学键特征包含了原子间距离。鉴于原子距离特征的连续性,他们对不同级别的原子距离做了离散化处理,然后进行独热编码(one-hot encoding)。原子距离特征的离散化处理丢失了距离变化的细粒度信息。SchNet[38]对此采取了不同的处理方法:将位置信息映射成相应滤波器的实数值。SchNet以分子中各原子的核电荷数以及各原子的三维空间位置作为输入,使用连续滤波器卷积(continuous filtering convolution, CFConv)层获得各原子的候选更新状态,使用原子的当前状态和候选更新状态的简单加和作为原子的新状态。SchNet中的连续滤波器卷积层由一系列原子层(atom-wise layer)和相互作用层(interaction layer)组成:原子层负责重新组合原子特征以获取原子的新表示,其权重参数在各原子间共享;相互作用层基于原子距离更新原子表示。

某些研究工作[39-40]则致力于在已有的图卷积神经网络上进行改进,增强图卷积神经网络在分子数据上的表示学习能力。由于图卷积神经网络只能提取图的局部拓扑结构特征,在图级别表征学习任务上的表现并不令人满意。Li等[39]的研究工作注意到了图卷积神经网络在全局性特征建模上的缺陷,在图卷积神经网络的基础上引入了“超级虚拟节点”(super dummy node),从而在不影响局部特征学习的情况下编码能够表征分子性质的全局特征。Coley等[40]在图卷积神经网络的输入中加入了已有的、易于获取的原子特征和化学键特征,同样使用堆叠的图卷积层提取特征以获取药物分子中各原子的表示,对各原子的表示进行求和即可得到药物分子的表示。实验表明,融入已知特征的图表示学习方法在药物水溶性预测任务中可以取得比仅仅编码分子结构信息的NFP更好的效果。这意味着,在图卷积神经网络中加入已知的药物特征有助于提升模型的表征能力。

上述基于分子图的药物表示学习工作均使用了基于非图谱方法定义的图卷积神经网络,几乎没有直接使用基于图谱方法的图卷积神经网络。其理论原因是相当明显的:分子数据由不同数目、不同种类的原子组成,不同分子的拓扑结构差异很大;而基于图谱方法的图卷积神经网络只能在固定不变的图上提取局部结构特征,不具备跨图迁移能力。但是,药物实体之间的联系、药物实体与其他类型的实体(例如蛋白质、表型、疾病等)之间的联系是相对固定的,可以通过基于图谱方法的图卷积神经网络进行学习。因而,药物开发过程中的相互作用预测任务的许多研究工作都采用了基于图谱方法的图卷积神经网络。

2.2 相互作用预测任务

药物开发过程中比较重要的相互作用任务主要包括:药物-靶标相互作用(drug-target interaction, DTI)预测任务和药物-药物相互作用(drug-drug interaction, DDI)预测任务。

对于DTI预测任务,Gao等[41]提出了具备可解释性的深度学习方法。他们直接使用NFP生成药物分子中每个原子的隐藏表示,使用长短时记忆单元(long short-term memory, LSTM)[42]生成每个氨基酸的隐藏表示,然后使用对偶注意力机制得到药物分子中每个原子的权重和蛋白质分子中每个氨基酸的权重,基于注意力权重得到药物分子的表示和蛋白质分子的表示。对偶注意力机制的引入为该模型赋予了生物化学角度的可解释性,可以为DTI方面的相关研究提供有价值的线索。Masashi等[43]也使用了图卷积神经网络对药物分子进行编码,但图的节点并不是原子,而是使用Weisfeiler-Lehman算法[44]迭代若干次后的“原子”作为图的节点。实验证明,这种节点设置方法有助于提升算法的收敛速度和预测精度。这种方法可以看作是使用Wesifeiler-Lehman算法对数据进行了预处理。相关理论表明,图神经网络实际上是对Weisfeiler-Lehman算法的逼近(后者是前者的上界),二者的优化方向是基本一致的[45],故上述节点设置方法有助于加快收敛速度、提升预测精度。

可以看出,应用于DTI预测任务的药物表示学习方法一般使用图卷积神经网络从药物分子的结构中提取拓扑特征,使用RNN学习氨基酸序列的表示,鲜少直接使用GCN学习蛋白质的表示。

当多种药物共同使用时,一种药物的药效可能会因为另一种药物的存在而发生变化。DDI的准确预测有助于减少不良反应的发生,也可以用于寻找药物的新用法(因为有些DDI是有利的)。Zitnik等[46]构建了包含药物实体和蛋白质实体的异构网络,使用GCN学习药物实体和蛋白质实体的隐藏表示,然后基于药物实体的隐藏表示构建共享参数的多标签分类任务以预测药物组合共同施用可能导致的副作用类型。Ma等[47]同样将图卷积网络应用于DDI预测任务中。他们提出了基于图自编码器(graph autoencoder, GAE)的多视图药物相似度集成方法。药物的每个视图是基于某种特征构建的相似度矩阵。药物的不同视图通过注意力机制进行集成,然后将集成后的表示输入到GAE中学习每个药物节点的表示。

从上述研究工作中可以看出应用于DDI预测任务的药物表示学习方法大多使用基于图谱方法的图卷积网络学习各药物节点的表示,较少使用基于非图谱方法的图卷积网络直接从药物的原始结构中直接提取特征。值得注意的是,今年的一些研究工作[48-49]开始尝试使用图神经网络直接从药物的化学结构自动提取特征向量以预测DDI。

2.3 药物设计任务

节2.1和2.2的研究工作中提出的图卷积神经网络多是为了解决分子性质预测问题和相互作用预测问题。除此之外,也有不少的研究工作关注将药物表示学习方法应用于药物从头设计任务。药物开发过程中的药物从头设计任务可以抽象为图生成(graph generation)问题。

对于这一问题,You等[50]将强化学习用于目标导向的分子图生成任务:将分子图生成问题视作Markov决策过程,将模型视作强化学习中的智能体。通过将智能体的行动类比于链接预测问题,使用化学领域的奖励和对抗训练的奖励并结合GCN来学习图中每一节点的表示。同时期的MolGAN[51]也采用了强化学习来生成全新的分子图。与文[50]不同的是,MolGAN直接生成分子图,而不是像文[50]那样通过一系列的行动来生成分子图。研究表明,MolGAN的这种处理方式对小分子极为有效。

另外,鉴于RNN等序列建模方法和VAE等无监督学习方法可以从SMILES表达式中自动提取端到端特征,因此同样可以将RNN和VAE等模型迁移运用至图结构数据上。部分研究工作注意到了这一点。You等[52]将Graph RNN用于图生成问题:同时使用两个RNN生成分子图,一个RNN用于生成新的节点,另一个RNN用于为新生成的节点产生新的边,该模型在蛋白质数据集上取得了较为理想的结果。节2提及的工作总结见表 3,其中所列的各项研究工作均在相应数据集上取得了优于传统方法的性能。

表 3 基于分子图的药物表示学习研究工作总结
参考文献 数据集 图卷积定义域 特色
文[32] HCEP 空间域 提出基于节点度共享权重参数的图卷积,在分子性质预测任务上超过了ECPF4指纹
文[34] PCBA、MUV、TOX21 空间域 提出满足3种基本不变性的Weave图卷积,用于分子性质预测任务
文[36] QM 空间域 提出深度张量神经网络用于预测分子化学性质
文[37] QM9 空间域 总结了几种典型的图卷积神经网络架构,提出“消息传递”框架,提出set2set输出函数
文[38] QM9、MD17、ISO17 空间域 提出连续滤波器卷积层,基于原子位函数获取原子的候选更新状态;SchNet预测分子的能量和力场
文[39] Tox21、ToxCast、MUV PCBA、HIV、FreeSolv 频率域 引入“虚拟节点”学习分子的整体表示,弥补图卷积操作忽视全局表示的缺点
文[40] Abraham、Delaney、Bradley、Tox21 空间域 在图卷积神经网络中加入药物的属性信息,在化合物物理性质预测任务上取得了优于NFP的性能
文[41] BindingDB 空间域 在相互作用部分引入对偶注意力机制,模型具有可解释性
文[43] C.elegans、DUD-E 空间域 使用Weislefer-Lehman算法对分子中的原子进行预处理,加快模型收敛速度,提升模型预测精度
文[46] Decagon 频率域 首先将基于GCN的autoencoder模型用于药物组合的副作用类型预测
文[47] BinaryDDI、MultiDDI 频率域 使用注意力机制融合药物不同方面的特征,然后使用基于GCN的自编码器学习药物实体的表示以预测DDI
文[50] ZINC250k 频率域 将分子图生成任务视作Markov决策过程,生成具有理想性质的化学分子
文[51] QM9 空间域 使用GAN直接生成分子图,模型的判别器网络和奖励网络均使用GCN处理分子图数据
文[52] Community、Grid、B-A、Protein、Ego 空间域 将Graph RNN用于图生成问题:同时使用2个RNN生成分子图,一个RNN用于生成新的节点,另一个RNN用于为新生成的节点产生新的边,该模型在蛋白质数据集上取得了较为理想的结果

3 重要挑战

虽然深度学习方法在药物表示学习任务中取得了丰硕的成果,但是也面临着不少严峻的挑战。本节分别列出药物表示学习面临的挑战,并讨论了可能的解决方案。药物表示学习面临的挑战主要包括以下3个方面:

1) 药物三维结构的利用。现有的药物表示学习方法处理的对象基本上都是一维的SMILES表达式和二维的图。然而,实际中的药物分子具有三维结构,忽略药物的三维结构信息有可能会造成信息损失。已经有少数的研究工作关注物体三维结构的利用[53-55]

2) 药物外部关系的利用。药物数据本身可以看作图结构的数据,可以使用图卷积神经网络进行编码。在分子性质预测任务中,仅仅使用药物本身的信息而不考虑其他相似药物提供的“协同”信息是合适的。但是,对于相互作用预测任务来讲,不同实体之间的联系可以抽象成知识图谱,同样可以利用图卷积神经网络进行学习,同时考虑药物自身信息以及药物与其他类型实体(如蛋白质、表型、疾病或其他药物等)的关联信息似乎是更加合理的选择。

3) 端到端训练方法时间成本较大。正如节2.1在论述NFP所提到的那样,将药物表示学习任务和性质预测任务结合在一起进行端到端训练的工作流程虽然在足量数据下可以取得令人满意的效果,但模型训练的时间成本较高。如果将药物表示学习方法应用于相互作用预测任务,模型训练的时间成本将会更高。模型训练的时间成本问题对基于分子图的药物表示学习问题尤为突出。这几乎是所有基于非图谱方法的图卷积神经网络的共同缺点[56]。对于这一问题,本文认为可以借鉴计算机视觉领域中ImageNet[57]和自然语言处理领域中BERT[58]的成功经验,基于图卷积神经网络和分子数据的特点设计辅助的无监督任务构建大规模的药物分子预训练模型。文[59]和[60]均已做出了部分工作:文[59]将图核函数提供的表示作为无监督预训练图神经网络需要拟合的目标;文[60]则参考BERT的成功经验,设计了2种针对分子数据的辅助任务用于无监督预训练。

4 结论

通过对药物表示学习相关代表方法的梳理,本文认为药物表示学习的研究具有相当重要的意义:当前药物开发过程的各种相关任务严重依赖于各种预定义的分子描述符, 需要进行繁复、耗时的特征工程;而药物表示学习方法能够为不同的任务自适应地生成数据驱动的表示,绕开特征工程,从而有效降低药物开发的成本,缩短药物开发的周期。

本文还指出了药物表示学习所面临的主要挑战,并讨论了可能的解决方案。药物表示学习方法终将会成为药物开发过程中不可或缺的关键组成部分,为人工智能技术赋能药物研发提供强大的支持与动力。

参考文献
[1]
MERKWIRTH C, LENGAUER T. Automatic generation of complementary descriptors with molecular graph networks[J]. Journal of Chemical Information and Modeling, 2005, 45(5): 1159-1168. DOI:10.1021/ci049613b
[2]
WEININGER D. SMILES, a chemical language and information system. 1. Introduction to methodology and encoding rules[J]. Journal of Chemical Information and Computer Sciences, 1988, 28(1): 31-36.
[3]
SUTSKEVER I, VINYALS O, LE Q V. Sequence to sequence learning with neural networks[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems. Cambridge, USA: MIT Press, 2014: 3104-3112.
[4]
KINGMA D P, WELLING M. Auto-encoding variational Bayes[Z/OL]. (2014-05-01)[2019-06-23]. https://arxiv.org/abs/1312.6114.
[5]
KIPF T N, WELLING M. Semi-supervised classification with graph convolutional networks[Z/OL]. (2016-09-09)[2019-06-23]. https://arxiv.org/abs/1609.02907.
[6]
GÓMEZ-BOMBARELLI R, WEI J N, DUVENAUD D, et al. Automatic chemical design using a data-driven continuous representation of molecules[J]. ACS Central Science, 2018, 4(2): 268-276. DOI:10.1021/acscentsci.7b00572
[7]
BENGIO Y, DUCHARME R, VINCENT P, et al. A neural probabilistic language model[J]. Journal of Machine Learning Research, 2003, 3(6): 1137-1155.
[8]
MIKOLOV T, KARAFIÁT M, BURGET L, et al. Recurrent neural network based language model[C]//Eleventh Annual Conference of the International Speech Communication Association. Makuhari, Chiba, Japan: IEEE, 2010: 1045-1048.
[9]
SEGLER M H S, KOGEJ T, TYRCHAN C, et al. Generating focused molecule libraries for drug discovery with recurrent neural networks[J]. ACS Central Science, 2017, 4(1): 120-131.
[10]
OLIVECRONA M, BLASCHKE T, ENGKVIST O, et al. Molecular de-novo design through deep reinforcement learning[J]. Journal of Cheminformatics, 2017, 9: 48. DOI:10.1186/s13321-017-0235-x
[11]
POPOVA M, ISAYEV O, TROPSHA A. Deep reinforcement learning for de novo drug design[J]. Science Advances, 2018, 4(7): eaap7885. DOI:10.1126/sciadv.aap7885
[12]
ZHENG S J, YAN X, YANG Y D, et al. Identifying structure-property relationships through SMILES syntax analysis with self-attention mechanism[J]. Journal of Chemical Information and Modeling, 2019, 59(2): 914-923. DOI:10.1021/acs.jcim.8b00803
[13]
SCHUSTER M, PALIWAL K K. Bidirectional recurrent neural networks[J]. IEEE Transactions on Signal Processing, 1997, 45(11): 2673-2681. DOI:10.1109/78.650093
[14]
VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[Z/OL]. (2017-12-06). https://arxiv.org/abs/1706.03762.
[15]
JAEGER S, FULLE S, TURK S. Mol2vec:Unsupervised machine learning approach with chemical intuition[J]. Journal of Chemical Information and Modeling, 2018, 58(1): 27-35.
[16]
MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space[Z/OL]. (2013-09-07)[2019-06-23]. https://arxiv.org/abs/1301.3781.
[17]
BAHDANAU D, CHO K, BENGIO Y. Neural machine translation by jointly learning to align and translate[Z/OL]. (2016-05-19)[2019-06-23]. https://arxiv.org/abs/1409.0473v2.
[18]
XU Z, WANG S, ZHU F Y, et al. Seq2seq fingerprint: An unsupervised deep molecular embedding for drug discovery[C]//Proceedings of the 8th ACM International Conference on Bioinformatics, Computational Biology, and Health Informatics. Boston, USA: ACM, 2017: 285-294.
[19]
KIM S, THIESSEN P A, BOLTON E E, et al. PubChem substance and compound databases[J]. Nucleic Acids Research, 2015, 44(D1): D1202-D1213.
[20]
GAULTON A, HERSEY A, NOWOTKA M, et al. The ChEMBL database in 2017[J]. Nucleic Acids Research, 2016, 45(D1): D945-D954.
[21]
WINTER R, MONTANARI F, NOÉ F, et al. Learning continuous and data-driven molecular descriptors by translating equivalent chemical representations[J]. Chemical Science, 2019, 10(6): 1692-1701. DOI:10.1039/C8SC04175J
[22]
HELLER S, MCNAUGHT A, STEIN S, et al. InChI:The worldwide chemical structure identifier standard[J]. Journal of Cheminformatics, 2013, 5: 7. DOI:10.1186/1758-2946-5-7
[23]
LIU B W, RAMSUNDAR B, KAWTHEKAR P, et al. Retrosynthetic reaction prediction using neural sequence-to-sequence models[J]. ACS Central Science, 2017, 3(10): 1103-1113. DOI:10.1021/acscentsci.7b00303
[24]
LIM J, RYU S, KIM J W, et al. Molecular generative model based on conditional variational autoencoder for de novo molecular design[J]. Journal of Cheminformatics, 2018, 10: 31. DOI:10.1186/s13321-018-0286-7
[25]
KANG S, CHO K. Conditional molecular design with deep generative models[J]. Journal of Chemical Information and Modeling, 2018, 59(1): 43-52.
[26]
BLASCHKE T, OLIVECRONA M, ENGKVIST O, et al. Application of generative autoencoder in de novo molecular design[J]. Molecular Informatics, 2018, 37(1-2): 1700123. DOI:10.1002/minf.201700123
[27]
IOVANAC N, SAVOIE B M. Improved chemical prediction from scarce data sets via latent space enrichment[J]. The Journal of Physical Chemistry A, 2019, 123(19): 4295-4305. DOI:10.1021/acs.jpca.9b01398
[28]
SHUMAN D I, NARANG S K, FROSSARD P, et al. The emerging field of signal processing on graphs:Extending high-dimensional data analysis to networks and other irregular domains[J]. IEEE Signal Processing Magazine, 2013, 30(3): 83-98.
[29]
FIGUEIREDO D R, RIBEIRO L F R, SAVERESE P H P. Struc2vec: Learning node representations from structural identity[C]//Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Halifax, Canada: ACM, 2017: 385-394.
[30]
BRUNA J, ZAREMBA W, SZLAM A, et al. Spectral networks and locally connected networks on graphs[Z/OL]. (2014-05-21)[2019-06-23]. https://arxiv.org/abs/1312.6203.
[31]
HENAFF M, BRUNA J, LECUN Y. Deep convolutional networks on graph-structured data[Z/OL]. (2015-06-16)[2019-06-07]. https://arxiv.org/abs/1506.05163.
[32]
DUVENAUD D K, MACLAURIN D, AGUILERA-IPARRAGUIRRE J, et al. Convolutional networks on graphs for learning molecular fingerprints[C]//Proceedings of the 28th International Conference on Neural Information Processing Systems. Cambridge, USA: ACM, 2015: 2224-2232. https://dl.acm.org/doi/10.5555/2969442.2969488
[33]
DEFFERRARD M, BRESSON X, VANDERGHEYNST P. Convolutional neural networks on graphs with fast localized spectral filtering[C]//Proceedings of the 30th International Conference on Neural Information Processing Systems. Barcelona, Spain: ACM, 2016: 3844-3852.
[34]
KEARNES S, MCCLOSKEY K, BERNDL M, et al. Molecular graph convolutions:Moving beyond fingerprints[J]. Journal of Computer-Aided Molecular Design, 2016, 30(8): 595-608. DOI:10.1007/s10822-016-9938-8
[35]
SZEGEDY C, LIU W, JIA Y Q, et al. Going deeper with convolutions[C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE, 2015: 1-9. https://ieeexplore.ieee.org/document/7298594?denied=
[36]
SCHVTT K T, ARBABZADAH F, CHMIELA S, et al. Quantum-chemical insights from deep tensor neural networks[J]. Nature Communications, 2017, 8: 13890. DOI:10.1038/ncomms13890
[37]
GILMER J, SCHOENHOLZ S S, RILEY P F, et al. Neural message passing for quantum chemistry[C]//Proceedings of the 34th International Conference on Machine Learning. Sydney, Australia: JMLR, 2017: 1263-1272.
[38]
SCHÜTT K, KINDERMANS P J, SAUCEDA H E, et al. Schnet: A continuous-filter convolutional neural network for modeling quantum interactions[C]//Advances in Neural Information Processing Systems. Long Beach, USA: ACM, 2017: 991-1001.
[39]
LI J Y, CAI D, HE X F. Learning graph-level representation for drug discovery[Z/OL]. (2017-09-12)[2019-06-07]. https://arxiv.org/abs/1709.03741.
[40]
COLEY C W, BARZILAY R, GREEN W H, et al. Convolutional embedding of attributed molecular graphs for physical property prediction[J]. Journal of Chemical Information and Modeling, 2017, 57(8): 1757-1772. DOI:10.1021/acs.jcim.6b00601
[41]
GAO K Y, FOKOUE A, LUO H, et al. Interpretable drug target prediction using deep neural representation[C]//Proceedings of the Twenty-Seventh International Joint Conference on Artificial Intelligence. Stockholm, Sweden: IJCAI, 2018: 3371-3377.
[42]
HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780. DOI:10.1162/neco.1997.9.8.1735
[43]
TSUBAKI M, TOMII K, SESE J. Compound-protein interaction prediction with end-to-end learning of neural networks for graphs and sequences[J]. Bioinformatics, 2019, 35(2): 309-318. DOI:10.1093/bioinformatics/bty535
[44]
WEISFEILER B, LEHMAN A A. A reduction of a graph to a canonical form and an algebra arising during this reduction[J]. Nauchno-Technicheskaya Informatsia, 1968, 2(9): 12-16.
[45]
XU K L, HU W H, LESKOVEC J, et al. How powerful are graph neural networks?[Z/OL]. (2019-02-22)[2019-06-23]. https://arxiv.org/abs/1810.00826.
[46]
ZITNIK M, AGRAWAL M, LESKOVEC J. Modeling polypharmacy side effects with graph convolutional networks[J]. Bioinformatics, 2018, 34(13): i457-i466. DOI:10.1093/bioinformatics/bty294
[47]
MA T F, XIAO C, ZHOU J Y, et al. Drug similarity integration through attentive multi-view graph auto-encoders[C]//Proceedings of the 27th International Joint Conference on Artificial Intelligence. Stockholm, Sweden: IJCAI, 2018: 3371-3377. https://arxiv.org/abs/1804.10850
[48]
DEAC A, HUANG Y H, VELI AČG KOVIĆ P, et al. Drug-drug adverse effect prediction with graph co-attention[Z/OL]. (2019)[2019-06-22]. https://arxiv.org/abs/1905.00534.
[49]
XU N, WANG P H, CHEN L, et al. MR-GNN: Multi-resolution and dual graph neural network for predicting structured entity interactions[C]//Proceedings of the 28th International Joint Conference on Artificial Intelligence. Macau, China: IJCAI, 2019: 3968-3974. https://arxiv.org/abs/1905.09558?context=cs.LG
[50]
YOU J, LIU B, YING Z, et al. Graph convolutional policy network for goal-directed molecular graph generation[C]//Advances in Neural Information Processing Systems. Montréal, Canada: ACM, 2018: 6410-6421. https://arxiv.org/abs/1806.02473
[51]
CAO N D, KIPF T. MolGAN: An implicit generative model for small molecular graphs[Z/OL]. (2018-05-30)[2019-06-07]. https://arxiv.org/abs/1805.11973.
[52]
YOU J X, YING R, REN X, et al. Graphrnn: Generating realistic graphs with deep auto-regressive models[Z/OL]. (2018-02-24)[2019-06-07]. https://arxiv.org/abs/1802.08773.
[53]
KUZMINYKH D, POLYKOVSKIY D, KADURIN A, et al. 3D molecular representations based on the wave transform for convolutional neural networks[J]. Molecular Pharmaceutics, 2018, 15(10): 4378-4385.
[54]
VERMA N, BOYER E, VERBEEK J. Feastnet: Feature-steered graph convolutions for 3D shape analysis[C]//Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018: 2598-2606.
[55]
TORNG W, ALTMAN R B. 3D deep convolutional neural networks for amino acid environment similarity analysis[J]. BMC Bioinformatics, 2017, 18: 302. DOI:10.1186/s12859-017-1702-0
[56]
ZHANG Z W, CUI P, ZHU W W. Deep learning on graphs: A survey[Z/OL]. (2018-12-11)[2019-06-07]. https://arxiv.org/abs/1812.04202.
[57]
DENG J, DONG W, SOCHER R, et al. ImageNet: A large-scale hierarchical image database[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, USA: IEEE, 2009: 248-255. https://ieeexplore.ieee.org/document/5206848?denied=
[58]
DEVLIN J, CHANG M W, LEE K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[Z/OL]. (2019-05-24). https://arxiv.org/abs/1810.04805.
[59]
NAVARIN N, TRAN D V, SPERDUTI A. Pre-training graph neural networks with kernels[Z/OL]. (2018-11-16)[2019-06-07]. https://arxiv.org/abs/1811.06930.
[60]
HU W H, LIU B W, GOMES J, et al. Pre-training graph neural networks[Z/OL]. (2019-05-29)[2019-06-22]. https://arxiv.org/abs/1905.12265.