机器学习模型
有一系列机器学习方法可应用于模拟生物反应器放大的问题。表 2 列出了这些技术及其一般优缺点。
表2. 机器学习方法的一般优缺点。
人工神经网络 (ANN) 是最有前途的机器学习技术之一,可应用于生物反应器规模缩放。总的来说,人工神经网络对非线性复杂系统进行建模的能力使人工神经网络成为增长最快的数据驱动生化系统建模方法之一。此外,ANN 模型可以同时预测多个响应变量,同时也可以将多个自变量引入输入层。例如,可以构建 ANN 来预测生物反应器内的不同代谢物浓度。
ANN 是由输入层(第一层)、输出层(最后一层)和位于输入层和输出层之间的隐藏层组成的多层模型。人工神经网络是高度特定于问题的,并且没有通用的策略可用于构建网络拓扑,主要是因为:
虽然驻留在输入和输出层中的节点数由自变量和因变量的数量指定,但没有一般规则来确定隐藏层的数量,且隐藏节点的数量根据问题的复杂性而变化。
在 ANN 架构中,节点可以完全或部分连接;
传递函数种类繁多,例如线性函数、S形函数和双曲正切函数,用于处理在隐藏层和输出层中的每个节点的输出值;
有相当多的学习算法,例如 Levenberg-Marquardt、随机梯度下降和自适应矩估计,可用于训练模型;以及
还有其它超参数和层操作,如信息失落、训练迭代次数、批次大小和学习率需要确定
考虑到这一点,应该采用优化策略来调整网络的超参数并确定其最佳拓扑。这个优化过程可能很耗时,特别是对于由高维数据集训练的深度神经网络。
ANN 模型定制的优点是这些模型非常灵活,可以用来捕获各种系统中数据的底层结构,例如复杂的生化过程。此外,还开发了许多其它模型来模拟生物过程,其中包括递归神经网络 (RNN)、卷积神经网络 (CNN)、图神经网络 (GNN) 和径向基神经网络 (RBNN)。
人工神经网络已成功用于细胞培养建模,包括蛋白质糖基化的预测、培养基成分的优化以及预测蛋白质聚集。此外,一些文献报道了使用 ANN 来估计反应器流体动力学。Patel 和 Thibault (2009) 建立了一个前馈神经网络来预测好氧发酵中的 kLa 值。作者试图调和由不同理论方法确定的 kLa 数据,即动态方法、稳态方法、氧气平衡法和二氧化碳气体平衡法,而不是对通过这些方法获得的 kLa 值进行平均。ANN 被证明比其它复杂的传统数据协调算法更简单。研究表明,人工神经网络预测的 kLa 值比平均技术更精确,与传统数据协调方法计算的值相当。
在另一项研究中,人工神经网络被应用于预测不同的流体动力学和传质参数,例如气体滞留率、kLa 和气泡直径。包含 7,374 个数据点的大型数据集由反应器几何形状、物理化学特性和操作变量组成,用于训练和测试开发的神经网络。开发的人工神经网络在预测方面是准确的,并提供了一个成功的经验相关性替代方案。
递归神经网络也已用于预测哺乳动物细胞生物反应器中的关键变量,包括单克隆抗体滴度、活细胞密度和活性,以及葡萄糖和乳酸浓度。RNN 提供的时间记忆不是传统 ANN 的特征,这使得 RNN 成为强大的数据驱动工具,用于连续输入数据,包括时间序列数据,例如代谢物浓度的时间过程变化。在这项研究中,创建了两个 RNN 模型,分别命名为特定 RNN 和通用 RNN。特定的 RNN 是根据从用于生产单一抗体产品的大型生物反应器获得的数据进行训练的,而通用 RNN 是根据在小型生物反应器中生成的四种不同单克隆抗体产品的组合数据进行训练的。这项研究的结果表明,这些模型在计算不同规模的细胞代谢物浓度方面具有适当的预测能力。根据特定过程的数据训练的特定 RNN 比通用 RNN 具有更高的准确性,因为后者给出了偏离实验值的细胞代谢物和细胞浓度的预测。这对于预测葡萄糖 (R2 = 0.83) 和乳酸浓度 (R2 = 0.95) 最为重要。特定过程中的代谢差异和改进的补液策略被认为是观察到的差异的原因。
基于树的模型也是一类高性能机器学习监督算法,可用于描述自变量和因变量之间的高度非线性关系,使其成为建模本质上是非线性的生物系统的潜在工具。基于树的模型的其它突出优势包括它们对缺失值和异常值的不敏感性、它们衡量特征重要性的能力、它们的可解释性,以及它们在过度拟合和欠拟合时改进的稳健性。随机森林是由多个并行决策树组成的基于树的集成。随机森林可用于回归和分类问题。随机森林回归工具由通过递归分区方法创建的去相关回归树组成。每棵树都用于根据独立采样的随机向量的值预测响应。随机森林已被用作预测蛋白质结构的分类器算法,预测蛋白质-蛋白质/配体相互作用,生物反应器故障检测和微生物网络分析。随机森林作为预测生物量和微生物或细胞代谢物的回归工具的应用也在多项研究中进行了分析, 表明了它们在模拟不同规模生物反应器内代谢物浓度的潜力。
梯度提升方法也被认为是非常强大的基于树的集成。这种方法对异常值具有稳健性。该技术还能够自动合并预测变量之间的交互作用。与随机森林模型不同,增强算法是一组顺序决策树,这些树经过迭代训练和增强,用于重新加权现有树集合建模不佳的观察结果。
极端梯度提升 (XGBoost) 是一种可扩展的树提升算法,其仅需要最少的计算资源,具有良好的通用性和高可解释性。XGBoost 已应用于许多系统,以识别生物分子反应坐标,预测革兰氏阴性菌的抗菌素耐药性,预测发酵产物并确定潜在的抗病毒药物和抗病毒的中和抗体。
这些基于树的算法的多功能性已经在蛋白质工程领域得到证实并且由于其可解释性和特征选择能力,预计它们将有相当大的潜力为复杂生物过程开发策略的未来数据驱动评估做出贡献。
另一种流行的机器学习方法是支持向量机 (SVM) 分析,它可用于分类和回归。SVM 模型是一种基于核的非参数数据驱动方法。核函数用于将原始输入从原始特征空间转换到更高维空间。SVM 算法中可以使用各种核函数,即线性函数、多项式函数、狄利克雷函数、径向基函数和 S 形函数。与每个内核函数关联的参数通过适当的性能优化方法进行调整。SVM 以其处理高维数据集的能力而闻名。它们在为不同系统建模时也具有内存效率和灵活性。
除了它们在生物学中广泛用于预测蛋白质和酶功能、转录起始位点的鉴定和基因表达数据的分类之外,一些研究人员已经将 SVM 应用于生物反应器模型。SVM 算法也已用于预测不同规模的生物反应器性能。作者开发了基于内核的支持向量回归和偏最小二乘回归,以根据在不同规模下(包括 80 L、400 L、2,000 L 和12,000 L)的抗体终浓度和乳酸终浓度,分析CHO细胞培养性能。以 80 L 规模开发的模型预测 12,000 L 生产规模生物反应器性能的能力低于以 2,000 L 规模开发的模型的能力。与每种规模的单独数据集相比,跨规模编译数据并没有提高预测准确性。这归因于在较小规模(即 80 L 至 2,000 L)下获得的噪声数据。尽管如此,与本研究中同样检查的更简单的 PLS 模型相比,SVM 模型在处理这些噪声数据方面更加稳健,显示了这种先进方法的优势。
高斯过程算法是另一种非参数的、基于内核的机器学习技术,可应用于缩放生物反应器。这种方法在确定预测的置信区间方面具有明显优势。计算由平均值和方差表示的正态分布作为高斯过程模型的输出。平均值被分配给最可能的预测值,而置信区间由方差确定。然而,对大型数据集使用高斯过程在计算上可能存在问题。研究人员已成功地将高斯过程应用于生物系统,以优化细胞培养基、估计生物量浓度、预测时间依赖性代谢物以及鉴定代谢途径中的酶。
正则化方法在具有大量相关参数的生物系统的数据驱动分析中尤其可以发挥重要作用,因为这些方法同时考虑了模型拟合和特征选择。如图 4 所示,生物反应器中可能会出现不同变量之间的显著相关性(称为多重共线性),这使得这种缩放方法特别有吸引力。尽管多重共线性可能不会影响模型预测,但强多重共线性会导致对自变量对响应变量影响的严重误导性解释,以及不稳定和有偏见的统计分析。基于正则化技术的惩罚回归模型的开发可以减轻这些多重共线性问题。为此,通过以下常用的正则化方法将惩罚项添加到误差函数(也称为损失函数)中:
L1 正则化(也称为 L1 范数和最小绝对收缩和选择算子 (LASSO))将模型参数的绝对值之和合并到惩罚损失函数中。使用此正则化器,未使用的参数变为零;因此,通过消除对模型的预测能力没有显著影响的冗余特征来简化模型。尽管如此,L1 范数无法识别协变量的正确选择,而是从多个相关变量中随机选择一个变量。此外,当预测变量的数量远大于观测值的数量时,L1 范数无效。
L2 正则化(也称为 L2 范数和岭正则化)将模型参数的平方值之和纳入惩罚损失函数。与 L1 范数相比,L2 范数不排除任何特征,而是降低了最不重要特征的系数大小。因此,使用 L2 范数进行特征选择受到限制。
弹性网络正则化结合了 L1 和 L2 正则化方法。由于 L1- 和 L2-范数的优点都包含在弹性网络正则化器中,因此它通常优于单独的 L1- 和 L2-范数。2003 年提出弹性网的 Zou 和 Hastie 证明了当预测变量的数量远大于观测值的数量时弹性网的改进能力。
这些正则化方法已应用于代谢通量分析和蛋白质组学的特征选择,以及提供细胞培养生物反应器的简化表示。Severson等人 (2015) 利用带有Monte Carlo采样的弹性网来预测抗体生产过程的滴度和产品质量属性。在 Badsha 等人 (2016) 的研究中,还开发了 LASSO 和弹性净回归模型,以将细胞生长、抗体产生、葡萄糖、乳酸、氨离子和谷氨酰胺浓度与 CHO 细胞的关键细胞内代谢物联系起来。比较为每个模型输出确定的重叠重要特征,作者指出了基于细胞代谢的模型输出之间的可能关系,显示了这些数据驱动方法在识别细胞代谢物之间合理关联方面的潜在用途。