实验数据或观察的数量对于基于机器学习的方法的开发和应用至关重要。具体而言,观察值与过程变量或预测变量数量的比率很重要。当观察值与预测值的比率很小时,可能会发生过度拟合。因此,必须通过将适当的实验方法设计应用于细胞培养实验来生成足够的实验数据。尽管如此,在广泛的过程变量和工程设计考虑因素下从大型生物反应器中获取数据既昂贵又耗时。此外,对于每个新产品,都应该进行一组新的实验来表征过程。因此,任何能够减少对实验数据的依赖的方法都是有价值的。
迁移学习是一种可以通过利用细胞培养过程和产品的先验知识来减少数据不足问题的方法。借助这种数据高效技术,可以捕获各种过程或产品的相互关联的属性,然后将其转移到新过程中。换句话说,迁移学习的目标是重新处理已经在其它相互关联的数据集上进行过预训练的算法,并将这些算法应用于观察通常不足的新数据集。由于深度神经网络的流行,许多研究人员为此开发了深度迁移学习算法。通常采用两种策略来创建最初由大型数据集作为先验知识训练的深度迁移学习神经网络。
在第一种策略中,参数网络的一些现有层被冻结,这意味着它们在重新训练过程中不会更新,而现有模型的其余部分使用新的目标数据集进行重新训练,然后超参数优化。在重新训练和超参数调整过程之前,新参数也可能被附加到现有网络。由于可以考虑各种拓扑来向网络中的任何层添加新参数,因此还需要进行优化研究以找到最佳拓扑。
在第二种策略中,所有由源数据集初始化的网络参数都使用目标数据集重新计算。如果目标数据集很小并且现有网络有很多参数,这种策略可能会导致过度拟合。
迁移学习越来越受欢迎,并已成功应用于材料特性预测、药物发现、故障检测以及化学反应预测等不同领域。一些研究人员还利用迁移学习来改进生物系统中的模型预测,例如通过将序列衍生知识从包括五种蛋白酶的源蛋白质域转移到目标蛋白酶蛋白质域来预测金属蛋白酶中的底物切割位点,通过将在Yarrowia lipolytica酵母数据上训练的模型转移到其它产油酵母来预测包括脂质和有机酸在内的产品滴度,以及通过将在Saccharomyces cerevisiae酿酒酵母数据上训练的模型转移到Trichoderma reesei里氏木霉来预测分泌途径中的蛋白质-蛋白质相互作用。
迁移学习在生物反应器规模放大中的具体应用尚未在已发表的文献中进行研究,尽管最近,Rogers 等人 (2021) 展示了迁移学习在生物工艺开发中的潜力。在这项研究中,开发了人工神经网络来预测 Desmodesmus sp.(链带藻) 和 Chlorella sorokiniana(一种新的叶黄素生产菌株,其可用数据有限)。尽管新菌株 Chlorella sorokiniana 可以产生比Desmodesmus sp.更高的细胞叶黄素含量,但它们具有相似的代谢途径,这表明从Desmodesmus sp.培养物中转移知识的可能性。新菌株进一步提高产量。为此,从Desmodesmus sp.的补料分批培养中获得的时程数据,包括生物量浓度、入射光强度、硝酸盐浓度和流入率以及叶黄素浓度,被用于训练 ANN 模型。然后使用 Chlorella sorokiniana 的单个数据集重新训练源 ANN 以创建两个迁移学习模型:迁移模型#1,其中仅更新源 ANN 的最后一层,以及迁移模型#2,其中最后两层来源 ANN 已更新。与仅在 Chlorella sorokiniana 的有限数据上训练的基准 ANN 相比,这两种转移模型都使预测误差显著降低了 50%。这个例子有效地展示了迁移学习如何有效地促进生物工艺开发中的知识迁移。
另一种方法涉及组合相关产品的数据集,以制作产品物理化学和生物学特性的分子描述符的组合训练数据集。可以使用计算方法生成分子描述符,例如预测定量构效关系 (QSAR) 建模。尽管可以通过这种方法捕获分子特征,但无法整合来自不同工艺的知识,例如,使用不同细胞系或使用不同反应器规模生产的同一产品,从而限制了利用该方法使用所有现有数据。
可以使用编码技术(例如单热编码或标签编码)来包含此类分类数据的数字表示,从而允许将工艺或产品标识附加到训练数据中,以明确指定每组数据所对应的单个过程或产品归属,但这种方法不能传达不同数据之间隐藏的相似性。有趣的是,在 Hutter 等人(2021)的一篇论文中,提出了一种新方法,使用嵌入向量捕获跨细胞系的可能相似性。在这种方法中,创建了一个抽象的 D 维嵌入空间来表示每个产品。附加到训练集的嵌入向量及其维度是通过超参数优化研究确定的,包括定义高斯过程回归模型中使用的自定义核函数。尽管开发像这样的定制模型比传统方法需要更多的努力,但与传统的单热编码模型相比,作者展示了使用高斯过程回归模型的显著改进。此外,由于模型的知识转移能力得到增强,为新细胞系重新训练模型的实验次数显著减少。
工艺过程之间的相似性也可以通过使用 PCA 方法生成的“载荷”计算的相似性因子在数值上表示。在 PCA 中计算的系数(也称为权重)可以用于推导原始变量和投影变量或主成分之间的线性关系。这些权重称为载荷。如果主成分的数量用𝐴表示,𝑃 1 和𝑃 2 表示载荷矩阵,过程1和2的转置矩阵分别为𝑃 '1和𝑃 '2,相似因子可以通过以下公式计算:
它介于 0 和 1 之间。对于两个相似的过程,相似性因子更接近 1,而不同的过程具有更接近 0 的相似性因子。这种方法已成功应用于跨规模比较生物制药工艺过程,但尚未对知识转移算法进行检查。在不久的将来,将这些相似性指数作为附加特征包含在数据驱动模型的训练中,可能会提高模型在相互关联的过程之间传递知识和区分数据的能力。
原文:M. K. Alavijeh, I. Baker, Y. Y. Lee, et al., Digitally enabled approaches for the scale up of mammalian cell bioreactors, Digital Chemical Engineering 4 (2022) 100040