混合建模在基于数字孪生的实验设计中的应用
生物过程的动力学和相关的机械复杂性不包括在传统的统计实验设计 (DoE) 技术中,这些技术可以帮助研究人员找到生物过程的最佳条件。这些方法通常用于研究过程参数之间的相互作用,并确定每个参数对目标响应变量的影响的显著性,例如滴定度和产量,特别是在合格的规模缩小模型中,以量化跨规模的关键工艺参数的设定点和允许范围。
近年来,以模拟给定生物过程为目的的数字孪生,即实际系统的数字虚拟复制,引起了GSK、Atos和Siemens等公司的极大关注。此外,数字孪生联盟于 2019 年成立,以推进数字孪生技术的学术研究以及工业应用,并扩大数字孪生的概念验证和试点计划。
一种新的、有前途的方法涉及将基于知识的机械信息从数字孪生模型转移到 DoE 方法以缩小实验边界空间,从而显著减少实验成本和生物反应器优化时间。在模型辅助 DoE 计划的背景下,实验室实验被数字孪生模型取代,以根据 DoE 策略预测响应。然后筛选模拟结果,以确定新的实验空间,然后选择新实验的性能。重复此过程,直到适当地确定最佳条件。具有 Monod 类型相关性的质量平衡可用作生物反应器(即数字孪生)的表示。作为一个典型的例子,Möller 等人 (2019) 使用 DoE 方法为生物量、葡萄糖、谷氨酰胺、乳酸、氨和单克隆抗体集成动态质量平衡方程。这种基于模型的 DoE 策略用于优化中国仓鼠卵巢细胞在批次和补料分批生物反应器中的抗体生产。在这项研究中,初始边界空间被选择为三个可变因素,包括葡萄糖、谷氨酰胺和补液速率,以设计基于行列式或 D 最优和综合或 I 最优 DoE 技术的实验。与正交经典响应面方法不同,变量效应在这些优化设计中是相关的。D 最优和 I 最优设计分别最小化参数协方差和平均预测方差的决定因素。由于测量了多个响应,包括活细胞密度、抗体、乳酸和氨浓度,因此根据用户定义的可接受响应下限和上限创建了合意性函数,以将多维优化问题标准化为一个合意性功能。尽管模拟和实验设计在最佳补液速率以及补液中的葡萄糖和谷氨酰胺浓度方面对最佳条件给出了相同的建议,但模拟的用户定义合意性函数与实验确定的用户定义合意性函数存在偏差。这种不一致归因于与机械模型相关的不确定性,因为只有四个实验用于参数估计,因此该模型无法反映过程变量的整个范围。然而,这个例子说明了将机械洞察力应用到 DoE 实验中的潜力。
图7. 一种用于开发规模缩小模型过程表征的、基于数字孪生的实验设计 (DoE) 混合建模方法的示意图。
混合模型也可以纳入 DoE 实验中,它们可以在生物反应器数字孪生模型中提供更准确的参数预测。图 7 显示了基于模型的 DoE 与混合模型集成的示例。根据此工作流程,初始实验集(图 7 I)首先在计算机中用于训练混合模型和优化人工神经网络架构(图 7 II)。然后,根据关键过程参数 (CPP) 的给定设计空间,将开发的混合模型用于响应变量(例如,时空产量和生物量浓度)的动态评估。在下一步中,使用过程模拟对结果进行全面评估,以确定最佳 CPP 组合,给出最佳目标响应值(图 7 III)。假设最佳 CPP 推荐已经包含在实验集中,然后通过与实验数据的比较来确定最佳条件(图 7 IV);否则,将从推荐的 CPP 获得的新实验数据添加到训练数据集(图 7 I),并重新训练混合模型(图 7 II),重复优化循环,直到获得实验和模拟之间的最佳一致性并且没有生成新的 CPP 推荐(图 7 V)。
用于规模放大的混合建模
前文所述的研究描述了混合方法在生物反应器建模、控制和优化以及规模缩小模型中的过程表征方面的潜力。为生物反应器规模放大目的进一步开发和应用这些新兴模型是一个具有重要意义的新课题,因为为小型生物反应器开发的纯机械动力学模型不一定能够描述生产规模的状态变量。相比之下,混合模型的更高灵活性可能允许进行包括与规模相关的特征的调整。为此,可以使用小规模和大规模的测量来训练模型。此外,混合模型的数据驱动部分可以配置为表示特定规模的变量。更重要的是,考虑到根据部分已知或未知的规则,参数范围可能会在不同规模上发生显著差异,因此包含数据驱动模型可以提供一个补充组件,其中黑盒方法可以促进生物反应器的规模放大。使用基于数字孪生的 DoE 方法构建具有代表性的规模缩小模型将提供有关关键过程参数和响应变量之间交互关系的有见地的信息,从而加速优化和表征研究。
在最近的一项研究中,开发了一系列混合模型结构来预测 300 mL 摇瓶和 15 L 实验室规模生物反应器中的活细胞浓度和产物滴度。人工神经网络被用作数据驱动组件来估计该模型中的特异性增长率和产品形成率。为了测试用于预测 15 L 生物反应器中细胞浓度和产物滴度的摇瓶混合模型性能的可转移性,作者在摇瓶 DoE 数据上训练了该模型。该数据集还包括三个 15 L 生物反应器实验,以捕获摇瓶和生物反应器之间的特定比例差异,特别是 15 L 生物反应器实验数据被用作设计中心点三次重复。总体而言,结果表明该模型可以转移到预测来自 15 L 生物反应器的新过程数据。活细胞浓度的归一化均方根误差 (10.92%) 较低,而滴度误差较高 (17.19%)。这种误差差异归因于在 15 L 规模下获得的一些更高的滴度值,这些值在训练数据中不存在。尽管这项研究展示了混合建模概念示例的极好证明,但仍需要进一步研究来检验这种方法在生产规模生物反应器中的潜力,其中,细胞代谢与较小体积的生物反应器(如摇瓶或实验室生物反应器)的差异更大。
总结和未来展望
生物反应器内生化过程的复杂性要求研究人员从基于经验法则和反复试验的工艺开发转向更系统的数字化框架。这篇综述概述了基于数字化的创新战略,如果认真实施,这些战略将使生物制药行业更有效地向大规模细胞培养系统发展。
此处回顾了生物工艺放大的三种方法,包括知识驱动、数据驱动或混合方法,每种方法各有优缺点。尽管它们在历史上被广泛使用,但传统方法是高度特定于过程的。相比之下,数字工具可以潜在地跨规模分析生物反应器的性能,特别是在几何形状不同的反应器方面,允许不同细胞系和产品之间的知识转移,实现可比性和合并的定量评估,将工程设计参数和过程变量转化为过程模型,尽管迄今为止几乎没有实际例子。
基于知识的研究将是该领域进一步发展的关键。一系列数学公式已经可用于描述生物药物生物合成中涉及的基本机械步骤,提供对生物过程的更全面的理解。这种机制模型包含许多未知参数,这些参数通常代表生理特征和参数估计,通过合适的全局拟合方法以及随后使用统计推断工具测量不确定性,在模型准确性中起着重要作用。虽然这些模型已应用于分析跨规模的过程动力学,但仍需要更高级的模型来整合生物反应器设计参数的影响,这些参数对细胞代谢行为的影响因规模而异。要构建这些模型,需要对细胞行为与规模相关因素之间的关系进行深入的数学理解。这种方法将生成具有更多未知参数的高度非线性模型,其中参数之间的联系并不为人所知或在数学上不相关。因此,为这些参数的可靠估计提供足够的实验数据可能是一个进一步的挑战。
研究已经提出了几种可以帮助开发生物工艺的数据驱动工具。引入多变量数据分析作为比较不同规模的生物反应器过程变量和检测任何偏离控制集的批次数据的强大技术。机器学习算法被描述为对生物系统的非线性特性进行建模;鉴于规模依赖和非依赖性特征与生物反应器中结果变量之间复杂的相互关联,这些工具具有广泛使用的巨大潜力。尽管如此,当预测变量的数量显著增加时,这些模型更有可能失败,这表明可解释性和特征提取技术对于识别最具影响力的预测变量和减少必须考虑的参数数量的重要性。我们还将迁移学习确定为一种有效利用从不同过程中获得的数据的策略,例如各种细胞系或抗体产品,用于针对新工艺过程训练机器学习模型,特别是在数据不足可能成为问题的大规模工艺过程中。
本文中提供的示例显示了数字工具在生物生产的不同领域(包括哺乳动物和微生物系统)的潜在应用。此类示例包括 CHO 细胞生产单克隆抗体、微生物发酵和大肠杆菌生产蛋白质或微藻细胞生产有机化合物。细胞农业是另一种可能受益于数字生物生产进步的新兴技术,因为实现细胞农业的可放大工艺将是一项艰巨的任务,其中细胞增殖和分化过程需要保持规模。例如,生产 1 kg 肌肉细胞蛋白质需要大约 8 ×10^12 个细胞的细胞扩增。使用传统的搅拌式生物反应器获得如此高的细胞数量需要 5,000 L 的规模。因此,在如此大的体积下为组织工程和间充质干细胞建立实用的细胞扩增方法是一项巨大的挑战。因此,随着 2019 年 Cultivated Meat Modeling Consortium (人造肉模型联合会) 的成立,基于计算机的细胞农业生物反应器建模和分析的开发正受到相关行业机构的关注,这些基于计算机的方法可用于协助解决来自从细胞系筛选到生物反应器优化的问题。
要释放基于计算机的生物生产的全部潜力并从开发的早期阶段取得进展,需要克服广泛的挑战。最初的努力可能既费钱又费时,但鉴于数字化转型提供的更快价值实现时间、改进的生产以及降低的风险,预计从长远来看将获得显著的成本节约和竞争优势。尽管如此,鉴于全球对生物制药产品的需求快速增长,我们相信未来五年将进行重要的全球研究,以解决当前通过数字化转型放大生物反应器的挑战,从而提高工艺生产率和质量。为此,将科学和工程方面的知识与计算和数据科学技术相结合的合作研究将极大地促进数字化生物生产的加速。
原文:M. K. Alavijeh, I. Baker, Y. Y. Lee, et al., Digitally enabled approaches for the scale up of mammalian cell bioreactors, Digital Chemical Engineering 4 (2022) 100040