【建模文章解读】采用液质联用技术鉴定大环内酯类抗生素的杂质以及构建QSRR模型预测杂质的保留时间
导读
为促进制药同行对建模与模拟方法的深入理解,多参考国内外同行建模的思路与流程,深入理解应用案例中建模的要点;凡默谷技术部精心挑选了建模与模拟较有特色的文章进行剖析解读,希望对您有帮助。
解读人:凡默谷陈涛
推荐理由
中国食品药品检定研究院构建大环内酯类抗生素杂质结构-色谱保留关系(QSRR)模型的应用案例。
详细讲述了构建QSRR模型的流程,并基于该流程思路建立起关系良好的三种白霉素类大环内酯类抗生素杂质结构与色谱保留时间的QSRR模型。
借助这些模型,可提前预测新杂质在相应色谱条件下的出峰时间,考察色谱系统的适应性;也可以对已知但未检出杂质的出峰时间进行预测,评估这部分杂质未检出的原因。
该研究拓展了传统定量构效关系(QSAR)模型的应用,也为杂质检测、评估提供一种全新的研究思路。
文献摘要
通过发酵或者半合成生产的大环内酯类抗生素一般都包含有很多成分,且随着生产工艺的变动还经常引入新的杂质。因此,其杂质控制的分析方法需要良好的灵敏度和选择性。通过检索药典以及相关参考文献,本工作分别建立了三种独立、灵敏、准确的LC-MS分析方法,以用于检测交沙霉素、交沙霉素丙酸酯、麦迪霉素以及它们的有关物质;
实际中,由于采用不同的杂质控制分析方法,可能会导致部分已知杂质被漏检;另外,由于生产工艺、合成技术的发展等,也会带来一些新的未知杂质;因此一个良好的分析方法尽量能覆盖对某个药物所有可能的杂质进行评估。在分析方法建立和筛选过程中,如果能提前预测所有杂质的大致出峰位置,以判断所采用的分析方法能否将各种潜在杂质分离开;
案例基于三种大环内酯类抗生素及其有关物质的结构式与对应的优化条件下的色谱保留时间,构建QSRR模型。所构建的模型经内部验证、外部预测评估后,确定了最终具有较高准确性、稳定性的预测模型,该模型可进一步预测对未检测出的已知杂质的色谱保留时间,也可在新杂质结构式确认后用于预测其大致的出峰时间。
1. 研究背景
通过发酵或者半合成生产的大环内酯类抗生素一般都包含有很多成分,且随着生产工艺的变动还经常引入新的杂质。因此,其杂质控制的分析方法需要良好的灵敏度和选择性。通过检索药典以及相关参考文献,本工作分别建立了三种独立、灵敏、准确的LC-MS分析方法,以用于检测交沙霉素、交沙霉素丙酸酯、麦迪霉素以及它们的有关物质;
实际中,由于采用不同的杂质控制分析方法,可能会导致部分已知杂质被漏检;另外,由于生产工艺、合成技术的发展等,也会带来一些新的未知杂质;因此一个良好的分析方法尽量能覆盖对某个药物所有可能的杂质进行评估。在分析方法建立和筛选过程中,如果能提前预测所有杂质的大致出峰位置,以判断所采用的分析方法能否将各种潜在杂质分离开;
案例基于三种大环内酯类抗生素及其有关物质的结构式与对应的优化条件下的色谱保留时间,构建QSRR模型。所构建的模型经内部验证、外部预测评估后,确定了最终具有较高准确性、稳定性的预测模型,该模型可进一步预测对未检测出的已知杂质的色谱保留时间,也可在新杂质结构式确认后用于预测其大致的出峰时间。
2 建模数据与处理
2.1 白霉素相关的16元大环内酯类结构式特点
2.3 数据获取及处理
包含交沙霉素、麦迪霉素、麦白霉素、北里霉素、交沙霉素丙酸酯、麦迪霉素醋酸酯及其杂质在内的24个白霉素相关的16元大环内酯类化合物用于筛选构建QSRR模型;
模型中应用的色谱保留时间是在麦迪霉素醋酸酯优化的色谱系统下检测得到的,并列举在上述表格
采用半经验的MOPAC/AM1方法对所有化合物进行能量最小化处理,确定最稳定的分子结构式,并将所有结构式连同色谱保留时间制作为sdf格式的文件;
建立和验证后的QSRR模型,再进一步建立麦迪霉素醋酸酯最优的色谱条件下交沙霉素以及交沙霉素丙酸酯保留时间与其优化的色谱条件的保留时间的转化关系,用于这两个化合物杂质保留时间的预测;
三种化合物及其杂质在各自优化条件下的保留时间如下表所示:
3 模型结果与分析
3.1 分子描述符的产生与筛选
采用ADMET Predictor软件根据化合物的结构式可自动产生亲脂性、理化性质、拓补参数等200多个分子描述符。所有产生的描述符,进一步依据相关原则去除一些无效的描述符,包括剔除非数性描述、低方差描述、无代表性描述符、筛选高敏感、高相关性描述符、区间线性灵敏度分析等方式,最后筛选得到50个分子描述符用于进一步的QSRR模型搭建。
3.2 训练集和测试集的产生
采用Kohonen self-organizing map的方法并设置minimum test set size为20%,由软件随机分配与产生模型搭建的训练集和测试集。
3.3 建模方法的选择与设置
选择多重线性回归(MLR)的方法进行搭建模型,并设置该模型最小的描述符个数为2个,最大的描述符个数为16,设置输入个数从2-16的每次增长间隔为2:即分别考察选择描述符个数为2、4、6、8、10、12、14、16时对模型相关性的影响。
3.4 模型搭建与结果
设置好上述参数后,即可基于软件自动搭建每种情况下的模型,并将相关结果列举在软件最终显示界面中;可选择不同的评价指标(如R2, RMSE等)对各个模型进行评价,筛选得到最优的模型;经过统计分析后,发现采用8个分子描述符、18个化合物作为训练集、MLR建模方法可以得到最理想的QSRR模型,优化模型用到的分子描述如下:
3.5 结果验证与预测能力检测
采用R2, RMSE等统计学分别对训练集和测试集的预测误差进行内部验证,其相关结果显示如下。结果提示,建立的QSRR模型具有良好的准确性:
模型还进一步采用留一法较差验证的方法进行了外部验证,以考察模型预测的能力。相关的统计学参数(如Q2, RMSE-CV等)列举如下。结果显示,建模的模型同样具有较好的外部预测能力:
4 模型应用
4.1 建立加沙霉素色谱保留时间的预测关系
基于上述麦迪霉素醋酸酯色谱系统中构建的QSRR模型,建立了加沙霉素最优色谱条件下的保留时间预测的公式,以用于加沙霉素及其杂质在其最优色谱条件下保留时间的预测。转化关系如下:
y = 2.29x + 12.71 (x是在麦迪霉素醋酸酯色谱系统的保留时间),其中r2为0.97, SD值为3.79, n = 10。
4.2 建立加沙霉素丙酸酯色谱保留时间的预测关系
基于上述麦迪霉素醋酸酯色谱系统中构建的QSRR模型,建立了加沙霉素丙酸酯最优色谱条件下的保留时间预测的公式,以用于加沙霉素丙酸酯及其杂质在其最优色谱条件下保留时间的预测。转化关系如下:
y = 1.15x − 3.81 (x是在麦迪霉素醋酸酯色谱系统的保留时间),其中r2为0.99, SD值为0.27, n = 11。
4.3 预测加沙霉素及加沙霉素丙酸酯未检出的已知杂质保留时间
基于建立的良好QSRR模型以及相应的转化关系公式,预测在优化的色谱条件,未检出的相关已知杂质的色谱保留时间,结果如下:
根据各个杂质的保留时间,可推测这些杂质可能不存在本次检测的样品中,或者其含量低于检测限;同时也应该密切关注可能出现在这些已知杂质保留时间附近的新杂质。
5 模型讨论
本工作建立和优化三种独立的、敏感的色谱分析方法,以用于检测加沙霉素、交沙霉素丙酸酯和麦迪霉素醋酸酯及其有关物质,并进一步根据化合物的结构式与色谱保留时间,构建了准确度高、有预测能力的QSRR模型。
该模型可进一步用于预测色谱系统未检出的已知杂质的保留时间;也可用于预测生产过程、合成工艺变动引入的新杂质的保留时间。以评价目前品种的分析方法对质控容量的潜力,评估当前系统能否对杂质实现有效控制,在分析检测之前筛选出合理的分析标准进行质控研究。
6 应用软件与模块
该案例应用的软件是ADMET Predictor (version 7.2),涉及模块为Modeler module。
参考文献
Xia Zhang, et al., Identification of impurities in macrolides by liquid chromatography-mass spectrometric detection and prediction of retention times of impurities by constructing quantitative structure-retention relationship (QSRR). J Pharm Biomed Anal. 2017 Oct 25; 145:262-272. IF: 3.255
延伸阅读文献
王晨等,头孢地尼有关物质定量结构−色谱保留模型的建立. 药学学报,2015, 50 (9): 1161−1166