人工智能驱动的重组人源化胶原蛋白设计
花晨
山西锦波生物医药股份有限公司 山西太原 030000
引言
随着生物医学工程与材料科学的交叉融合,重组人源化胶原蛋白因其优异的生物相容性、可降解性及低免疫原性,已成为植入类医疗器械(如人工皮肤、骨修复支架、血管移植物等)的核心材料之一[1-3]。然而,传统胶原蛋白设计依赖实验试错法,面临结构稳定性不足、功能可编程性有限、规模化生产困难等瓶颈[4,5]。近年来,人工智能(Artificial Intelligence,AI)技术的突破为该领域注入了革新性动力,推动胶原蛋白设计从“经验驱动”向“数据驱动”的范式转变[6]。
AI 的核心优势在于 过整合基因组学、蛋白质结构数据库及体外实验数据,深度学习算法(如卷积神经网络、 象的关联规律,从而设计出具备特定力学强度、降解速率或细 ve Adversarial Networks, GAN)的序列生成模型能够高效探索庞大的序 优候选分 子动力学模拟与强化学习的结合,则可优化胶原蛋白的折叠稳定性,减少实验验证周期[8]。此外, I 驱动的多目标优化框架能够协同平衡材料的生物活性、机械性能与免疫兼容性,为复杂临床需求提供定制化解决措施。
当前,AI 赋能的胶原蛋白设计已在多个领域展现潜力 :从蛋白酶的优化,到蛋白结构预测,AI 正逐步打破传统材料的性能边界[9]。但是,该领域仍面临数据质 预测偏差等挑战。未来,随着合成生物学与AI 技术的深度融合,以及高精度实验验证平台的完善,重组人源化胶原蛋白的智能化设计有望加速实现临床转化,为个性化精准医疗开辟新路径[10]。
1 材料与方法
1.1 ProGen 功能序列生成
从 PDB、AlphaFold DB 提取高置信度(pLDDT≥90)胶原蛋白结构,解析其(Gly-X-Y)n 重复。功能注释库:整合 UniProt/Swiss-Prot 中经实验验证的功能标签(细胞粘附、生长因子结合等)。条件生成模块,24 层 Transformer 编码器,头数=16,隐藏层=1024。输入:融合三维语义的序列嵌入(长度≤512),通过交叉注意力机制整合功能标签。正向过程:1000 步高斯噪声注入,方差调度采用余弦规则。反向过程:U-Net 结构预测噪声,残差块中嵌入 ESM-2 预训练权重。
1.2 基于 AlphaFold3 的蛋白结构预测
一是数据准备。从ProGen 生成的功能序列进行结构模拟。二是评估指标。除常规全局RMSD 和局部pLDDT 外,新定义三螺旋结构质量系数,其中氢键精度通过比对实验解析的 H-bond 网络计算,螺旋扭曲度采用圆二色谱验证数据校准。测试集包含 215 个独立样本,覆盖 I/II/III 型胶原蛋白及其重组变异体,确保评估结果的生物学代表性。
1.3 湿实验验证流程
基因序列设计:基于生成的候选胶原蛋白序列,采用 GeneDesigner 3.0 软件进行密码子优化。宿主选择:适配大肠杆菌BL21(DE3)的密码子,排除限制性酶切位点(EcoRI, HindIII, BamHI 等),插入 Kozak 序列(GCCACC)增强核糖体结合效率,添加 6×His 标签及 HRV 3C 蛋白酶切割位点(LEVLFQGP),最终序列通过在线平台验证 GC 含量(45-55%)及mRNA 二级结构(ΔG≥-15 kcal/mol)。基因合成由华大基因完成、载体选择:pET-28a(+)表达载体,NcoI/XhoI 双酶切处理。阳性克隆筛选:抗性平板(50μg/mL)培养 16h,随机挑取 30 个克隆进行Sanger 测序验证,测序验证。
1.4 蛋白表达纯化
工程菌构建:将含 6×His 标签的合成基因通过热激法转入大肠杆菌 BL21(DE3),利用含卡那霉素(50μg/mL)的 LB固体培养基筛选阳性克隆。种子液培养:挑取单菌落接种于 5 mL LB 液体培养基(含 Kan 50μg/mL),37℃、220rpm 振荡培养 12h 至 OD60 1=∞3.0, 。高密度发酵:采用3L 摇瓶(装液量1L,高密度培养基),控制培养参数:温度 37℃、溶氧≥30%、pH 7.0(通过自动补加 25%氨水调节)。当 OD600 达到15 时,加入0.5 mM IPTG 诱导表达,并将温度降至 18℃,持续诱导20 h。菌体裂解与粗纯:菌体收集:4℃、 8000×g 离心15 min 收集菌体,湿菌体得率约 40 g/L 培养液。超声破碎:裂解缓冲液:20 mM Tris-HCl (pH 8.0) )、500 mM NaCl、10 mM 咪唑、1 mM PMSF。菌体与缓冲液按 1:5(w/v)混合,冰浴超声破碎(振幅70%,5 s 脉冲/10 s 间隔,总时长 30 min)。离心澄清:4℃、12000×g 离心45 min,收集上清液用于后续纯化。Ni-NTA亲和层析:使用 HisTrap HP 5 mL 预装柱(Cytiva),以 5 倍柱体积结合缓冲液(20 mM Tris-HCl pH 8.0、500 mM NaCl、10 mM 咪唑)平衡层析柱。上样流速 2 mL/min,动态结合载量优化至 35 mg/mL 树脂。洗脱缓冲液:20mM Tris-HCl(pH 8.0)、500 mM NaCl、500 mM 咪唑。采用 0-100%线性梯度洗脱(10 CV),通过 AKTA Pure 系统监测A280 吸收峰,收集咪唑浓度≥250 mM 的洗脱组分。酶切反应:向洗脱液中加入 HRV 3C 蛋白酶(酶与底物质量比 1:50),4℃透析至低盐缓冲液(20 mM Tris-HCl pH 7.4、50 mM NaCl),反应 16 h。将酶切后样品重新上样至 Ni-NTA 柱,未结合的靶蛋白直接流穿,His 标签片段与蛋白酶保留于柱内。分子筛层析:采用 Superdex 200 Increase 10/300 GL 层析柱(Cytiva),以PBS(pH 7.4)为流动相,流速0.5 mL/min,收集分子量约300 kDa 的主峰(对应三聚体形式)。超滤浓缩:使用30 kDa 切向流超滤系统(Millipore)浓缩至终浓度 20 mg/mL。
2 研究结果
2.1 AI 驱动的高效胶原蛋白设计体系
基于改进的 AlphaFold 架构,构建了针对胶原蛋白的三螺旋结构预测模型。实验表明:预测胶原蛋白结构模型的全局 MolProbity 评分均值为 0.75,这一数据表明该预测模型在三维结构合理性方面达到了较高可信度,其中关键参数见表 1。
表 1 MolProbity

作为蛋白质结构质量评估的金 n 异常值占比)、原子碰撞(clashscore)和氢键网络合理 .75 的评分意味着模型在甘氨酸重复单元 胶原蛋白特有的周期性甘氨酸重复可能导致局部氢键网络 算法较好地平衡了序列保守性与构象可变性的关系。 该评分为后续 整合素受体的相互作用时,精准的侧链排布将显著提升结合能计算的准确性
蛋白质结构的 QMEAN4(Qualitative Model Ener y Analysis)评分在 0 1 范围内波动,反映了模型与实验结构的致性程度(见图1)。QMEAN4 通过整合局部几何特 积分布)、结构拓扑(二级结构匹配度)和统计势能(基于已知结构库的 项目案例中模型的 QMEAN4分值在 0.7 以上则表明模型整体拓扑合理 有重复结构域的蛋 该评分需结合其特有的三螺旋参数进行专项验证。另外,QMEA 形成互补: 前者侧重结构能量优化, 后者关注立体化学合理性,两者均高于基准值 QMEAN4>0.7 且 MolProbity<1,模型可信度较高。

对核心重复单元(Gly-X-Y)n 进行拉氏图统 见图 于最适区( ϕ/Ψ 角偏差<10°),1.5%残基分布于边缘允许区(主要位于 N 端柔性区域) 1.7±0.9% ),显著优于胶原蛋白家族同源结构的平均水平(PDB 数据库统 94.2±3.5% 现空间特异性,1.5%的边缘允许区残基主要富集于 N 端非结构化区域,该区域 由度[13]。值得注意的是,异常区残基占比仅为 0.2% ,较同源结构降低近一 个数量级 胶原蛋白模型在维持三螺旋超分子组装所需构象刚性方面的优越性。
通过分子动力学模拟与机器学习算法 级结构的胶原蛋白模型。见图3,经模型序列筛选出的蛋白质三维结构清晰呈现 据高度吻合。这些实验证据共同表明,基于人工智能的逆向设计策略可有效突 生物材料开发提供了新的技术路径;特别是在组织工程等领域,此方法可实现胶原定制化设计,这对仿生细胞外基质的设计具有重要指导意义。

2.2 工程菌高效表达体系构建

针对筛选获得的38 条功能序列,通过密码子优化与表达系统重构建立高效表达体系。采用 GeneDesigner 3.0 对目标序列进行宿主适配性改造,将大肠杆菌偏好密码子替换率提升至 92%(CAI 指数≥0.89),并消除 mRNA 二级结构,最终构建含T7/lacO 表达元件及稀有密码子调控区的 pET-32a(+)衍生载体。通过实验系统优化表达条件,在2YT 培养基体系中确定最适参数为:IPTG 浓度0.5 mM、诱导温度20℃、诱导时长 20 h,该条件下目标蛋白可溶性比例达 78.6%,包涵体形成率降至9.3%,表达量提升。经Ni 柱纯化后,SDS-PAGE 显示产物纯度≥98%,其中24 条序列 22 条顺利表达 (91.6% )可溶性表达(见图4),纯化蛋白细胞粘附活性与天然胶原无统计学差异 (p=0.24) 该体系创新性在于揭示低温诱导-延长时长的协同效应三聚体折叠率提升 3.6 倍,为重组胶原蛋白规模化生产提供关键技术支撑。

2.3 重组胶原蛋白的细胞粘附活性验证
通过Ni-NTA 亲和层析结合分子筛精纯,从 38 个候选蛋白中筛选出 8 个稳定性优异的重组人源化胶原蛋白(热变性温度Tm≥48℃,加速稳定性试验中 4℃储存2 物学功能,采用 CCK-8 法系统检测候选蛋白对人成纤维细胞(HFF-1)的粘附促进作用 实验设置 对照: (Sigma,500 μg/mL)、及 PBS(阴性对照)。将96 孔板预包被相同浓度(500 μg/mL)候选蛋白后, 接 s× 细胞/孔,于 37℃、5% CO₂条件下培养 24 h,测定450 nm 吸光度值并计算细胞粘附率。结果表明(见图5),8 个 候选蛋白在500μg/mL 浓度时,细胞粘附率均与天然胶原蛋白组无统计学差异 (p>0.05) 。

3 结语
AI 技术为重组人源化胶原蛋白 药 传统依赖实验试错的蛋白质工程策略,基于深度学习的序列预测模型能够从海 潜在关联规律。研究表明,扩散模型来学习不同类型人胶原蛋白的特征 值得关注的是,生成对抗网络(GAN)在序列空间探索中展现出独特优势, 外表达 验 性位点的保留为突破动物胶原蛋白免疫原性限制提供了有效路径[15]。然而,当 模型对长序列和氨基酸修饰的预测能力仍存在局限,特别是在羟脯氨酸等翻译后修饰位点的识别精度方面,仍需结合实验数据迭代优化。
在植入类医疗器械领域,AI 驱动的重组人源化胶原蛋白 品开发的全链条创新[16]。在皮肤修复领域,基于强化学习的拓扑优化模型指导构建的 3D 打印支架, 胞外基质高度仿生的力学传导特性[17]。但需注意这些成果仍面临的临床转化挑战,美国 FDA 于 能医疗器械软件审评指南》明确要求,所有涉及 AI 算法的医疗器械必须提供完整的可追溯性验证数据,这对模型训练数据的生物伦理合规性提出了更高要求。
面向未来,AI 与合成生物学的深度融合将推动重组人源化胶原蛋白技术进入新的发展阶段。更值得期待的是,基于物理信息神经网络(PINN)开发的多物理场耦合仿真平台,可实现从分子自组装到宏观材料性能的跨尺度预测,这将大幅缩短新型植入器械的研发周期。但技术突破往往伴生新的科学问题,特别是在蛋白设计技术与 AI 联动的场景下,如何建立符合ISO 10993 标准的生物安全性评估体系,仍需“产、学、研、医”多方协同攻关。总体而言,AI 正在重塑生物材料创新的范式,其在医疗器械领域的深度应用仍待深入开发。本文通过整合深度生成模型与分子动力学模拟技术,成功构建具有天然构象特征的重组人源化胶原蛋白理性设计平台。实验结果表明,基于 AI 的蛋白设计方法能够有效捕捉胶原蛋白三螺旋结构,加快重组人源化胶原蛋白的设计,为新型植入类医疗器械原材料提供定制化方案。
参考文献:
[1]乔绍俊, 裴育, 兰小宾. 新型生物医用材料A 型重组Ⅲ型人源化胶原蛋白[J]. 新兴科学和技术趋势, 2024,3(01):9-17.
[2]何杜鹃, 马旭, 刘盛, 等. 重组人源化胶原蛋白促进创面修复研究及其医用敷料应用[J]. 生物化工, 2023,9(04):46-51.
[3]王艺纯, 徐荣荣, 王啸尘, 等. 重组人源化胶原蛋白与护肤原料[J]. 山东化工, 2024,53(12):92-96.
[4]么林妍. 胶原蛋白仿生多肽的设计与性质研究[D]. 兰州大学, 2021.
[5]王苗. 胶原样多肽缀合物的设计与组装[D]. 江南大学, 2020.
[6]王锴, 栾小丽, 周景文. 多学科交叉背景下人工智能融入“合成生物学”课程教学的设计与实践[J]. 生物工程学报, 2024,40(09):3282-3295.
[7]黄雨婕. 利用分子动力学模拟方法研究类胶原多肽的折叠和稳定性[D]. 江南大学, 202
[8]孙添添. 链间盐桥相互作用对胶原热稳定性的影响[D]. 江南大学, 2021.
[9]王占奎. 鹰嘴豆贮藏蛋白类α-淀粉酶抑制剂CL-AI 酶学特性及其表达调控的分子机制[D]. 南京农业大学, 2015.
[10]胡新宁, 罗琳琳, 张欣欣, 等. 机器学习在 HIV 合并恶性肿瘤生物标志物挖掘中的应用[J]. 中国皮肤性病学杂志:1-1.
[11]Williams C J, Headd J J, Moriarty N W, et al. MolProbity: More and better reference data for improved all-ato structure validation[J]. Protein Sci, 2018,27(1):293-315.
[13]Park S W, Lee B H, Song S H, et al. Revisiting the Ramachandran plot based on statistical analysis of static and dynamic characteristics of protein structures[J]. J Struct Biol, 2023,215(1):107939.
[14]Wang X, Xu K, Ma L, et al. Diffusion model assisted designing self-assembling collagen mimetic peptides as bioc ompatible materials[J]. Brief Bioinform, 2024,26(1).
[15]Park H, Li B, Liu Y, et al. Collagen fiber centerline tracking in fibrotic tissue via deep neural networks with var ational autoencoder-based synthetic training data generation[J]. Med Image Anal, 2023,90:102961.
[16]赵一飞, 赵燕, 刘斌, 等. 无源植入类医疗器械上市后安全性评价专家共识[J]. 中国医学装备, 2024,21(04):1-6.
[17]Kim D, Kim G. Bioprinted hASC-laden cell constructs with mechanically stable and cell alignment cue for tenoge nic differentiation[J]. Biofabrication, 2023,15(4).
作者简介:花晨,男,汉族,1991.02-,江苏徐州人,博士研究生,研究方向:医疗器械研发