混合DNA图谱的解卷积:从二元假设到概率基因分型
当DNA图谱包含多个声音
强奸案件中的精液-阴道分泌物混合样本、多人参与的暴力案件中混合血迹——混合DNA图谱是法医DNA实验室的日常挑战。核心问题是在多个贡献者的STR峰信号叠加中分辨出每个人的独立基因型。与单一来源样本相比,混合图谱增加了一整套额外的变量:贡献者数量未知、比例未知、stutter产物和真实等位基因峰难以区分、低模板DNA导致的随机丢失(drop-out)和随机出现(drop-in)。

混合图谱解卷积的三种方法
二元假设法:CPI与CPE策略
第一种是二元假设法(CPI/CPE法)——只判断某个已知个体的DNA图谱是否包含在混合图谱中。CPI(Combined Probability of Inclusion,组合包含概率)计算随机个体包含在混合图谱中的概率,CPE(Combined Probability of Exclusion,组合排除概率)计算随机个体被排除的概率。这种方法回避了对未知贡献者基因型进行完整推导的难题,只需要判断一个假设的基因型能否解释观察到的峰信号。其弱点是当已知个体数量增加时,随机包含概率迅速升高(特别是混合贡献者超过3人时,CPI可能高达0.1甚至更高),结论的解释力随之下降。另一个局限是CPI/CPE无法评估主要和次要贡献者的不同概率权重——一个以95%的DNA量提供STR信号的贡献者和一个以5%提供信号的贡献者,在CPI框架下被视为同等可能。
确定性解卷积:理想条件下的逐人分离
第二种是确定性解卷积法——在主要贡献者和次要贡献者的峰信号比例差异足够大(通常大于4:1)时,可以分别提取两个人的基因型。方法是从总峰信号中减去已知的主贡献者信号,剩余峰信号即为次要贡献者的图谱。这种方法只适用于贡献者数量少(通常2人)、比例差异大的少数理想场景。一旦贡献者超过3人或比例接近(如2:1甚至更低),确定性解卷积就变得高度不可靠——此时stutter峰和真实等位峰的高度相似,无法确定一个峰属于哪个贡献者。
概率基因分型:贝叶斯方法的认识论革命
第三种是概率基因分型法——使用马尔可夫链蒙特卡洛(MCMC)等贝叶斯统计方法,同时考虑峰高、降解曲线、stutter比例、drop-out概率和drop-in率等多种变量,通过海量迭代计算生成每个可能基因型组合的似然比。STRmix、EuroForMix、DNAStatistX等软件代表了这一前沿方向。概率基因分型不输出确定的基因型,而是输出给定混合图谱下,该基因型组合相对于其他所有可能组合的似然比——这是一个从确定性思维到概率推理的根本性认识论转变。
混合图谱的特殊挑战
Stutter:复制过程中的内含噪声
Stutter是PCR扩增过程中DNA聚合酶滑移产生的假峰,位于真实等位峰上游一个重复单位的位置(n-1),峰高通常为真实峰的5%-15%。在单一来源样本中,stutter峰因位置可预测且高度较低而容易识别。但在混合图谱中,一个贡献者的stutter峰可能与另一个贡献者的真实等位峰完全重叠——此时仅凭峰高和位置无法区分,必须依赖概率模型。更复杂的是,某些STR位点(如D21S11)的stutter比例异常高(可达20%-30%),在混合图谱中处理不当会系统性地引入假等位基因。
Drop-out与低模板DNA
当DNA模板量低于100pg时,等位基因随机丢失(drop-out)成为主要风险——PCR反应管中某等位基因的拷贝数接近或低于泊松分布的临界值,可能导致该等位基因完全不被扩增。这在混合图谱中尤为危险:主贡献者的STR峰信号完整清晰,而微量贡献者(如触摸DNA转移)的等位基因可能因drop-out而缺失,导致假排除。概率基因分型通过将drop-out概率作为模型参数来处理这一问题——对每个位点的每个可能基因型赋予一个drop-out概率,而非简单地当作不存在。
似然比报告:从匹配到支持
在概率基因分型框架下,结论表述发生了根本变化。不再是检材DNA来自嫌疑人或排除嫌疑人,而是检材DNA图谱支持来自嫌疑人假设的程度是来自随机个体的X倍。这个X(似然比,LR)的数量级决定了证据的证明力度:LR大于100万是非常强的支持,LR为1000-100万为强的支持,LR为100-1000为中等支持,LR小于100为弱支持。法庭应当理解:似然比证据不回答嫌疑人是否在混合样本中这个问题,它只回答DNA证据更支持哪种假设。这种概率化表述避免了DNA证据的过度解读,同时为法庭保留了在综合案情后作出整体判断的空间。




