法医DNA数据库的比对逻辑:从CODIS到中国国家库
法医DNA数据库的核心价值不在于存储量,而在于比对算法能否在百万-千万级数据中最高效地召回匹配。从美国CODIS的20个核心STR位点到中国DNA国家库的20-24个位点体系,比对逻辑的演进直接决定了串并案效率。
CODIS比对逻辑
美国CODIS系统三级架构:本地库(LDIS)→州库(SDIS)→国家库(NDIS)。比对规则:法证索引-法证索引(FF)比对串并案;法证索引-罪犯索引(FC)比对找人。要求完全匹配13个CODIS核心位点以上才报告命中。2017年新增7个位点至高20核心位点,以减少随机匹配概率——从10⁻¹⁵降至10⁻²⁴量级。
中国DNA国家库架构
中国采用"库-档-物"三级数据结构。前科人员库(男犯标准化20+个常染色体STR+Y-STR)、现场物证库(20-24个常染色体位点)、失踪人员库(20个常染色体+性别标记+线粒体DNA高变区)。中国库在比对逻辑上增加Y-STR家系比对和线粒体母系比对两个维度的辅助搜索。
核心比对参数
| 参数 | CODIS | 中国库 |
|---|---|---|
| 核心位点数 | 20(2017后) | 20-24 |
| 最小匹配位点 | 13/20 | 16/24 |
| 匹配模式 | 低严格+中严格+高严格 | 完全匹配+容错1-2位点 |
| 辅助搜索 | 无 | Y-STR家系+线粒体母系 |
检索效率瓶颈
千万级人像库的容错比对(允许1-2个位点丢失/插入突变)计算复杂度为O(n²),当前优化路径:索引预过滤 + 分层比对 + 模块化并行计算。全国数据省际实时比对仍是技术难点。
参考文献
- Hares DR. Selection and implementation of expanded CODIS core loci in the United States. Forensic Sci Int Genet. 2015;17:33-34. DOI: 10.1016/j.fsigen.2015.03.003
- 葛建业, 严江伟. 中国DNA数据库的现状与发展. 法医学杂志. 2017;33(2):121-125.
关键词:
DNA数据库,CODIS,中国国家库,STR,比对逻辑,串并案,Y-STR,容错比对




