大家好,提一个可能 stupid 的问题,因为对原始数据的概念和上游处理没有什么经验。
我一个师妹在处理 WES 数据时会做一个 mark duplicates 的过程,去掉重复序列,大体都是 PCR duplicates。我理解这个过程的重要性,但有一个困惑:
上游建立文库是将基因组打断为片段然后收集长度合适的序列,文库里面的序列按照我的理解应该是有不少完全一致的,这种完全一致的序列应该不属于 PCR duplicates 吧,我觉得它应该是跟 DNA 的拷贝数相关。也就是说我认为这种序列是有用的,但这种序列会被 mark duplicates 过程去除吗?相关原理和原因可以解释一下吗?