摘 要: | 基因识别问题首要的工作是对数字化后的基因序列利用离散傅里叶变换(DFT)进行频谱分析.对于很长的DNA序列,功率谱或信噪比计算量很大,推导出了DNA序列在Voss映射、Z-curve映射和实数映射下的信噪比快速算法,以及在Voss映射与Z-curve映射下的信噪比的关系.针对阈值确定的问题提出了基于滑动窗口的局部阈值的算法,在分类时达到了很好的效果.另外,实现了基于移动序列信噪比曲线的基因识别方法.最后,由于DNA序列的3-周期性实际上反映了核苷酸在基因序列的三个子序列上分布的"非均衡性",因此引入"方差均值"特征来衡量该非均衡性,提出了基于方差均值的单因素基因识别方法及以信噪比和方差均值作为特征向量,并设计多项式分类器的基因识别算法.
|