基于N-gram和Transformer的DGA恶意域名检测 |
| |
引用本文: | 杨成,芦天亮,闫尚义,张建岭.基于N-gram和Transformer的DGA恶意域名检测[J].中国人民公安大学学报(自然科学版),2022(3):100-108. |
| |
作者姓名: | 杨成 芦天亮 闫尚义 张建岭 |
| |
作者单位: | 中国人民公安大学信息网络安全学院 |
| |
基金项目: | 国家重点研发计划(2020AAA0107700); |
| |
摘 要: | 针对使用域名生成算法(DGA)产生的恶意域名隐蔽性强,传统机器学习检测算法提取特征复杂等问题,提出了基于N-gram和Transformer的恶意域名检测方法。对域名数据添加首尾标志位,使用N-gram算法分割成词组元素后转换为向量输入Transformer模型。该模型能够有效的提取域名的字母组合特征,并且捕捉到域名中字母的位置信息,如域名中的首部和尾部字符、字母间的位置关系等特征,从而更准确的识别恶意域名。实验中使用Alexa的合法域名和360安全实验室采集的恶意域名作为数据样本,使用N-gram算法处理二级域名字符串,并与基于机器学习和深度学习的分类算法进行对比,实验结果表明该算法对DGA域名检测准确率达96.04%,能够有效、准确地识别出恶意域名。
|
关 键 词: | 恶意域名 DGA N-gram Transformer模型 word-hashing |
|
|