首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于k-means算法的DNS查询模式分析
引用本文:季成,李晓东,袁坚,尉迟学彪,山秀明.基于k-means算法的DNS查询模式分析[J].清华大学学报(自然科学版),2010(4).
作者姓名:季成  李晓东  袁坚  尉迟学彪  山秀明
作者单位:清华大学电子工程系;复杂工程系统实验室;中国科学院计算机网络信息中心;中国互联网络信息中心;中国科学院研究生院;
基金项目:中国科学院知识创新工程青年人才领域资助项目(O714011601); 国家自然科学基金资助项目(60772053,60674048,60672142)
摘    要:为了研究互联网用户对网站的访问模式,借助中国互联网络信息中心负责管理的国家域名系统资源,选取了一整天CN域名权威服务器的日志。提出了域名规约的方法,将日志中的域名合并为二级域名或者CN下41个类别和行政区的三级域名。该方法不仅保留了用户对网站的访问信息,而且能够达到压缩数据的目的。采用k-means算法对所提取的IP和域名的时间行为特征矢量进行聚类。结果表明:根据时间行为模式的不同,IP地址有3个主要类别,即攻击者、主要ISP的递归服务器和非主流递归服务器;域名有4个主要类别,对其中大量访问的域名进一步分类,找到了真正体现绝大多数用户网络访问需求的域名集合。

关 键 词:聚类  DNS服务器  日志分析  时间行为模式  k-means算法  

Analysis of domain name queries based on the k-means algorithm
JICheng,LIXiaodong,YUANJian,YUCHIXuebiao,SHANXiuming.Analysis of domain name queries based on the k-means algorithm[J].Journal of Tsinghua University(Science and Technology),2010(4).
Authors:JICheng    LIXiaodong  YUANJian  YUCHIXuebiao  SHANXiuming
Institution:JI+Cheng1,3,LI+Xiaodong3,YUAN+Jian1,YUCHI+Xuebiao2,SHAN+Xiuming1(1.+Complex+Engineered+Systems+Laborotary,Tsinghua+University,Beijing+100084,China,2.+Graduate+School+of+Chinese+Academy+of+Sciences,Beijing+100049,3.+China+Internet+Network+Information+Center,Chinese+Academy+of+Sciences,Beijing+100190,China)
Abstract:A full day's queries looking up the IP address associated with the CN domain names were investigated to study the Internet access pattern. The queries were collected from the authoritative CN name servers running by the China Internet Network Information Center. A data compression method was designed,which reduces the volume of data while retaining the valid information about users' visiting website. The feature vector of IPs and domain names' temporal behavior were clustering with the k-means algorithm. Th...
Keywords:clustering  DNS server  log analysis  temporal behavior  k-means  
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号