排序方式: 共有2条查询结果,搜索用时 0 毫秒
1
1.
2.
HTML数据内容的抽取与集成 总被引:11,自引:0,他引:11
在XML基础上,利用HTML Tidy可实现轻量级的Web数据挖掘和转换。转换过程主要解决的是HTML文档及其集合要表达的模式信息的分离。转换步骤是利用HTML Tidy提供的标准类库,净化HTML文档,借助DOM生成树对HTML元素结构做进一步分析,最后通过XSL、XPATH等自动提取转换。 相似文献
1