首页 | 本学科首页   官方微博 | 高级检索  
     检索      

中文电子文档的数学公式定位研究
引用本文:林晓燕,高良才,汤帜.中文电子文档的数学公式定位研究[J].北京大学学报(自然科学版),2014,50(1):17.
作者姓名:林晓燕  高良才  汤帜
作者单位:北京大学计算机科学技术研究所, 北京 100080;
基金项目:国家重点基础研究发展计划(2012CB724108);国家自然科学基金(61202232)资助
摘    要:区别于传统基于图像和西文文档的公式定位方法, 针对中文电子文档的特点, 提出一种基于机器学习和规则相结合的独立公式和内嵌公式的定位方法。设计了适合中文文档的页面分行策略和词块划分规则; 选择适合中文文档的公式特征和机器学习算法; 针对公式定位中的过分割问题, 提出行合并与词块合并等后处理手段。实验结果表明, 该方法可以有效地从中文电子文档中自动定位公式区域。此外, 构建了公开可用的中文数据集, 以促进不同数学公式定位方法间的相互比较及性能评估。

关 键 词:数学公式识别  数学公式定位  电子文档  中文文档  
收稿时间:2013-06-21

Research on Mathematical Formula Identification in Digital Chinese Documents
LIN Xiaoyan,GAO Liangcai,TANG Zhi.Research on Mathematical Formula Identification in Digital Chinese Documents[J].Acta Scientiarum Naturalium Universitatis Pekinensis,2014,50(1):17.
Authors:LIN Xiaoyan  GAO Liangcai  TANG Zhi
Institution:Institute of Computer Science and Technology, Peking University, Beijing 100080;
Abstract:Different from the traditional formula identification methods for scanned images and Latin documents, a formula identification method which considers the characteristics of digital Chinese documents is proposed to identify both isolated and embedded formulae using both machine learning techniques and heuristic rules. Text line detection strategies and word segmentation rules are proposed towards Chinese documents, effective features and machine learning algorithms of formula identification from Chinese documents are selected, and post-processing techniques, including text line or word merging, are proposed to overcome the over-segmentation problems. The experimental results show that the proposed method achieves satisfactory results in identifying formulae from digital Chinese documents. Furthermore, a public Chinese document dataset is constructed in order to facilitate the fair comparison between different formula identification methods.
Keywords:mathematical formula recognition  mathematical formula identification  digital documents  Chinese documents  
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《北京大学学报(自然科学版)》浏览原始摘要信息
点击此处可从《北京大学学报(自然科学版)》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号