首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
本文将清华大学中文分词和词性标注系统应用于部分微博语料数据,检测系统对微博新词识别能力及对识别错误进行了分类总结,并对识别率低的新词制定了标注规范。通过人工校对获得新的训练语料数据集,提高系统对微博文本的处理能力,为建立微博专用语料库做前期准备工作。  相似文献   

2.
维吾尔语词性标注研究,是面向信息处理的维吾尔语语法分析的核心内容.本文提出面向信息处理的现代维吾尔语词语分类体系及其标记集,并且对分类体系中的12个词类的分布特征从形态变化、句子成分功能和短语组合功能等方面进行了描述.  相似文献   

3.
维吾尔语词性标注研究,是面向信息处理的维吾尔语语法分析的核心内容.本文提出面向信息处理的现代维吾尔语词语分类体系及其标记集,并且对分类体系中的12个词类的分布特征从形态变化、句子成分功能和短语组合功能等方面进行了描述.  相似文献   

4.
本文提出一种基于双向IndRNN(Bidirectional Independently Recurrent Neural Network, Bi-IndRNN)的恶意URL分析与检测算法.通过对恶意URL分析与检测特点的研究,提取主机信息特征和URL信息特征.把主机信息特征与URL信息特征相融合,并利用Bi-IndRNN算法对恶意URL进行分析与检测.与k最邻近分类算法(k-NearestNeighbor, KNN)、高斯贝叶斯算法(GaussionNB)、LSTM(Long Short-Term Memory)算法、IndRNN(Independently Recurrent Neural Network)算法对比结果表明,该模型对恶意URL的分类检测准确率达到95.92%,明显高于其它算法模型.  相似文献   

5.
中文实体间的数值型关系抽取有着广泛的应用前景,目前常用的实体关系抽取一般采用有监督抽取方法,且多用于短文本和简单句,并不适合处理海量复杂句.针对来自于网络的大量复杂文本,本文提出了一种中文实体数值型关系的无监督抽取方法.在中文分词、词性标注等自然语言处理结果的基础上,首先经过句式分析并采用选择树算法构建候选集,接着利用Jaro-Winkler距离进行候选集筛选,最后抽取得到数值型三元组关系.本文在钢铁、船舶、房地产3个行业的数据上进行了实验,结果表明,该方法抽取中文实体数值型关系是有效的.  相似文献   

6.
针对体育领域情感分析资源不足、分析性能不高的现状,对体育领域的情感分析开展了研究.首先从"新浪体育"和"直播吧"等平台经过人工筛选、标注,构建了中文情感标注语料库CH-SPORT,共标记评论10 000条,其中积极评论5 000条,消极评论5 000条.然后选用了SVM、TextCNN、BiLSTM、RCNN、fastText、BiLSTM+Attention等模型对CH-SPORT进行了评估.实验结果表明,BiLSTM+Attention模型在CH-SPORT上的分类效果最佳,Acc为87.75%,比基准数据集ChnSentiCorp和NLPCC2014分别高出18.65%、11.75%.本文构建的数据集能有效应用于体育情感分析研究中.  相似文献   

7.
传统的基于词边界划分的中文分词已经难以满足实际应用的需要.通过深入分析词的内部结构,提出了一种基于条件随机场的词结构分析方法.根据伪未登录词(POOV)组成成分的特点及词的内部子结构表示,提出了词的结构特征来提高未登录词(OOV)的识别率及词结构的识别性能.从词的内部结构表示形式推导出一般化的词结构标记集,很好地统一了词边界标记和词内部结构标记.它不仅适用于传统的中文分词任务中词边界的标注,而且也适用于词结构分析任务中词的内部结构的标注.该方法能够同时分析得到词的边界和内部结构信息,解决了语料库之间分词标准不一致的问题,满足了应用的不同需求.实验结果表明,该方法在整体性能和各层次结构的识别上都比现有方法有所提高.  相似文献   

8.
电力通信网设备时序故障预测的目标是通过过去设备告警数据,预测设备在下一个时间段是否发生故障,这对设备的管理和维护起着重要作用。为了预测电力设备未来的状态,提出一种Forward-LSTM(F-LSTM)学习模型,对设备故障的时序特征和非时序特征(静态信息)进行并行训练,探索出一种新的对静态-时序数据的训练方法,将其应用在电力通信网故障预测中。F-LSTM结合了两个组件,一个学习时序特征的长短期记忆神经网络(LSTM)与一个处理静态数据的前向全连接神经网络(forward full connection neural networks,FC),数据的静态/时序属性被自动判断并传递给FC或LSTM来并行训练。对于具有同时产生动态数据与静态数据的电力通信网络,Forward-LSTM(F-LSTM)模型能以较高速度与精度预测其故障发生的位置。此外,本文采用一种加权的损失函数,可以更好地捕捉设备故障的时序规律。选取某电力通信网络系统中2016—2017年设备故障数据,对本方法进行测试。实验结果显示,与Xgboost模型相比,F-LSTM模型对故障预测的召回率提高5%,同时F-LSTM模型较LSTM模型缩减了计算量,加快了模型的训练速度。  相似文献   

9.
利用语言学专家人工标注的语料库对维吾尔文动词进行研究,并总结出了维吾尔文动词范畴的连接规则框架.在人工标注的实例库的基础上,收集了词缀连接规则集合,经人工纠正构建了词缀连接规则库集合.最终,结合人工标注实例库、词缀连接规则库及维吾尔文动词范畴的连接规则框架提出了维吾尔文动词词干提取方法,该方法的独立实验准确率达到了84.15%.  相似文献   

10.
本文根据现有的维吾尔文语音识别语音库的不足,以自然口语为对象研究维吾尔语的语音特征,提出了适合该语言的电话语音语料库设计方案,其中包括了维吾尔语电话语音库的文本设计、发音人的选择、语音录制、语音库的标注和后期处理方法等.本文从构建的350个说话人的维吾尔语电话语音语料库中挑选50个目标人提供给基于GMM-UBM/SVM的维吾尔语电话信道说话人识别的研究.  相似文献   

11.
语音语料库是语音识别和语音合成技术研究的基础.由于维吾尔语文字与语音特征、维吾尔语语音语料库的建立、管理、使用之工作不仅工作量巨大,且具有一定的复杂性,这就不得不开发维吾尔语语音数据库管理软件.本文首先研究维吾尔语语音语料库的设计过程,包括语音文本的设计、语音录制、语音库的标注、并在此基础上论述维吾尔语语音语料管理软件的总体功能设计以及部分关键技术的实现方法.  相似文献   

12.
磁共振成像(MRI)胎盘组织的准确分割对于研究妊娠和分娩并发症具有重要意义,但传统放射科医师的人工标注难以保证分割准确性和客观性,且费时费力.为了开发用于MRI中胎盘组织自动分割的深度学习模型,提出了结合Transformer和卷积神经网络(CNN)的生成对抗网络(TCGANet).将特征嵌入模块与跳跃连接相结合,缓解传统特征融合方法带来的信息丢失.在此基础上引入内容提取模块,采用Transformer的自注意力机制捕捉全局依赖关系,有效表示MRI的全局和局部信息.此外,鉴于传统分割方法难于精确界定MR影像胎盘组织边缘的问题,运用判别网络对胎盘组织分割的生成网络监督,以提高胎盘边缘界定的精度.结果表明,该模型在定量指标和边界定位精度方面显著优于现有分割方法,其中准确度为0.993±0.003,灵敏度为0.903±0.093,特异度为0.996±0.003,Dice相关性系数为0.861±0.141.对模型不同结构的消融实验验证了网络结构设计的合理性,大部分性能指标明显优于现有方法(P<0.05).该模型能够实现自动且准确地分割MRI中胎盘组织.  相似文献   

13.
目前主流答案选择算法主要首先基于word2vec/glove进行词语表示,再使用RNN或CNN提取文本语义特征,但word2vec/glove无法解决一词多义问题,RNN和CNN在文本全局特征提取方面也有局限。针对以上不足,论文提出一种基于BERT预训练模型的答案选择算法BERT-LSTM,首先采用BERT模型提取问答文本的语义特征表示,再利用BiLSTM加强文本序列信息并整合文本语义,最后引入注意力机制突出重点信息,以此完成答案选择任务。在答案选择基准数据集InsuranceQA和WiKiQA上的测试验证了所提出算法的有效性。  相似文献   

14.
为了从更深层次语义信息来描述图像,定义了图像、文本、事件文本、事件图、图像关键要素和文本关键要素六元组,以六元组为对象建立了中文图文数据集。基于事件语义模型与事件语义标注规范,在对采集的图像文本标注事件语义角色与事件关系的基础上,采用事件图对其语义进行形式化表示。对该中文图文数据集的统计分析表明,该数据集中各个事件语义角色都有所涉及且分布适中,图文对应区域数量相对句子长度表现适中,图文对数据质量较高。  相似文献   

15.
维吾尔语句子边界识别算法的设计与实现   总被引:2,自引:0,他引:2  
本文分析维吾尔语的句子结束形式,研究维吾尔语句子边界规则,给出了句子划分思路,并实现了维吾尔语句子边界识别算法及程序.在对大量手工划分句子语料进行统计测试结果表明,该句子边界识别程序准确率超过98.7%.维吾尔语句子边界识别的研究对实现维吾尔语词性标注系统、维吾尔语句法分析器、机器翻译等众多领域有着很高的实际意义.  相似文献   

16.
针对目前大部分PM2.5预测模型预测效果不稳定、泛化能力不强的现状,以记忆能力较强的循环神经网络(RNN)和特征表达能力较强的卷积神经网络(CNN)为基础,采取Stacking集成策略对两者进行融合,提出了RNN-CNN集成深度学习预测模型。该模型不仅充分利用时间轴上的前后关联信息去预测未来的浓度,而且在不同层次上将自动提取的高维时序数据通用特征用于预测,以保证预测结果的稳定性。最后,对集成之前的RNN、CNN和集成之后的RNN-CNN模型,以2016年中国大陆地区1 466个监测站点的空气质量数据为样本进行实例验证,结果表明,RNN-CNN在PM2.5时间序列预测上的表现明显优于集成之前的RNN和CNN,而且泛化误差更低,在34%站点上的拟合度超过0.97,该模型可用于大范围区域的PM2.5小时浓度预测。  相似文献   

17.
针对目前大部分PM2.5预测模型预测效果不稳定、泛化能力不强的现状,以记忆能力较强的循环神经网络(RNN)和特征表达能力较强的卷积神经网络(CNN)为基础,采取Stacking集成策略对两者进行融合,提出了RNN-CNN集成深度学习预测模型。该模型不仅充分利用时间轴上的前后关联信息去预测未来的浓度,而且在不同层次上将自动提取的高维时序数据通用特征用于预测,以保证预测结果的稳定性。最后,对集成之前的RNN、CNN和集成之后的RNN-CNN模型,以2016年中国大陆地区1 466个监测站点的空气质量数据为样本进行实例验证,结果表明,RNN-CNN在PM2.5时间序列预测上的表现明显优于集成之前的RNN和CNN,而且泛化误差更低,在34%站点上的拟合度超过0.97,该模型可用于大范围区域的PM2.5小时浓度预测。  相似文献   

18.
针对传统深度学习模型在预测空气质量指数(air quality index,AQI)时,难以从时间角度建模、网络超参数选取困难等问题,提出一种基于长短期记忆(long short-term memory,LSTM)网络和烟花算法(fireworks algorithm,FWA)的AQI预测模型LSTM-FWA。首先,以武汉市历史空气质量和气象监测数据为研究对象,利用LSTM网络中隐含层节点之间相互连接的结构特点,对空气质量的时间变化特征进行建模;接下来,考虑到种群多样性和并发性,将烟花算法应用到超参数组合优化问题中;最后,对模型输入分别进行时间、空间、时空角度的优化,实验结果表明基于时空优化的LSTM-FWA模型预测性能提升最为明显。将LSTM-FWA与其他预测模型进行比较,并全面分析不同模型在各种优化策略下的性能。实验结果显示,本文提出的时空优化LSTM-FWA模型对于AQI预测具有最优的性能。  相似文献   

19.
构建维吾尔语框架语义知识库是自然语言处理的基础性工程,目前大部分工作基于人工。从真实语料库中抽取包含将要描述词元的例句,为例句标注以及这些例句的配价模式进行深入研究,从标注好的维吾尔语例句中提取维吾尔语词元和例句填充到维吾尔语框架库,构建维吾尔语词元库和例句库,实现维吾尔语语义框架网络的自动构造之目的。本文对维吾尔语真实语料库中抽取的例句中标注对象进行初步分析,论述了人机交互式基于阿拉伯字符的UFN例句辅助标注系统的功能模块设计和工作流程。介绍了UFN例句辅助标注系统的例句标注界面和词元标注报告、词条报告的自动生成演示界面。  相似文献   

20.
原子事件抽取是将非结构化文本进行结构化表示的重要方法.针对新闻语料,本文提出了一种基于信息单元融合的原子事件抽取方法.在中文分词、词性标注、命名实体识别等自然语言处理技术的基础上,利用语言规则将信息单元标识出来并进行融合,达到浅层句法分析的效果,通过原子事件抽取算法将原子事件从经信息单元融合后的语料中抽取出来.基于信息单元融合的原子事件抽取方法不仅对文本长度没有严格限制,并且不受事件类型的约束;实验结果表明,基于信息单元融合的原子事件抽取方法是有效的.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号