首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
公安案件文本语义特征提取指的是从案件文本中提取案件的作案方式等特征.从本质上说问题是一类特殊的文本分类问题.构建了基于卷积神经网络(CNN)的文本语义特征提取方法框架.构建了CNN文本分类模型;针对多标记特征提取问题,使用问题转换法结合CNN分类方法来提取特征;讨论了分类中不均衡数据带来的问题,改进了CNN模型中的损失函数.实证结果表明:使用的CNN模型对于文本分类的效果优于传统的支持向量机等分类模型;使用问题转换法中的二值相关法结合CNN模型进行多标记语义特征提取准确率较高;改进后的CNN模型更加适合于不均衡数据的分类,宏平均F1值有了显著的提升.  相似文献   

2.
针对基础词更能表达中文文本所包含的基本信息,更适合于后续的文本挖掘,提出一种基于N-gram的双向匹配中文分词方法。充分挖掘训练语料的词频信息,给出一种组合词迭代切分方法,解决最大匹配分词中长词歧义切分问题,并基于N-gram语言模型,实现最优分词序列的选择。此外,为弥补准确率P这一评价指标受词条长度影响较大而不稳健的问题,在刻画分词方法性能时引入正确切分词条总字数这一因素,提出一个新的测评指标Pn,有效规避了词条长度对分词准确率评价的影响。最后在SIGHAN组织的国际中文自然语言处理竞赛的两个语料上进行实验表明,相较于传统N-gram中文分词方法,本文方法在保证分词效率的前提下,有效地提高了准确率P、召回率R、Pn和F1值。  相似文献   

3.
基于动态规划,利用反向搜索的方法,通过计算词语的最大“花费”给出了中文文本的切分算法,从而建立了一个能够消除中文分词中切分歧义的中文分词模型。通过对模型中算法求解的运行效率及空间耗费进行分析得出,在统计意义上,该算法具有接近与文本规模成线性关系的复杂度,空间的耗费是常数规模的。  相似文献   

4.
评估两个句子的语义相似性是文本检索和文本摘要等自然语言处理任务的重要组成部分.学者利用深度神经网络执行该任务,然而它们依赖于上下文独立词向量,从而导致性能不佳.为了缓解该问题,采用预训练模型BERT替换传统的词向量,并提出交叉自注意力以增强两个句子的语义,然后与BERT结合.在提出的模型中,为了实现交叉自注意力操作,设计了向量的对齐方法.最后,将BERT输出输入一个双向循环神经网络,以稳定性能,克服BERT自身带来的波动性.实验中,采用3个公开数据集DBMI2019、CDD-ref和CDD-ful对提出的混合模型进行评价.实验结果表明,由于使用了BERT生成的语境词向量,提出模型的性能始终优于现存方法;交叉自注意力实现了彼此的语义交互而增强了句对的语义,使得相似句对的语义差异更小,而不相似句对的语义差异更大,提高了相似性评估的性能.最终,提出模型在DBMI2019、CDD-ref和CDD-ful上分别取得了0.846,0.849和0.845的皮尔逊相关系数,超越了直接以[CLS]输出向量作为评估的方法.  相似文献   

5.
识别用户的购买意图是提升电子商务购买率(PR)的重要方法之一。针对用户购买意图不明确的现象,提出一种新模型。该模型将训练后的Word2Vec(WV)词向量馈入卷积神经网络(CNN),通过深层语义模型(DSSM)进一步提取文本特征。在Keras框架下结合美国建材电商网站家得宝的真实搜索数据进行实证分析。结果表明,在五分类问题中,新模型在测试数据集上的F1-score达80.6%。新模型使用了Word2Vec与CNN提取文本特征,并应用DSSM模型进一步提取了用户检索与商品描述文档在高维空间中的特征表示,最大化利用了用户检索与正确商品描述之间的语义相似度,同时避免了特征提取时主观因素的干扰,提高了商品购买意图的识别效果。  相似文献   

6.
通过文本挖掘获得的词频数据对观念意识转变进行测度,利用认知行为特征对观念更新序列进行建模.为了能检测观念意识发生重大转变,采用Monte Carlo实验对两个基于非参的转折点分析方法进行了比较分析.主要发现是:1)根据观念意识转变的认知行为特征所构造的模拟实验,基于CPM框架下的三种非参检验方法,Mann-Whitney检验在检测转变点的功效水平和精确度上要优于Cramer-vonMises和Kolmogorov-Smirnov检验.2)基于偏离测度的非参迭代方法E-Divisive对转变点的检测性能总体上要优于CPM框架下的三种非参方法,但后者可以对容量较小的样本数据进行检测.3)利用文本挖掘,可以将以前只能语言描述的观念意识演进特征进行量化,并用图形分析进行直观呈现,成为一个有价值的实证分析工具.最后对文本挖掘数据作为一种非随机抽样数据,如何保证统计有效性做了补充讨论.  相似文献   

7.
针对评价为语言型且准则权重未知情况下风险型决策信息有效集结的问题,提出一种基于云计算与前景理论的双极二元语义决策模型.首先,将语言型决策信息转换成双极二元语义形式并使用G1—离差最大化法计算各准则的组合权重;其次,利用双极二元语义加权平均算子将各状态、各方案多准则下的决策信息集结为综合双极二元语义决策阵;然后,利用云模型的数字特征公式将综合双极二元语义决策矩阵转化为各状态下各方案的综合云决策矩阵,并结合前景理论分析以确定所有方案的综合云前景值,将其排序并择优.最后,对案例的研究验证了新算法的科学性与适用性.  相似文献   

8.
针对多粒度概率语义环境下垃圾回收APP评价的多属性群决策问题,考虑决策者规避风险的心理行为,提出一种基于前景理论的TODIM决策方法.首先根据群决策中各专家的多粒度概率语言评价值,构建多粒度概率语言信息的转换函数,对决策矩阵进行一致化处理;其次利用BWM方法求出各个指标的权重;随后在概率语义环境中,引入前景理论,计算考...  相似文献   

9.
在设备故障诊断领域,操作说明、维修记录等文本数据具有极大的应用价值,充分挖掘和利用这类数据能大幅度提升故障诊断的工作效率.现有研究常用语义特征抽取及无监督聚类方法挖掘文本数据,辅助进行故障定位,但这类方法通常无法解释故障原因和给出提供相应维修方案的理由,据此生成的故障维修方案不易于理解.文章基于现有的成熟预训练语言模型BERT (bidirectional encoder representation from transformers),提出了一种基于BERT的短文本分类模型和知识图谱结合的故障定位方法,以充分挖掘和利用铁路CIR设备的文本数据中蕴含的知识和规律.所用方法首先基于CIR设备的功能层次关系确定故障模块,然后借助基于BERT的文本分类技术实现故障的初步定位,最后结合知识图谱进一步确定故障原因等信息辅助进行故障诊断,基于知识图谱积累的故障诊断知识提供故障维修方案易于维修人员理解,有助于知识的管理和工程效率的提升.在文本分类技术方面,文章利用铁路CIR设备故障维修台账记录数据进行实验,实验结果证明,基于BERT的短文本分类模型相较传统分类模型在性能上有较大的提升;在故障诊断方...  相似文献   

10.
为了针对互联网上的新闻类文档实现对其快速精准地分类,提出一种根据词频先初步降维再进行优化建模的分类思路.先基于高频词汇初步降维,再对降维后的数据以模型AUC值达到最大为目标,采取向后消元的方法构建随机森林分类模型,实现对文档的分类.通过实证分析,发现该方法能够有效地实现对文本的分类,同时减少了建模的运算量,通过AUC值的优化,比单纯依据词频降维构建的随机森林模型分类效果更好.  相似文献   

11.
金融市场是一个复杂、演化、非线性的动态变化的系统.金融数据往往带有噪声,非平稳且时常是混沌的.本文基于时序数据的先验知识——近期数据对于预测未来走势提供了更多的信息,对于传统的支持向量机的回归模型做出了一定的改进,即对于近期的数据预测错误施以更严重的惩罚,构建了改进的支持向量回归机模型.使用该改进模型对中国股票市场指数时间序列进行了预测,结果显示,本文改进的模型较之传统的支持向量回归机模型和神经网络模型有较好的预测效果.  相似文献   

12.
本文依据群体语言评价信息特点,基于二元语义信息处理、理想点评价模型及聚类分析等方法,给出了基于二元语义评价信息并适用于层次结构的个体优势特征识别方法;对某企业的文化优势特征进行识别,演示了方法的使用过程,并说明了所提方法的可行性和有效性。从二元语义的评价信息中,本方法能够比较充分地挖掘和体现被测行为主体的个体优势特征,能够为决策者提供多种维度的决策信息。  相似文献   

13.
源代码相似性是指不同代码段功能上的相似程度,是软件工程领域一项重要的研究问题.现有的方法主要从文本、结构两方面,利用代码的统计学特征计算相似性,其最大缺点就是无法表达代码的语义特征.为解决此类问题,提出了一种融合统计信息的卷积神经网络(statistics information for code embedding convolutional neural networks, SICE-CNN)源代码相似性检测方法.该方法首先通过词嵌入对源代码进行信息表示,获取代码的词嵌入向量信息;其次,构建CNN训练模型学习源代码文档的嵌入表示;最后,计算源代码对的余弦相似值.实验表明,该方法和一般词嵌入方法相比提高了一定的性能,能较好地检测源代码的语义相似性.  相似文献   

14.
针对多粒度语言判断矩阵的群决策问题提出基于相对熵的最优化模型的排序方法.在多粒度语言偏好信息的导出函数基础上定义了语言判断矩阵对应的导出模糊互补判断矩阵,并给出其排序向量的计算式;同时采用语言判断矩阵的一致性指标来确定专家重要性程度的权向量;在相对熵的意义下构建了群决策排序向量的最优化模型,探讨了模型的求解方法.实例分析表明该模型是可行和有效的.  相似文献   

15.
主要研究垃圾文本识别问题,利用苹果手机评论文本特征向量建立了SVM分类模型对垃圾文本进行识别,并与BP神经网络判别模型结果进行对比,得出苹果手机前400组训练样本的判别正确率为71%,后196组测试样本的判别正确率为70.12%.故得到,影响垃圾观点文本识别效果的主要原因为:1)评论文本的特征项的提取和文本特征空间向量求解.2)判别分类方法的选择,其中SVM文本识别效果最优.  相似文献   

16.
在地铁工程的设计、施工、工后沉降控制过程中,拱顶下沉监测值是反映地下工程结构安全和稳定的重要数据.针对常用的地铁拱顶沉降测模型只能做短期预测,精度不高,且需要一些土的本构参数的问题,将相空间重构、最小二乘支持向量机理论相耦合,建立基于改进C-C方法相空间重构和最小二乘支持向量机的地铁隧洞拱顶沉降混沌时间序列预测模型.经实例演算,模型比传统C-C方法相空间重构、基于最大Lyapunov指数的混沌预测模型、人工神经网络模型拟合效果好,预测精度高.  相似文献   

17.
Pawlak粗糙集模型忽视了信息的不确定性和模糊性,等价类完全包含于目标概念才能被划分到下近似,在处理数据时显得过于苛刻.针对这个问题,本文结合概率粗糙集与直觉模糊集,对概率粗糙直觉模糊集模型进行研究,其模型具有一定的容错能力,能够较为有效的处理含有噪声和模糊的数据.首先,在概率近似空间中,定义模糊事件的条件概率,构建...  相似文献   

18.
针对神经元的空间几何形态特征分类问题以及神经元的生长预测问题进行了探讨.结合神经元的形态数据,分别建立了基于支持向量机的神经元形态分类模型、基于主成分分析和支持向量机的神经元分类模型以及基于遗传算法和RBF网络的神经元生长预测模型,在较合理的假设下,对各个模型进行求解,得到了较理想的结果.  相似文献   

19.
为解决多姿态情况下的人脸认证问题,提出了基于概率弹性匹配的方法.首先从多尺度密集采样的图像中提取局部特征,并将局部区域的位置信息保存到特征向量中.然后用高斯混合模型在图像集中训练得到人脸特征的空间外观分布,并将人脸图像中的每一个局部区域表示成与其最相似的高斯分量,从而形成一个基于高斯混合模型表示的人脸特征.通过统计两个人脸特征向量的差向量来训练支撑向量机分类器从而实现多姿态人脸认证.在通用图像库中的实验验证了方法的有效性.  相似文献   

20.
用改进的截断与转换的矩阵奇异值分解算法,设计实现了基于字频特征的中文文本分类器.理论分析与实验结果表明,采用的方法提高了数值计算精度,降低了文本集特征空间的维数,简化了文本分类算法的时间复杂度,提高了文本分类准确率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号