首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对论坛缺乏热点话题提取方法的现状,提出一种将LDA(潜在狄利克雷分配)模型引入高校论坛场景主题的提取方式.在主题建模过程中,以回帖数量作为帖子热门程度的判定参数,根据帖子热门程度在语料中设置不同权重,随后使用Gibbs采样法提取主题.在此基础上设计并实现了包含数据抓取、文本预处理、主题提取三个模块的完整系统.将LDA模型引入系统并进行提取效果分析,实验结果表明LDA模型可以准确地提取出论坛文本中讨论的实时热点话题.  相似文献   

2.
在社交媒体平台已成为大众信息交流的重要载体的背景下,关注和分析大众对于社会热点事件的情感倾向及舆论走势,有利于及时准确了解大众的情感需求,制定相应的措施,引导舆论走向,维护良好的网络环境。提出了基于情感分析和热度预测的网络舆情预测思路,构建了融合多特征的文本情感分析模型和基于时间序列的热度预测模型,并基于真实数据集验证了模型的有效性。对于社交媒体上舆论环境的分析和预测有重要意义。  相似文献   

3.
以新浪微博为数据源,基于LDA主题模型构建话题分类模型,识别能耗双控话题相关文本中的7个舆情话题,并从话题内容、数量和时空分布等方面分析2021年9月20日至10月20日的舆论响应分布特点。研究发现:(1)话题内容整体呈现积极情感导向,主要围绕生活、生产、管理3个相关角度;(2)各话题响应时序存在明显差异,生活相关话题最先得到广泛响应,生产相关话题次之,而管理角度的理性分析话题存在滞后性;(3)各类话题存在空间差异,生活、管理角度话题讨论高值区主要集中在东北地区,生产角度话题讨论集中在长三角、珠三角等秦岭、淮河以南地区;(4)舆情发展过程中加工贸易相关行业和第三产业对于能耗双控政策的敏感性较高。  相似文献   

4.
面向社交网络的情感社区检测,可应用于公共健康、舆情监测等领域.以新浪微博为平台建立一种情感社区检测框架,首先融合微博情感表情特征和情感词典,提出基于朴素贝叶斯算法的半词典半表情(naive Bayes based semi-lexicon and semi-emoji,SL-SE-NB)分类模型以实现对文本的情感极性预测;提出一种基于潜在狄利克雷分配(latent Dirichlet allocation,LDA)话题模型的用户-超话题-关键词(user-topic-keywords,UTK) 模型抽取用户话题;基于标签传播算法(label propagation algorithm,LPA)并加入话题概念,提出基于种子集与最小边介数的标签传播情感社区发现算法(label propagation algorithm based seeds and min-edge betweenness,SMB-LPA).最后通过实验验证了所提出算法的有效性和高效性.  相似文献   

5.
为对网络舆情数据进行主题挖掘与情感分析,以微博某单位招聘热点事件的舆情演变为研究对象,提出了一种融合主题模型和情感分析的LDA-Attention-BiLSTM模型。运用Python的Scrapy框架爬取该事件文本评论。采用隐含狄利克雷分布(LDA)模型实现了主题识别。使用基于注意力(Attention)机制的双向长短期记忆(BiLSTM)网络进行文本情感分析。研究结果表明,构建的基于LDA与Attention机制BiLSTM的混合模型能够反映舆情中的热点话题与情感时序变化,揭示事件爆发的主要原因,事件传播阶段的主要话题与事件的处理结果等。  相似文献   

6.
主题模型可以学习用户和推荐项目的潜在主题分布。提出了一种基于双向主题模型的协同过滤算法,分别学习用户和推荐项目的潜在主题分布用于推荐服务。在真实的数据集上实验验证,该算法的性能均优于几个经典的协同过滤算法。  相似文献   

7.
针对社会化标签中资源之间存在独立同分布特性,并且其对应的标签资源作为资源内容的特殊语义内容,提出一种联合特征词加权-LDA(Joint Feature Word Weighting-LDA)在资源内容和标签下联合主题识别方法,从而解决资源存在的独立同分布特性以及特征词采样等问题.首先建立评论及对应标签资源在信息熵相似度...  相似文献   

8.
基于OpenMP技术提出并行置信传播算法,在多核服务器上通过共享内存的方式快速推断潜在狄利克雷分布(LDA)主题模型的参数,建立文本中不同主题与文本表面单词之间的联系.利用Enron和Wikipedia数据集,通过3组实验对比了传统吉布斯算法和并行置信传播算法的运行效果.结果表明,并行置信传播算法能够快速推断LDA模型参数,高效处理大规模数据,比传统吉布斯采样算法具有更高的精度.  相似文献   

9.
近年来,基于Web日志的数据挖掘技术逐渐成为理论研究和商业应用中的热点问题,而其中Web用户分类又是挖掘领域中最重要的研究主题之一.对Web用户分类能够发现用户之间相似的用户行为,从而针对具体用户群设置对应的服务项目.根据用户的历史访问网页地址(URL)信息,提出了基于加权潜在狄利克雷分配(LDA)模型的用户分类方法,将用户划分到不同的主题群体,实验表明,这种方法能达到很好的分类效果.  相似文献   

10.
崔海燕  李雅文  徐欣 《广西科学》2022,29(4):627-633
得益于深度学习的快速发展,大数据分析技术不仅在自然语言处理领域应用广泛,在数值预测领域也更加成熟。为了提高科技需求数据主题热度预测的准确率,本文提出一种基于时间卷积网络(Time Convolution Network, TCN)的科技需求主题热度预测方法(Subject Heat of Science and Technology Demand Prediction Based on Time Convolution Network, SHDP-TCN),该方法融入科技需求的主题特征,并基于TCN及自注意力机制进行时序预测。实验结果表明,在真实的科技需求数据集上,本算法对科技需求主题热度的预测准确率优于自回归积分滑动平均(Auto Regressive Integrated Moving Average, ARIMA)、长短时记忆(Long Short-Term Memory, LSTM)网络、卷积神经网络(Convolutional Neural Networks, CNN)和TCN等算法。  相似文献   

11.
针对医学文本缺乏可量化数据结构,基于关键词模型的文本处理方法不适用的问题,在研究词之间潜在语义关联和关键词树结构的基础上,构造了一种基于潜在语义树的语义分析模型用于医学文本的数据挖掘。进一步地将隐含主题与潜在语义的研究相关联,设计出一种基于潜在狄利克雷分配和潜在语义树模型的文本处理方法,可针对不同类型的医学文本生成有一定可读性的自动批注。该方法形成的自动批注主观性低,其准确度和可读性均高于关键词模型的处理结果,可辅助医生进行医学文本的批注和分类,从而减轻其工作量。程序结果表明,该方法目前可应用于对医学图像所见形成诊断意见、对病人病历进行摘要形成和对病症描述给出对症处方等方面,批注的语义匹配度可达67.7%,文本的平均可读性为60.02%。  相似文献   

12.
为了更加高效地对文本数据进行描述,提出将文本向量表示为统计流形上的点,并用核方法将文本的生成模型和判别模型结合起来.用DCM统计流形上扩散核来表示文本空间上的距离度量,提出DCM流形上的核近邻算法用于文本分类.实验结果表明,在两个实验语料库上基于DCM流形的核近邻算法的准确率和召回率优于对比算法或与对比算法相当.  相似文献   

13.
针对传统邮件分类模型中较少对邮件主题进行描述和分析的问题,提出一种代价敏感多主题学习的邮件分类算法,用以实现垃圾邮件过滤.首先,基于LDA(潜在狄利克雷分布)对邮件的多个主题进行提取,对邮件语义进行描述;其次,利用CS-SVM(代价敏感支持向量机)对邮件进行代价敏感学习,实现对不同类别邮件的惩罚;最后,结合MI-SVM(多示例支持向量机)进行代价敏感的多主题学习,实现邮件分类.实验采用四组ling-spam处理数据集.实验结果证明:该分类算法较比传统邮件分类算法,可以取得更高的准确性、特异性与敏感性.  相似文献   

14.
经典支持向量机算法具有较高的时空复杂度,这导致其很难广泛被应用.为此,该文基于支持向量分布的先验知识,把KNN算法和10折交叉验证方法结合起来,提出了一个支持向量预选取算法.该算法从原始样本集中选取k个邻近样本,并计算出这k个邻近样本中异类样本所占比例,如果该比例超过了所给定的阈值q,就选择这些异类样本作为预取的支持向量.在此过程中,采用10折交叉验证法来确定k与q的最佳值.两组仿真实验表明所提算法选择出的支持向量而形成的分类器分类准确率更高而且耗时还较少.  相似文献   

15.
基于加权K近邻算法的抽象画图像情感分布预测   总被引:1,自引:0,他引:1  
现有的大部分图像情感分类计算主要致力于预测图像情感的类别,没有考虑观察者对于图像情感不同的主观感受,因此仅对图像进行情感分类并不能满足现实需要.本文提出采用加权K 近邻算法对数据集中每幅抽象画图像进行离散情感的分布预测,首先提取图像的情感特征,不同的K 值,按照距离加权为每幅图像预测对应的情感分布情况,然后与数据集已知的情感分布进行比较.以Abstract 图像库作为数据集进行实验,并验证了算法的有效性.  相似文献   

16.
当前网络中充斥着大量的虚假评论,准确识别出代表用户真实感受的关键评论成为评论分析领域研究的热点问题。为此,提出一种基于回复支持的关键评论提取方法,该方法从用户对评论的反馈行为出发,重点考量评论点赞和评论回复两个指标,通过计算评论点赞率和回复率获取评论的回复支持情况,仅对回复支持度高的评论进行提取,从而剔除了大量虚假或无用的评论,提升了关键评论提取的准确性。最后,通过与现有主流方法进行实验对比,验证了该方法具有较高的正确率和召回率。  相似文献   

17.
一种基于KNN与改进SVM的车牌字符识别算法   总被引:2,自引:0,他引:2  
提出了一种将KNN(K近邻)和支持向量机相结合的字符识别算法.首先用KNN对字符进行判断,如果输出的置信度大于阈值,则认为分类正确;如果小于阈值则采用支持向量机进行判决.改进了SVM分类器,通过调整支持向量机的分类超平面改进了支持向量机的性能.将算法应用到实际的车牌字符识别中,识别结果表明,这种方法在提高识别速度的同时,有效提高了字符的识别精度.  相似文献   

18.
在现有文本图基础上引入隐狄利克雷分布,将文档-主题和主题-词信息融入文本图以丰富文本图中节点间关系,之后将该文本图送入一个基于图卷积网络门控机制模型.在多个数据集上进行验证.结果表明,所提出的模型优于现有图卷积网络文本分类模型.  相似文献   

19.
K近邻算法是基于向量空间模型的最好的文本分类算法之一。使用KNN算法时通常要用贪婪算法进行参数选择,最终的参数不仅取决于每个参数的初始值及候选值,而且和参数选择的顺序密切相关。不同的参数选择策略间存在较大差异,通过实验,指出了KNN算法进行文本分类时一个较好的参数选择策略。  相似文献   

20.
以潜在狄利克雷分配(Lejeune Dirichlet allocation,LDA)模型为基础,研究中医诊疗中的多关系主题模型,提出一个症状-中药-治疗-诊断方法(symptom-herb-therapies-diagnosis topic,SHTDT)模型,用于提取中医临床数据中的症状、中药、治疗方法和诊断的主题结构.参数推理采用Gibbs抽样,根据主题间平均相似度,确定最佳主题数.实验中采用SHTDT模型可以预测给定症状的患者的主题分布、中药、治疗方法及诊断结果,为临床医生和研究人员提供参考.结果表明该模型能够为中医临床诊疗规律的研究提供一个新的统计工具.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号