【摘 要】
:
近年来,得益于数据科学的飞速发展,越来越多的信息以数据的形式出现在人们的视野中,如何从这些数据中挖掘有用的信息成为一个迫切的需求,人工智能的研究亦因此获得了极大的进步。而自然语言处理作为“人工智能皇冠上的明珠”,更是吸引了众多学者参与到对其的研究中,文本挖掘便是其中的重点研究领域之一。事实上,文本可视为由不同的词根据某种潜在关系相互联结而组成的网络。网络又被称为图,是一种独特的非欧数据结构,可对一
论文部分内容阅读
近年来,得益于数据科学的飞速发展,越来越多的信息以数据的形式出现在人们的视野中,如何从这些数据中挖掘有用的信息成为一个迫切的需求,人工智能的研究亦因此获得了极大的进步。而自然语言处理作为“人工智能皇冠上的明珠”,更是吸引了众多学者参与到对其的研究中,文本挖掘便是其中的重点研究领域之一。事实上,文本可视为由不同的词根据某种潜在关系相互联结而组成的网络。网络又被称为图,是一种独特的非欧数据结构,可对一组对象及其关系进行建模。近年来,网络结构由于其强大的表达能力,受到了越来越多的关注。现实世界中存在许多的网络结构,由于此类网络的拓扑结构往往具有很高的复杂性,因此被称为复杂网络。中心性是复杂网络理论中的一个重要概念,能够度量节点与边在网络中的重要程度。目前,学者们提出了多种基于中心性的节点重要程度排序与社区发现算法,但其中绝大多数算法仅基于启发式概念而设计,未考虑到中心性本身的作用机制与网络结构对中心性的影响。基于上述内容,本文主要研究内容如下:(1)研究了基于中心性的算法的设计原理,并剖析了其中一种基于中心性的社区发现算法的工作机制,针对该算法在进行网络划分时存在的与中心性工作机制不符之处,提出了一种改进的社区发现算法,并通过对比实验说明了本文改进策略的有效性;(2)构造具有不同拓扑结构的文本网络,在这些文本网络上比较了上述基于中心性的算法在处理关键词抽取与主题识别问题时的表现,并通过实验结果分析了文本网络拓扑结构对中心性在处理不同文本挖掘问题时的影响。实验结果表明,部分局部中心性处理关键词抽取问题时具有接近甚至超越全局中心性的效果,而在主题识别中,局部中心性往往拥有更好的准确性与计算效率。
其他文献
经过几十年的发展,我国在高速铁路建设领域取得了举世瞩目的成就,高速列车技术领跑世界,“和谐号”和“复兴号”已经成为快速、舒适的代名词,无论是长途还是短途出行,越来越多的人选择乘坐高铁。传统列车通信网络只能保证列车控制业务的可靠传输,不能为旅客提供稳定、可靠的上网服务,但是在移动通信技术高度发达的今天,如果乘车期间无法保证旅客对网络的有效访问,那么将严重影响旅客的乘车体验,甚至造成极大的经济损失。随
连续刚构桥的主梁具有较强的抗弯和抗扭刚度,其桥墩柔度又可以适应由荷载、徐变和温度等因素导致的结构变形,因此可以满足跨径较大时的结构受力要求。然而连续刚构桥在广泛应用的同时,部分桥梁发生的过度下挠已经威胁结构安全。因此,有必要采取措施对连续刚构桥结构下挠予以控制。本文以里耶特大桥为工程背景,对应用于连续刚构桥挠度控制的自适应系统进行研究,其主要内容和结论如下:(1)比较了卡尔曼滤波法、BP神经网络和
糖尿病性视网膜病变是糖尿病的严重并发症之一,已经成为当今世界成年人视力障碍和失明的主要原因。将深度学习应用到该病的病变检测中,根据病变程度的不同进行分类,可以辅助
教育改革的实施过程中,加快小学数学教学的改革进程就显得比较重要,要充分注重在数学教学中运用生活化以及情境化的方式,促进教学质量的提升。基于此,本文先就小学数学教学的
灰阶超声及超声造影技术目前被成功用于筛查乳腺肿瘤,而且由于其具有无创伤性,价格低廉等优势,是乳腺肿瘤早期筛查的主要工具。随着人工智能技术快速发展,将深度学习及模式识别技术运用于临床医疗的辅助诊断分析中,已成为当今医疗影像的研究热点。本文研究将乳腺灰阶超声及超声造影结合,形成双模态影像进行良恶性识别。由于双模态影像存在成像质量问题:如对比度低、含有斑点噪声、病灶区边缘不清晰等,且乳腺肿瘤中的困难样本
2019年上半年,全国海关监管进出境快件1.38亿票,商品价值247.5亿元,同比分别增长53%、10%。进出境快件业务商品的多样性、参与环节及构成的复杂性、业务本身的创新性等特征,决定了如何在保证海关监管质量的前提下做好进出境快件业务监管风险管理,是当前海关面临的棘手挑战。本文首先通过相关领域的背景研究及文献综述,提出有关理论在与海关进出境快件实际监管业务上结合的不足,认为进出境快件业务由于其自
随着新闻媒体的发展,越来越多的网民通过官方微博、官方微信公众号、新闻客户端等途径来了解热点新闻,然而由于新闻的数量巨大且不断传播、存在重复的新闻等,导致单靠人的浏
互联网及金融科技的出现使得金融行业发展愈加迅猛,其组成也变得愈来愈复杂,然而金融行业的各机构的总资产中的信用贷款资产收入占据较大比例,但是近年来,商业银行各类问题层出不穷,如信贷逾期、不良贷款不断增加等,这一系列问题都影响了银行的抵御风险和盈利的能力。另一方面,大数据技术发展催化了互联网金融的发展,对传统商业银行的经营与盈利造成了一定的冲击的同时业务传统商业银行信贷业务模式转型带来新的机遇,大数据
在对外汉语教学中,有关“造字法”的汉字教学多集中在理论层面,教学实践研究较少,北美汉字教学中的相关应用研究则更为少见。本文的主要研究内容是,“造字法”在加拿大初级汉
行为金融学理论的发展,为股票市场趋势预测提供了新的理论指导,成为传统理论的一个良好补充。本文借鉴了有效市场假说,投资者行为有限关注、情绪周期和过度反应等行为投资理论,探索开展利用互联网投资者情绪数据和市场情绪数据相结合的股票市场趋势预测研究。首先,本文按时间顺序,利用数据挖掘方法采集了互联网权威的专业股票网站股吧论坛的文本资料。为了保证从非结构化文本资料提取数据的质量,本文使用基于点互信息算法的S