论文部分内容阅读
建设领域腐败频发已成为不争的事实。工程项目本身的独特复杂、质量隐蔽,加上参与主体众多,实施过程复杂、建设周期长、相关法律漏洞多等因素,也使腐败行为更易于隐蔽。不仅在政府层面,学界、非政府组织、企业界和民众也广泛参与到反腐合作中。对工程项目腐败的研究逐渐成为热点。现有研究存在着对工程项目腐败界定不清晰、各学科分割、领域知识分散等问题。考虑到工程腐败信息多是以非结构化形式的文本数据存储着,文本挖掘将是工程腐败研究的重要方向。本文以工程项目腐败行为为研究对象,引入领域知识的概念,通过基于关键词自动提取和手工标记方法,构建包含行为主体、行为环节和行为方式的领域词表,为工程腐败案例文本挖掘提供背景知识支撑。本文首先基于“委托权力”对工程项目腐败行为进行清晰界定,为识别腐败行为提供基准。借鉴本体理论、社会网络、语义分析等方法,从工程项目利益相关者、工程项目基本建设程序和腐败行为方式的核心概念中分别提取工程项目腐败行为主体、行为环节、行为方式本体,构建了工程项目腐败行为三维描述模型。然后,将描述模型作为领域词表的框架体系,采取两种方法:借鉴扎根理论手工标注、利用关键词提取方法自动提取,从工程项目腐败行为的文本中提取行为主体、行为环节和行为方式本体的特征词。其次,对比分析手工标注和关键词自动提取的特征词,构建工程项目腐败行为领域词表。同时分析领域词的关联关系,建立领域词表语法规则和语义规则,完成领域词表的动态构建。最后,应用领域词表对工程项目腐败行为文本进行文本聚类和文本分类,结果表明挖掘结果好于仅基于文档的方法,验证了领域词表的构建效果。本研究是开展建设领域腐败问题智能分析的基础性工作,研究成果可以应用到基于语义的工程腐败案例文本挖掘中,从而使多渠道获得的腐败案例文本得到有效处理。而且它包含的领域知识为建设领域腐败的其他文本挖掘研究提供借鉴的思路,深化人们对建设领域腐败发生规律的认识。