论文部分内容阅读
用户的简历信息是社交网络构建的基础,自动构建用户简历将为社交网站的建设和推广带来极大的便利。本文以学术社交网站LinkScholar为应用背景,以PDF格式论文和学术期刊网站为信息来源,通过信息抽取,获取国内学者信息,应用同名区分技术,生成学者简历。针对中文PDF格式论文的信息抽取问题,本文通过对大量中文科技论文的分析归纳出中文论文元数据的排它性、重复性、顺序性和部分确定性,并据此定义了简单元数据和复杂元数据的概念,提出了字典匹配和支持向量机模型抽取中文科技论文元数据。实验结果表明,该模型的综合性能指标在96%以上,优于条件随机场模型和隐马尔科夫模型。针对学术期刊网站的信息抽取问题,本文提出了同源HTML文档和HTML骨架序列的概念,基于这两个概念,将双序列比对算法引入Web信息抽取中。应用双序列比对算法计算待比对序列与模板序列的最大相同片段,根据模板序列的标注,提取各个信息项的信息。该方法充分利用了HTML文档结构和数据的关系,不需要建设大量的样本库,实现简单,通用性强。针对作者同名区分的问题,本文详细研究了同名区分的相关文献,总结已有方法的优缺点,提出了基于遗传聚类算法的同名区分。将引文聚类问题转化为多峰值的组合优化问题,应用遗传算法迭代求解,每一个最优解代表一个同名作者的引文集合,达到同名区分的目的。在信息抽取和同名区分的基础之上,本文设计了简历生成系统架构,制定了信息融合规则,生成有效全面准确的学者简历,并应用在LinkScholar系统中。