论文部分内容阅读
[目的/意义]实现学术查询意图的自动识别,提高学术搜索引擎的效率.[方法/过程]结合已有查询意图特征和学术搜索特点,从基本信息、特定关键词、实体和出现频率4个层面对查询表达式进行特征构造,运用Naive Bayes、Lo-gistic回归、SVM、Random Forest四种分类算法进行查询意图自动识别的预实验,计算不同方法的准确率、召回率和F值.提出了一种将Logistic回归算法所预测的识别结果扩展到大规模数据集、提取“关键词类”特征的方法构建学术查询意图识别的深度学习两层分类器.[结果/结论]两层分类器的宏平均F1值为0.651,优于其他算法,能够有效平衡不同学术查询意图的类别准确率与召回率效果.两层分类器在学术探索类的效果最好,F1值为0.783.