论文部分内容阅读
针对焊接专利中前沿技术挖掘的问题,提出一种基于改进词向量(Time word-embedding)、双向长短期记忆网络(Bi-LSTM)和条件随机场(CRF)相结合的新词发现模型(T-Bi-LSTM-CRF)。该模型首先对专利数据的每个词提取语义词向量和时间特征向量并进行拼接;然后通过Bi-LSTM层获得专利数据的长距离上下文特征,再通过CRF层捕获序列标签的转移特征,自动完成特征标注;最后通过训练已经内嵌时间特征的损失函数引导该模型学习焊接新词。焊接专利新词发现实验结果表明,该模型的平均F1值为91.4