学术社区帖子是科研人员进行学术交流的重要载体。在海量的数字文献资源中,学术论文分类是实现精准文献检索、推荐和文献计量分析的基础。
目前,学术论文的学科分类系统主要分为基于期刊层面分类和基于论文层面分类两种[1]。
例如,国外主流的Web of Science(WOS)和Scopus采用基于期刊层面的论文分类方法,即发表在某一学科期刊上的所有论文都分类为该学科,这是一种粗粒度的分类方法;
国内的中国图书馆分类法(Chinese Library Classification,CLC)从论文层面进行分类,即发表在某一期刊上的不同论文可以被分类到不同的学科中,是一种细粒度的分类方法。
由于期刊存在多学科特性,基于论文层面的分类系统具有更高的准确率。
基于论文层面的分类系统主要基于人工分类,例如在中文期刊投稿时需要作者根据中图分类法为论文提供合适的分类号,或者编辑根据论文标题、关键字、摘要等信息来确定论文的分类号。
但这种基于人工的分类方法存在一定的主观性,并且对用户的相关专业知识背景有较高要求[2]。
因此,研究学术论文自动分类具有重要意义。
随着自然语言处理技术的发展,出现了各种基于监督式文本分类的学术论文分类方法。
在早期研究中,主要基于特征工程,从论文内容、题目、摘要、关键字等提取论文的特征表示,然后基于朴素贝叶斯(Nave Bayes,NB)、最近邻算法(K-Nearest Neighbor,KNN)、支持向量机(Support Vector Machine,SVM)等传统机器学习算法构建分类模型。
随着深度学习技术的发展,基于卷积神经网络(Convolutional Neural Networks,CNN)、长短期记忆网络(Long Short-Term Memory,LSTM)、Transformer等模型的文本分类成为研究热点。
虽然基于监督式文本分类的学术论文分类研究取得了不少进展,但目前绝大部分分类方法仅考虑了论文标题、摘要、关键字等自身特征,没有融合参考文献和引证文献的特征。图神经网络(Graph Neural Network,GNN)可以有效融合引用文献的特征,但传统图神经网络存在因聚合半径过大导致的过平滑问题。
因此,本文提出一种基于改进型图神经网络的学术论文分类模型,有效融合引用文献特征的同时解决图神经网络的过平滑问题。
摘要
【目的】 解决传统图神经网络的过平滑问题,实现图神经网络不同深度和不同邻居的权重自适应分配,提高学术论文分类的性能。
【方法】 提出一种基于多头注意力机制和残差网络结构的改进型图神经网络学术论文分类模型。
首先,基于多头注意力机制学习文献间多种关联特征,实现不同邻居节点权重的自适应分配;
然后,基于残差网络结构聚合模型每层节点的输出,为模型提供自适应性聚合半径的学习机制;
最后,基于改进型图神经网络学习论文引用关系图中每个节点的特征表示,将该特征输入多层全连接网络中得到最终分类结果。
【结果】 在大规模真实数据集上的实验结果表明,该模型准确率达到0.61,比图卷积神经网络和Transformer模型的准确率分别高出0.04和0.14。
【局限】 对小类别样本和难于区分的样本分类准确率不高。
【结论】 改进的图神经网络能够有效避免过平滑问题,实现不同权重的自适应分配。
关键词 图神经网络 / 注意力机制 / 残差网络 / 深度学习 / 论文分类 / 文本分类
Key words Graph Neural Network / Attention Mechanism / Residual Network / Deep Learning / Paper Classification / Text Classification
引用本文导出引用
黄学坚, 刘雨飏, 马廷淮. 基于改进型图神经网络的学术论文分类模型*[J]. 数据分析与知识发现, 2022, 6(10): 93-102 https://doi.org/10.11925/infotech.2096-3467.2022.0071
Huang Xuejian, Liu Yuyang, Ma Tinghuai. Classification Model for Scholarly Articles Based on Improved Graph Neural Network[J]. Data Analysis and Knowledge Discovery, 2022, 6(10): 93-102 https://doi.org/10.11925/infotech.2096-3467.2022.0071
中图分类号: G202 TP319
上一篇 下一篇
1 引言
学术论文是科研人员进行学术交流的重要载体。在海量的数字文献资源中,学术论文分类是实现精准文献检索、推荐和文献计量分析的基础。目前,学术论文的学科分类系统主要分为基于期刊层面分类和基于论文层面分类两种[1]。例如,国外主流的Web of Science(WOS)和Scopus采用基于期刊层面的论文分类方法,即发表在某一学科期刊上的所有论文都分类为该学科,这是一种粗粒度的分类方法;国内的中国图书馆分类法(Chinese Library Classification,CLC)从论文层面进行分类,即发表在某一期刊上的不同论文可以被分类到不同的学科中,是一种细粒度的分类方法。由于期刊存在多学科特性,基于论文层面的分类系统具有更高的准确率。基于论文层面的分类系统主要基于人工分类,例如在中文期刊投稿时需要作者根据中图分类法为论文提供合适的分类号,或者编辑根据论文标题、关键字、摘要等信息来确定论文的分类号。但这种基于人工的分类方法存在一定的主观性,并且对用户的相关专业知识背景有较高要求[2]。因此,研究学术论文自动分类具有重要意义。
随着自然语言处理技术的发展,出现了各种基于监督式文本分类的学术论文分类方法。
在早期研究中,主要基于特征工程,从论文内容、题目、摘要、关键字等提取论文的特征表示,然后基于
朴素贝叶斯(Nave Bayes,NB)、
最近邻算法(K-Nearest Neighbor,KNN)、
支持向量机(Support Vector Machine,SVM)等传统机器学习算法构建分类模型。
随着深度学习技术的发展,
基于卷积神经网络(Convolutional Neural Networks,CNN)、
长短期记忆网络(Long Short-Term Memory,LSTM)、
Transformer等模型的文本分类成为研究热点。虽然基于监督式文本分类的学术论文分类研究取得了不少进展,但目前绝大部分分类方法仅考虑了论文标题、摘要、关键字等自身特征,没有融合参考文献和引证文献的特征。
图神经网络(Graph Neural Network,GNN)
可以有效融合引用文献的特征,但传统图神经网络存在因聚合半径过大导致的过平滑问题。因此,本文提出一种基于改进型图神经网络的学术论文分类模型,有效融合引用文献特征的同时解决图神经网络的过平滑问题。 2 相关研究
2.1 学术论文分类 学术论文分类属于自然语言处理中的文本分类领域,相关研究主要分为基于特征工程的机器学习方法和基于语义特征的深度学习方法。
(1) 基于特征工程的机器学习方法 基于特征工程的机器学习方法的研究重点在于文本特征和分类算法的选择,常用的
文本特征选择方法有奇异值分解(Singular Value Decomposition,SVD)、
词频-逆向文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)、
隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)等。
例如,Sethares等[3]提出一种基于SVD的论文分类方法,利用SVD提取最能代表论文类别的特征;
武永亮等[4]基于TF-IDF提取文本类别关键词,通过类别关键词的余弦相似度进行文本分类;
廖列法等[5]基于LDA挖掘专利文本的主题概率分布,利用主题相似度进行文本分类;
Kim等[6]提出一种融合TF-IDF和LDA的分类方法,基于LDA从论文的摘要和标题中抽取关键词,然后基于TF-IDF值进行K-means聚类划分论文主题。
文本分类常用的机器学习算法有BP、NB、KNN和SVM等,例如,刘浏等[7]使用KNN算法对社会科学类论文进行分类;
董放等[8]基于LDA挖掘论文摘要的向量表示,采用SVM算法对论文摘要进行分类;
王昊等[9]基于论文标题、关键词和摘要信息,分析了SVM和BP算法在中文期刊论文分类中的效果,实验表明SVM比BP算法更适合大规模稀疏数据环境;
薛锋等[10]基于论文标题和摘要,探究在不同特征选择方法、特征粒度、语料库大小的情况下,NB、KNN和SVM三种算法的分类性能。
(2) 基于语义特征的深度学习方法 在基于特征工程的机器学习方法中,SVD、TF-IDF和LDA得到的特征难以表达文本的深层语义特征,NB、KNN、SVM等浅层分类算法无法学习到复杂的分界面。
随着深度学习技术的发展,研究者逐渐采用基于词向量的深度学习模型进行文本分类[11],
例如吕璐成等[12]设计了7种基于深度学习的专利自动分类方法,并对比各种方法的分类效果;
邓三鸿等[13]利用词向量和LSTM模型构建中文图书标签分类系统;
徐彤阳等[14]和Xu等[15]利用词向量表征文本特征,采用CNN提取文本深层语义特征构建论文分类模型;
王鑫芸等[16]以图书馆学和情报学为例,分别对比SVM、CNN和RNN三种分类方法在不同特征组合下的分类效果,实验结果表明在样本数据充足的条件下,深度学习算法比传统的机器学习算法具有明显的分类优势;
谢红玲等[17]使用RNN、LSTM和GRU模型对科技论文进行分类,实验结果表明LSTM的分类效果最好。
近年来,ELMo(Embeddings from Language Models)[18]、GPT(Generative Pre-Training)[19]和BERT[20]等大规模预训练语言模型在多项自然语言处理领域任务上都获得了很大的提升。
相比于传统的Word2Vec,这些预训练模型一方面考虑了上下文语境,解决了一词多义的问题;另一方面,通过分层学习得到不同层次的语义特征,为下游任务提供了丰富的特征选择。
所以基于【预训练语言模型】的文本分类成为目前的研究热点,例如孙红等[21]融合BERT和注意力机制构建文本分类模型;
倪斌等[22]通过BERT和胶囊神经网络架构,建立期刊文本自动分类模型;
刘磊等[23]基于BERT预训练模型及其变体进行相应改进,提高模型对中文语义理解的能力,从而提升图书等长文本的分类性能;
Tezgider等[24]提出一种基于双向Transformer的文本分类模型,利用双向位置编码来处理文本数据的前向和后向位置信息。
2.2 图神经网络 图神经网络是一类专门针对图数据进行端到端学习的模型,实现了图数据与深度学习技术的有效结合。
2005年,Gori等[25]首次提出图神经网络的概念,并由Scarselli等[26]进一步阐明。
Bruna等[27]首次将卷积引入图神经网络,提出一种基于频域的图卷积网络模型。
由于基于频域卷积的方法具有很高的时间复杂度,很难应用到大规模图数据的学习任务中,所以Kipf等[28]提出一种基于空域的图卷积神经网络,极大地提升了图卷积模型的计算效率,在多项图数据相关任务上获得了优异的成绩。
GCN本质上是一个迭代式地聚合邻居节点的过程,随着聚合层数的加深不同节点间覆盖的区域有很大重叠,导致学到的节点特征区分度不高,出现过平滑问题。
相关学者对这种聚合操作进行了重新设计,提出一系列的变体模型,例如GraphSAGE[29]和GAT[30]。
综上,学术论文相关分类任务取得了不少进展,但目前的研究仅考虑了论文自身特征,没有融合参考文献和引证文献的特征。
GCN可以有效融合引用文献的特征,但GCN存在因聚合半径过大导致的过平滑问题。
因此,本文提出一种基于多头注意力机制和残差网络结构的改进型图神经网络学术论文分类模型,实现不同深度和不同邻居的权重自适应分配,提高学术论文自动分类的准确率。


雷达卡






京公网安备 11010802022788号







