|
通过对SVM的经验风险最小化问题的分析,证明了PU学习等效于成本敏感分类,其中成本比c/cx是类别优先级π和标记样本比例η的函数【du Plessis等人,2014】:c/cx=2π(1- η)η. (1) 我们使用scikit学习包实现了基于RBF核的代价敏感支持向量机,并从数据集中估计概率参数。在实验中,我们使用PU学习的双重问题设置,其中只有一小部分负面案例被标记。如果术语候选词包含非索引词列表中的单词,则可以进行检查。我们通过添加106个特定领域的单词,将通用停止词列表调整为特定业务领域。添加的词语包括业务领域中的常见词语,如“corporate(集 团)”, “公司(公司)” 还有“销售”之类的行动词(销售)”, “利润(盈利)”, “领先(领先)”, “趋势(趋势)” 等等。在使用negativelabels进行培训后,分类员从候选术语中生成实际术语集。通过整合包含词级相似度来计算术语相似度。更具体地说,我们将两个单词的相似度定义为它们的共现频率除以它们在文档中出现频率的调和平均值。iss(w,w)=2×dct(w∩ w) ×dct(w)×dct(w)dct(w)+dct(w),(2),其中dct(·)表示文档计数。然后,我们在两个术语中对齐对应的单词,并使用最佳匹配的平均相似度作为术语之间的相似度。由于该方法是不对称的,我们将术语相似性定义为两个方向上的平均值:s(t→ t) =Pi∈tβimaxj∈ts(i,j)len(t)(3)s(t,t)=s(t→ t) +s(t→ t) (4)其中i是术语中的单词,j是术语t中的单词;len(t)表示t的长度。单词i的权重使用TFIDF信息:βi=log(ct(i))×log(Ndct(i))。
|