抽象:
作者身份分析(AA)是一项研究,旨在揭示文本数据中作者的隐藏属性。它根据文本中反映的写作风格提取作者的身份和社会语言特征。该过程对于各个领域都是必不可少的,例如网络犯罪调查,心理语言学,政治社会化等。但是,大多数以前的技术严重依赖于手动特征工程过程。因此,功能集的选择已显示出取决于方案或数据集。在本文中,为了模仿使用神经网络方法的人类句子合成过程,我们建议将不同类别的语言特征合并到单词的分布式表示中,以便同时学习基于未标记文本的AA的写作风格表示。特别地,所提出的模型允许将每个文档的主题,词汇,句法和字符级特征向量提取为文体。我们使用Twitter,博客,评论,小说和论文数据集评估我们的方法在作者身份表征,作者身份标识和作者身份验证问题上的性能。实验表明,我们提出的文本表示优于静态笔法,动态n-gram,潜在Dirichlet分配,潜在语义分析,段落向量的分布式内存模型,段落向量的单词版本的分布式包,word2vec表示和其他基线。我们使用Twitter,博客,评论,小说和论文数据集评估我们的方法在作者身份表征,作者身份标识和作者身份验证问题上的性能。实验表明,我们提出的文本表示优于静态笔法,动态n-gram,潜在Dirichlet分配,潜在语义分析,段落向量的分布式内存模型,段落向量的单词版本的分布式包,word2vec表示和其他基线。我们使用Twitter,博客,评论,小说和论文数据集评估我们的方法在作者身份表征,作者身份标识和作者身份验证问题上的性能。实验表明,我们提出的文本表示优于静态笔法,动态n-gram,潜在Dirichlet分配,潜在语义分析,段落向量的分布式存储模型,段落向量的单词版本的分布式包,word2vec表示和其他基线。
关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!