楼主: 时光永痕
2784 1

[数据挖掘新闻] 作者分析中的风格特征工程技术 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)四级

86%

威望
0
论坛币
26 个
通用积分
49.8622
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34070 点
帖子
2731
精华
0
在线时间
317 小时
注册时间
2020-7-21
最后登录
2024-5-13

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
作者分析中的风格特征工程技术
抽象:
作者身份分析(AA)是一项研究,旨在揭示文本数据中作者的隐藏属性。它根据文本中反映的写作风格提取作者的身份和社会语言特征。该过程对于各个领域都是必不可少的,例如网络犯罪调查,心理语言学,政治社会化等。但是,大多数以前的技术严重依赖于手动特征工程过程。因此,功能集的选择已显示出取决于方案或数据集。在本文中,为了模仿使用神经网络方法的人类句子合成过程,我们建议将不同类别的语言特征合并到单词的分布式表示中,以便同时学习基于未标记文本的AA的写作风格表示。特别地,所提出的模型允许将每个文档的主题,词汇,句法和字符级特征向量提取为文体。我们使用Twitter,博客,评论,小说和论文数据集评估我们的方法在作者身份表征,作者身份标识和作者身份验证问题上的性能。实验表明,我们提出的文本表示优于静态笔法,动态n-gram,潜在Dirichlet分配,潜在语义分析,段落向量的分布式内存模型,段落向量的单词版本的分布式包,word2vec表示和其他基线。我们使用Twitter,博客,评论,小说和论文数据集评估我们的方法在作者身份表征,作者身份标识和作者身份验证问题上的性能。实验表明,我们提出的文本表示优于静态笔法,动态n-gram,潜在Dirichlet分配,潜在语义分析,段落向量的分布式内存模型,段落向量的单词版本的分布式包,word2vec表示和其他基线。我们使用Twitter,博客,评论,小说和论文数据集评估我们的方法在作者身份表征,作者身份标识和作者身份验证问题上的性能。实验表明,我们提出的文本表示优于静态笔法,动态n-gram,潜在Dirichlet分配,潜在语义分析,段落向量的分布式存储模型,段落向量的单词版本的分布式包,word2vec表示和其他基线。

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:工程技术 Dirichlet twitter gram word

沙发
etoy 发表于 2022-4-13 09:15:40 |只看作者 |坛友微信交流群

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-6-15 22:44