复制链接到浏览器可看【政策文本分析应用|主题内容|词袋法|机器学习|自然语言处理等】 https://www.bilibili.com/video/BV14Y4y187dh?share_source=copy_web&vd_source=54787bdb921bee49fe9f51723dc971cc
应用:公共政策文本基本概念与现实表征,意义表达,政策内容,文献计量,社会网络,趋势方法:主题分析、内容分析、词袋法、监督模型、无监督学习、自然语言处理等基本方法简介步骤:采集整理文本;预处理(分段、分句、分词、去停词、归一化);量化(矩阵化、向量化);建模分析
政策文本分析是指对政策文本的表示及其特征项的选取,以进行相应的文本挖掘、因果推断等数据分析。主要有六类常用的分析技术:
- **主题分析**(Thematic analysis):一般与扎根理论方法相结合,基于研究者自身经验和对事物理解,进行编码分析(Baumer, Mimno, Guha, Quan, & Gay, 2017);
- **内容分析**(Content analysis)/基于词典的方法(Dictionary analysis):对文本单词/词组频率进行计数,以进行定量研究(Reinard,2008;Short,Broberg,Cogliser&Brigham,2010;McKenny等,2016;Reinard,2008);
- **词袋法**(Bag-of-words):语料向量化,简化和压缩成为计算机容易理解的文档特征矩阵;
- **监督学习**(Supervise models):研究人员事先知道需要探寻数据特征X和标签y之间的关系(Roberts等,2014);
- **非监督学习**(Unsupervised models):通过事先定义的规则对文本数据进行自动分组(L. Jason Anastasopoulos,2019),比如Karoliina Isoaho(2021)等认为主题建模使学者能够将政策理论和概念应用到更大的数据集上;
- **自然语言处理**(Natural Language Processing):文本分析中自动化程度最高的形式(Manning等,2008),模拟人类如何理解和处理语言(Chowdhury,2003;Collobert等,2011;Joshi,1991)。