文本基本数据 字段说明
序号 | 字段 | 数据类型 | 字段标题 | 单位 | 字段说明 |
1 | CIK | Nvarchar | 公司索引代码 | CIK,被用作向美国证券交易委员会提交财务文件的唯一标识符 | |
2 | FilingDate | Nvarchar | 申请日期 | ||
3 | StatisticalScope | decimal | 统计范围 | 1.全文本;2.有效文本;3."Risk-Disclosure";4."MD&A"等某一章节 | |
4 | CompanyName | Nvarchar | 公司名称 | ||
5 | ReportDate | Nvarchar | 报告日期 | ||
6 | TotalLetters | decimal | 字母总数 | 个 | |
7 | TotalWords | decimal | 单词总数 | 个 | |
8 | TotalSentences | decimal | 句子总数 | 个 | |
9 | TotalSyllables | decimal | 音节总数 | 个 | |
10 | PolysyllabicFreq | decimal | 多音节词词频 | 次 | 计算三个或更多音节的单词数量,这些音节不是(i)专有名词,(ii)简单单词或连字符单词的组合,或(iii)两个音节动词,用-es和-ed结尾组成三个。 |
11 | AvgLettersPerHWords | decimal | 平均每百词所含字母数 | 个 | 字母总数/单词总数*100 |
12 | AvgSentencesPerHWords | decimal | 平均每百词所含句子数 | 个 | 句子总数/单词总数*100 |
13 | AvgSyllablesPerWord | decimal | 平均每词所含音节数 | 个 | 音节总数/单词总数 |
14 | AvgSentenceLength | decimal | 平均句长 | 个 | 单词总数/句子总数 |
15 | AvgPolysyllabicWords | decimal | 平均多音节词数 | 个 | 多音节词词数/单词总数 |
可读性指标 字段说明
序号 | 字段 | 数据类型 | 字段标题 | 单位 | 字段说明 |
1 | CIK | Nvarchar | 公司索引代码 | CIK,被用作向美国证券交易委员会提交财务文件的唯一标识符 | |
2 | FilingDate | Nvarchar | 申请日期 | ||
3 | StatisticalScope | decimal | 统计范围 | 1.全文本;2.有效文本;3."Risk-Disclosure";4."MD&A"等某一章节 | |
4 | CompanyName | Nvarchar | 公司名称 | ||
5 | ReportDate | Nvarchar | 报告日期 | ||
6 | FOGIndex | decimal | FOG指数 | Gunning fog指数:评估一个人在第一次阅读并理解文本需要的正规教育年限,分数越高,可读性越低 | |
7 | FREIndex | decimal | Flesch Reading Ease指数 | Flesch Reading Ease指数:百分制评分,分数越高,可读性越高 | |
8 | FKLevel | decimal | Flesch Kincaid等级水平 | % | Flesch Kincaid等级水平:评估理解文本所需要的美国教育水平,分数越高,可读性越低 |
9 | CLIndex | decimal | Coleman–Liau指数 | Coleman–Liau指数:评估理解文本所需要的美国教育水平,分数越高,可读性越低 | |
10 | ARI | decimal | Automated可读性指数 | Automated可读性指数:评估理解文本所需要的美国教育水平,分数越高,可读性越低 | |
11 | BOGIndex | decimal | BOG指数 | BOG指数:由Editor Softwares公司创建的专有可读性衡量标准,分数越高,可读性越低。 |


雷达卡




京公网安备 11010802022788号







