楼主: 910200822
1444 3

Text Analysis with LingPipe 4 [推广有奖]

  • 4关注
  • 0粉丝

高中生

92%

还不是VIP/贵宾

-

威望
0
论坛币
515 个
通用积分
0.1000
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
101 点
帖子
10
精华
0
在线时间
66 小时
注册时间
2018-7-23
最后登录
2023-4-29

楼主
910200822 发表于 2018-12-6 00:50:14 |AI写论文
1论坛币

Text Analysiswith LingPipe 4


Bob Carpenter


Breck Baldwin



  1. Contents
  2. 1 Getting Started 1
  3. 1.1 Tools of the Trade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
  4. 1.2 Hello World Example . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
  5. 1.3 Introduction to Ant . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
  6. 2 Handlers, Parsers, and Corpora 19
  7. 2.1 Handlers and Object Handlers . . . . . . . . . . . . . . . . . . . . . . . 19
  8. 2.2 Parsers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
  9. 2.3 Corpora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
  10. 2.4 Cross Validation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
  11. 3 Tokenization 33
  12. 3.1 Tokenizers and Tokenizer Factories . . . . . . . . . . . . . . . . . . . . 33
  13. 3.2 LingPipe’s Base Tokenizer Factories . . . . . . . . . . . . . . . . . . . . 37
  14. 3.3 LingPipe’s Filtered Tokenizers . . . . . . . . . . . . . . . . . . . . . . . . 40
  15. 3.4 Morphology, Stemming, and Lemmatization . . . . . . . . . . . . . . . 46
  16. 3.5 Soundex: Pronunciation-Based Tokens . . . . . . . . . . . . . . . . . . 53
  17. 3.6 Character Normalizing Tokenizer Filters . . . . . . . . . . . . . . . . . 56
  18. 3.7 Penn Treebank Tokenization . . . . . . . . . . . . . . . . . . . . . . . . 57
  19. 3.8 Adapting to and From Lucene Analyzers . . . . . . . . . . . . . . . . . 64
  20. 3.9 Tokenizations as Objects . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
  21. 4 Suffix Arrays 75
  22. 4.1 What is a Suffix Array? . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
  23. 4.2 Character Suffix Arrays . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
  24. 4.3 Token Suffix Arrays . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
  25. 4.4 Document Collections as Suffix Arrays . . . . . . . . . . . . . . . . . . 81
  26. 4.5 Implementation Details . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
  27. 5 Symbol Tables 85
  28. 5.1 The SymbolTable Interface . . . . . . . . . . . . . . . . . . . . . . . . . 85
  29. 5.2 The MapSymbolTable Class . . . . . . . . . . . . . . . . . . . . . . . . . 86
  30. 5.3 The SymbolTableCompiler Class . . . . . . . . . . . . . . . . . . . . . 89
  31. 6 Character Language Models 93
  32. 6.1 Applications of Language Models . . . . . . . . . . . . . . . . . . . . . . 93
  33. 6.2 The Basics of N-Gram Language Models . . . . . . . . . . . . . . . . . 94
  34. 6.3 Character-Level Language Models and Unicode . . . . . . . . . . . . . 95
  35. v
  36. 6.4 Language Model Interfaces . . . . . . . . . . . . . . . . . . . . . . . . . . 95
  37. 6.5 Process Character Language Models . . . . . . . . . . . . . . . . . . . . 98
  38. 6.6 Sequence Character Language Models . . . . . . . . . . . . . . . . . . . 101
  39. 6.7 Tuning Language Model Smoothing . . . . . . . . . . . . . . . . . . . . 104
  40. 6.8 Underlying Sequence Counter . . . . . . . . . . . . . . . . . . . . . . . . 107
  41. 6.9 Learning Curve Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . 107
  42. 6.10 Pruning Counts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
  43. 6.11 Compling and Serializing Character LMs . . . . . . . . . . . . . . . . . 112
  44. 6.12 Thread Safety . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
  45. 6.13 The Mathematical Model . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
  46. 7 Tokenized Language Models 119
  47. 7.1 Applications of Tokenized Language Models . . . . . . . . . . . . . . . 119
  48. 7.2 Token Language Model Interface . . . . . . . . . . . . . . . . . . . . . . 119
  49. 8 Spelling Correction 121
  50. 9 Classifiers and Evaluation 123
  51. 9.1 What is a Classifier? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
  52. 9.2 Kinds of Classifiers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
  53. 9.3 Gold Standards, Annotation, and Reference Data . . . . . . . . . . . . 129
  54. 9.4 Confusion Matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
  55. 9.5 Precision-Recall Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . 140
  56. 9.6 Micro- and Macro-Averaged Statistics . . . . . . . . . . . . . . . . . . . 144
  57. 9.7 Scored Precision-Recall Evaluations . . . . . . . . . . . . . . . . . . . . 147
  58. 9.8 Contingency Tables and Derived Statistics . . . . . . . . . . . . . . . . 155
  59. 9.9 Bias Correction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
  60. 9.10 Post-Stratification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
  61. 10 Naive Bayes Classifiers 169
  62. 10.1 Introduction to Naive Bayes . . . . . . . . . . . . . . . . . . . . . . . . . 169
  63. 10.2 Getting Started with Naive Bayes . . . . . . . . . . . . . . . . . . . . . . 173
  64. 10.3 Independence, Overdispersion and Probability Attenuation . . . . . 175
  65. 10.4 Tokens, Counts and Sufficient Statistics . . . . . . . . . . . . . . . . . 177
  66. 10.5 Unbalanced Category Probabilities . . . . . . . . . . . . . . . . . . . . . 177
  67. 10.6 Maximum Likelihood Estimation and Smoothing . . . . . . . . . . . . 178
  68. 10.7 Item-Weighted Training . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
  69. 10.8 Document Length Normalization . . . . . . . . . . . . . . . . . . . . . . 183
  70. 10.9 Serialization and Compilation . . . . . . . . . . . . . . . . . . . . . . . . 185
  71. 10.10 Training and Testing with a Corpus . . . . . . . . . . . . . . . . . . . . 187
  72. 10.11 Cross-Validating a Classifier . . . . . . . . . . . . . . . . . . . . . . . . . 192
  73. 10.12 Formalizing Naive Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . 199
  74. 11 Tagging 205
  75. 11.1 Taggings . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
  76. 11.2 Tag Lattices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
  77. 11.3 Taggers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
  78. 11.4 Tagger Evaluators . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
  79. 12 Tagging with Hidden Markov Models 215
  80. 13 Conditional Random Fields 217
  81. 14 Latent Dirichlet Allocation 219
  82. 14.1 Corpora, Documents, and Tokens . . . . . . . . . . . . . . . . . . . . . 219
  83. 14.2 LDA Parameter Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . 220
  84. 14.3 Interpreting LDA Output . . . . . . . . . . . . . . . . . . . . . . . . . . . 224
  85. 14.4 LDA’s Gibbs Samples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
  86. 14.5 Handling Gibbs Samples . . . . . . . . . . . . . . . . . . . . . . . . . . . 228
  87. 14.6 Scalability of LDA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233
  88. 14.7 Understanding the LDA Model Parameters . . . . . . . . . . . . . . . . 238
  89. 14.8 LDA Instances for Multi-Topic Classification . . . . . . . . . . . . . . . 239
  90. 14.9 Comparing Documents with LDA . . . . . . . . . . . . . . . . . . . . . . 244
  91. 14.10 Stability of Samples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245
  92. 14.11 The LDA Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249
  93. 15 Singular Value Decomposition 251
  94. 16 Sentence Boundary Detection 253
  95. A Mathematics 255
  96. A.1 Basic Notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255
  97. A.2 Useful Functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255
  98. B Statistics 259
  99. B.1 Discrete Probability Distributions . . . . . . . . . . . . . . . . . . . . . 259
  100. B.2 Continuous Probability Distributions . . . . . . . . . . . . . . . . . . . 261
  101. B.3 Maximum Likelihood Estimation . . . . . . . . . . . . . . . . . . . . . . 261
  102. B.4 Maximum a Posterior Estimation . . . . . . . . . . . . . . . . . . . . . . 261
  103. B.5 Information Theory . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261
  104. C Java Basics 267
  105. C.1 Generating Random Numbers . . . . . . . . . . . . . . . . . . . . . . . . 267
  106. D Corpora 271
  107. D.1 Canterbury Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271
  108. D.2 20 Newsgroups . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272
  109. D.3 MedTag . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272
  110. D.4 WormBase MEDLINE Citations . . . . . . . . . . . . . . . . . . . . . . . . 273
  111. E Further Reading 275
  112. E.1 Algorithms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275
  113. E.2 Probability and Statistics . . . . . . . . . . . . . . . . . . . . . . . . . . . 276
  114. E.3 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276
  115. E.4 Linguistics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277
  116. E.5 Natural Language Processing . . . . . . . . . . . . . . . . . . . . . . . . 277
  117. F Licenses 279
  118. F.1 LingPipe License . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279
  119. F.2 Java Licenses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 280
  120. F.3 Apache License 2.0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287
  121. F.4 Common Public License 1.0 . . . . . . . . . . . . . . . . . . . . . . . . . 288
  122. F.5 X License . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 290
  123. F.6 Creative Commons Attribution-Sharealike 3.0 Unported License . . 290
复制代码


最佳答案

Nicolle 查看完整内容

**** 本内容被作者隐藏 ****
关键词:Analysis Analysi alysis Analys Analy

本帖被以下文库推荐

沙发
Nicolle 学生认证  发表于 2018-12-6 00:50:15
提示: 作者被禁止或删除 内容自动屏蔽

藤椅
HappyAndy_Lo 发表于 2018-12-8 09:39:29
已有 1 人评分论坛币 收起 理由
Nicolle + 20 鼓励积极发帖讨论

总评分: 论坛币 + 20   查看全部评分

板凳
franky_sas 发表于 2018-12-8 15:24:57

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2025-12-20 06:57