阅读权限 255 威望 0 级论坛币 4718 个 通用积分 4.2550 学术水平 8 点 热心指数 3 点 信用等级 3 点 经验 1089 点 帖子 133 精华 0 在线时间 20 小时 注册时间 2006-5-15 最后登录 2017-10-27
###################################################
### chunk number 11: Ovid
###################################################
txt <- system.file("texts", "txt", package = "tm")
(ovid <- Corpus(DirSource(txt),
readerControl = list(reader = readPlain,
language = "la",
load = TRUE)))
###################################################
### chunk number 12: CorpusDBSupport eval=FALSE
###################################################
## Corpus(DirSource(txt),
## readerControl = list(reader = readPlain,
## language = "la", load = TRUE),
## dbControl = list(useDb = TRUE,
## dbName = "/home/user/oviddb",
## dbType = "DB1"))
###################################################
### chunk number 13: IDOvid
###################################################
ID(ovid[[1]])
###################################################
### chunk number 14: AuthorOvid
###################################################
Author(ovid[[1]]) <- "Publius Ovidius Naso"
###################################################
### chunk number 15:
###################################################
meta(ovid[[1]])
###################################################
### chunk number 16: OvidSubset
###################################################
ovid[1:3]
###################################################
### chunk number 17: OvidDocument
###################################################
ovid[[1]]
###################################################
### chunk number 18: Concatenation
###################################################
c(ovid[1:2], ovid[3:4])
###################################################
### chunk number 19: LengthOvid
###################################################
length(ovid)
###################################################
### chunk number 20: SummaryOvid
###################################################
summary(ovid)
###################################################
### chunk number 21: tmUpdate
###################################################
tmUpdate(ovid, DirSource(txt))
###################################################
### chunk number 22: OvidMeta
###################################################
ovid <- appendMeta(ovid,
cmeta = list(test = c(1,2,3)),
dmeta = list(clust = c(1,1,2,2,2)))
summary(ovid)
CMetaData(ovid)
DMetaData(ovid)
###################################################
### chunk number 23: OvidAppendElem
###################################################
(ovid <- appendElem(ovid, data = ovid[[1]], list(clust = 1)))
###################################################
### chunk number 24: TextRepo
###################################################
(repo <- TextRepository(ovid))
###################################################
### chunk number 25: TextRepoMeta
###################################################
repo <- appendElem(repo, ovid, list(modified = date()))
repo <- appendMeta(repo, list(moremeta = 5:10))
summary(repo)
RepoMetaData(repo)
###################################################
### chunk number 26:
###################################################
meta(ovid, type = "corpus", "foo") <- "bar"
meta(ovid, type = "corpus")
meta(ovid, "someTag") <- 6:11
meta(ovid)
###################################################
### chunk number 27: tmMap
###################################################
tmMap(ovid, FUN = tmTolower)
###################################################
### chunk number 28: tmFilter
###################################################
tmFilter(ovid, FUN = searchFullText, "Venus", doclevel = TRUE)
###################################################
### chunk number 29: tmIndex
###################################################
tmIndex(ovid, "identifier == '2'")
###################################################
### chunk number 30: GmaneSource eval=FALSE
###################################################
## setClass("GmaneSource",
## representation(URI = "ANY", Content = "list"),
## contains = c("Source"))
###################################################
### chunk number 31: GmaneSourceConstructor eval=FALSE
###################################################
## setMethod("GmaneSource",
## signature(object = "ANY"),
## function(object, encoding = "UTF-8") {
## ## ---code chunk---
## new("GmaneSource", LoDSupport = FALSE, URI = object,
## Content = content, Position = 0, Encoding = encoding)
## })
###################################################
### chunk number 32: stepNext eval=FALSE
###################################################
## setMethod("stepNext",
## signature(object = "GmaneSource"),
## function(object) {
## object@Position <- object@Position + 1
## object
## })
###################################################
### chunk number 33: getElem eval=FALSE
###################################################
## setMethod("getElem",
## signature(object = "GmaneSource"),
## function(object) {
## ## ---code chunk---
## list(content = content, uri = object@URI)
## })
###################################################
### chunk number 34: eoi eval=FALSE
###################################################
## setMethod("eoi",
## signature(object = "GmaneSource"),
## function(object) {
## length(object@Content) <= object@Position
## })
###################################################
### chunk number 35: readGmane eval=FALSE
###################################################
## readGmane <- FunctionGenerator(function(...) {
## function(elem, load, language, id) {
## ## ---code chunk---
## new("NewsgroupDocument", .Data = content, URI = elem$uri,
## Cached = TRUE, Author = author, DateTimeStamp = datetimestamp,
## Description = "", ID = id, Origin = origin, Heading = heading,
## Language = language, Newsgroup = newsgroup)
## }
## })
###################################################
### chunk number 36: GmaneCorpus
###################################################
rss <- system.file("texts", "gmane.comp.lang.r.gr.rdf", package = "tm")
Corpus(GmaneSource(rss), readerControl = list(reader = readGmane, language = "en_US", load = TRUE))
###################################################
### chunk number 37: readPDF eval=FALSE
###################################################
## readPDF <- FunctionGenerator(function(...) {
## function(elem, load, language, id) {
## ## get metadata
## meta <- system(paste("pdfinfo", as.character(elem$uri[2])),
## intern = TRUE)
##
## ## extract and store main information, e.g.:
## heading <- gsub("Title:[[:space:]]*", "",
## grep("Title:", meta, value = TRUE))
##
## ## [... similar for other metadata ...]
##
## ## extract text from PDF using the external pdftotext utility:
## corpus <- paste(system(paste("pdftotext", as.character(elem$uri[2]), "-"),
## intern = TRUE),
## sep = "\n", collapse = "")
##
## ## create new text document object:
## new("PlainTextDocument", .Data = corpus, URI = elem$uri, Cached = TRUE,
## Author = author, DateTimeStamp = datetimestamp,
## Description = description, ID = id, Origin = origin,
## Heading = heading, Language = language)
## }
## })
###################################################
### chunk number 38: TransformExtension eval=FALSE
###################################################
## setGeneric("myTransform", function(object, ...) standardGeneric("myTransform"))
## setMethod("myTransform",
## signature(object = "PlainTextDocument"),
## function(object, ..., DMetaData) {
## Content(object) <- doSomeThing(object, DMetaData)
## return(object)
## })
###################################################
### chunk number 39: Reuters
###################################################
reut21578XMLgz <- system.file("texts", "reut21578.xml.gz", package = "tm")
(Reuters <- Corpus(ReutersSource(gzfile(reut21578XMLgz)),
readerControl = list(reader = readReut21578XML,
language = "en_US",
load = TRUE)))
###################################################
### chunk number 40:
###################################################
tmMap(Reuters, asPlain) 复制代码