之前已经初步统计过了每一年发帖里排在前10的坛友,并感谢他们对论坛的大力支持,正是因为他们的积极发帖,丰富了论坛的资源,在一定程度上也带动其他坛友的讨论,论坛的发展离不开每一位注册会员支持。可以说,帖子是论坛存在的基础,而高质量的帖子是论坛存在的灵魂。没有帖子,也就没有资源,也就没有人继续搜索,因而论坛的发展也会受到限制。好在,长久以来,我们的论坛发展一直都还不错,有很多会员见到论坛上没有资源,也会积极的上传,资源共享。所以,作为数据交流中心的版主助理,很高兴看到这样的情况,也希望我们的版块可以发展得越来越好。
下面,我们用统计数据来观察一些可能有趣的现象。
一、我们从发帖时间的角度来看:
1.在年份方面:
我们版块从2004年的2条帖子,一直发展到现在2014年,发帖量在波动上升中。似乎今年的发帖量成为了这5年来的最低值。
相比于2012年,少了1000多条帖子。不知道是什么原因。
2.在月份方面:
还是可以看出一点规律来的。3、4、5这三个月份发帖量基本持平,没有太大变化。6、7月份,发帖量明显下来了,可能这个时候,大部分同学要考试什么的,来论坛逛的时间也少了不少。到了8月份,发帖里就明显上升了,达到最高峰,猜测这个时间可能是大部分人帮导师做事,或者做自己的论文,数据需要得比较多吧。然后到了9月份和10月份,学生开学,刚开学,要处理的事情也比较多,也要处理一些事情。到11月和12月,又是一段黄金时间,大家在论坛上比较活跃。之所以没有从1月份开始,是因为要看一下从12月份接过来,就知道了接下来的日子,到了要放寒假,回家过年的日子,大家陆续离开了学校,因而发帖量也随之减少。而2月份一般春节的点,因为2004年的帖子只有2条,不用考虑。从2006年过年开始到2014年,春节的日期分别为:1月29日,2月18日,2月7日,1月26日,2月14日,2月3日,1月23日,2月1日,1月31日。从这9年中,我们可以看出,过年的日期大部份都在5个都在2月份,而其它的都在1月底,有的已经是29或31日了。所以与春节相关的时候,发帖量最少我们算是找到了一个理由吧。
3.再来看一周之中的发帖里:
周六和周日发帖量最少,这一点没有意外。周一和周二,大家可能觉得周六和周日玩得多了些,心里有点惭愧,便在周一和周二好好地搞一下学术,坚持了两天,发现到周三了,坚持不了了,然后一直拖,到了周五,发现要双休了,要努力做点东西,最好能把周六和周日的事情都做完,这样就可以痛快地过一个双休了。而事实上,我们大部分人是做不到周五就把两天的事情全部解决的。不过周五的发帖量确实还挺多,比起周六和周日。
二、从发帖内容来看:
发帖内容,因本人能力有限,只能做一些简单的统计分析,可能要见笑于大神们了。
获得“版主推荐”的有65条帖子,而我们总共有23996条。也就是获得这样殊荣的比例仅为0.27%,连1%都不到,这是说明高质量的帖子太少,还是我们版主对获得推荐的帖子要求太高呢,这一点我无法给出回答。
再来看一下女生帖,我刚开始搜的时候,是没有的,后来看了一下,才发现本版中的女生帖都变成了“女生贴”,这样的帖子一共有456条,占比1.9%,比例也不多的。再来看一下,标有“求助”的帖子,一共是178条,也不是很多。而当我查找标有“年鉴”的帖子时,得到了数字是11095条,所占百分比为46.24%,说明我们数据交流中心的大部分帖子,还是以年鉴为主。这一点毋庸置疑了。
然后我用的R语言中的jiebaR这个包,对主题帖进行了分词处理,并且进行了词频统计,在前100里剔除掉一些虚词,最终得到下面这一张表格。
中心词 | 词频 | 中心词 | 词频 | 中心词 | 词频 | 中心词 | 词频 |
年鉴 | 11330 | | 831 | 行业 | 432 | 各省 | 328 |
统计 | 8827 | 报告 | 791 | 分享 | 429 | 1996 | 323 |
年 | 6344 | 2002 | 786 | 1990 | 428 | CAJ | 319 |
中国 | 6272 | 免费 | 737 | 论坛 | 428 | 农业 | 316 |
数据 | 4639 | 全国 | 736 | 历年 | 422 | 企业 | 315 |
2010 | 2050 | 2001 | 687 | 投资 | 416 | 国家 | 311 |
2009 | 1749 | 美国 | 631 | 统计数据 | 401 | 1978 | 304 |
2011 | 1653 | 城市 | 615 | 资料 | 400 | 季度 | 302 |
图标 | 1646 | 光盘版 | 612 | 原创 | 395 | 汇总 | 298 |
已阅 | 1640 | 月度 | 586 | excel | 393 | 上市公司 | 297 |
2008 | 1609 | 工业 | 580 | 1997 | 389 | 年度 | 295 |
2007 | 1451 | GDP | 579 | 投入产出 | 389 | 房地产 | 293 |
2006 | 1431 | 发展 | 567 | 1995 | 374 | 我国 | 293 |
2012 | 1424 | 指数 | 566 | 科技 | 374 | 贸易 | 289 |
2005 | 1419 | 1999 | 512 | 金融 | 369 | 最新 | 289 |
经济 | 1367 | | 512 | 能源 | 366 | 资料汇编 | 280 |
2004 | 1038 | 表 | 498 | 农村 | 366 | 统计资料 | 278 |
2013 | 948 | 1998 | 468 | 人口 | 354 | 指标 | 277 |
月 | 908 | 数据库 | 468 | 主要 | 349 | EXCEL | 264 |
2000 | 878 | 女生 | 456 | 社会 | 344 | ||
2003 | 845 | 格式 | 451 | 公报 | 343 | ||
世界 | 840 | 地区 | 449 | 各国 | 335 |
解释一下,年鉴这个词的词频为11330,比之前的11095多,是因为11095是一条帖子里只要包含“年鉴”就计数。之所以多,是因为有的帖子里,出现年鉴的次数大于1。通过词频,我觉得大家关注比较多的还是年份数据,再大一点,就是宏观数据为主流。
于是,一个可能解释最年本版发帖量在下降的原因:最近学术界的动态都开始向着微观数据了,而微观数据的获取程度不易,因而大家掌握的数据也相应地变少,而对宏观研究的需求虽然也有不少,但是学术方向已经在变了,而且微观数据又和近两年来大数据这个概念相契合,大家做研究的也没办法。
只能说,未来对我们的要求越来越严格,我们必须要提高自己的能力,去跟上时代的潮流,同时,也希望本版的数据可以向着微观数据转移,继续壮大起来。
附言:在本帖子中,用发帖量,近似替代了大家搞学术的热情,我也只是用这个来说明一些问题,大家如果有更好的变量,欢迎讨论。