闲来无事,逛论坛的时候突发奇想,想要探究一下泛滥于论坛上的各种帖子,哪种类型最受大家欢迎,查看数和回复数最多。于是,我开始动手了。
俗话说:“巧妇难为无米之炊。”要想对论坛的帖子数据进行分析,首先得有数据。于是乎网络爬虫技术闪亮登场。
说到爬虫,那是Python的拿手好戏。然而小弟我已经习惯了使用土掉渣的VBA。。。Whatever,继承于曾经盛极一时的VB,加之编译型语言的速度优势,VBA还是易用而又强大的。不废话了,talk is cheap, show me the code.(见附图01)
鉴于论坛帖子数量的庞大和生命的有限,我这里只以版块“金融学(理论版)上传下载专区”为分析对象,而且只爬取了前100页的内容,得到了8000条帖子记录(除去未设置帖子类型的,共7224条)。(见附图02)
之后,就做了一个极其简单的数据透视表分析(谁叫我的目的如此单纯。。)。分析结果见附图03。
我们从这样的一张图表中可以发现什么呢?
其一,就发帖量而言,“教材与书籍”占据榜首,说明论坛上有很多人乐于分享经管书籍,分享知识,相信这也是秉承了论坛创办人的初心吧(知识产权什么的另说。。)。其次分别是“金融市场与投资”和“金融经济学”,而金融学研究版图中另外重要的两块——“公司金融”和“国际金融”则发帖量相对少了很多。“量化金融”作为近年来火得一塌糊涂的话题,发帖量达到325,跟“公司金融”几乎齐头并进,势头不可小觑。
其二,我们关注各类帖子的平均回复数和平均查看数。不同类别的帖子,这两个指标的表现总体相似,但也存在细微的差别。抛开“其他”这一分类,占据关注量前三甲的帖子类别为“量化金融”、“公司金融”和“数据”。“量化金融”的关注量之高相信大家不会惊讶,这玩意儿还自带点高科技的神秘色彩,动不动就跟高深莫测的数学模型和计算机技术搭上边;“数据”类帖子的表现我倒是始料未及,不过仔细想想也在情理之中,搞实证研究的哪能离开数据,经常还见人在论坛上各种求数据来着(兄弟我自己动手,丰衣足食,允许我骄傲三秒);再有就是“公司金融”,我是没搞明白这玩意儿为什么发帖量少但关注度还挺高,跟它发帖量差不多的“银行与金融监管”版块平均回复和查看数就差了一截,或许这一点值得进一步分析(当然也有可能只是统计的随机性,毕竟只爬了100页而已)。
爬虫和分析工作到这里暂告一段落。经此一役,我对“量化金融”的火火火有了更进一步的认识。不过话说回来,中国证券市场还徘徊在弱有效的边缘,能玩得转量化金融吗?(杠精搞不好怼我当年饭都吃不饱还搞原子弹呢,这是咱中国特色)。反正最后我是把这篇帖子发在了“量化金融”版,金融未必沾得上边,但量化分析却是妥妥的。朋友们,让我们看看这能不能成为我查看数最多的一篇帖子~~~
-----The end-----


雷达卡








京公网安备 11010802022788号







