我要从http://www.chosun.com(朝鲜日报,韩文)这个网站上,
先以2010.7.26~2010.8.24为时间区间,以“무상급식”为关键词,查找所有符合条件的新闻。
通过查找条件找到的页面如下:
因为是很久之前的新闻,所以查看需要登陆,我已经注册好了有需要可以提供。
然后,有的新闻会有网友留言,比如下面这一篇新闻有84条留言。
http://news.chosun.com/site/data/html_dir/2010/08/20/2010082000149.html
点击红色的(84)那个部分会跳转到本篇新闻的所有留言页面:
我的目标是把每篇新闻下面的评论(网友ID,留言时间,留言内容,针对留言的留言,赞成,反对)这些信息采集下来。
留言形式如下图所示:
中间红色部分就是别的网友针对这个网友的留言的留言,后面是显示赞成(2) 反对(0)。
以我弱爆了的计算机知识,再在网上查了查,本来以为通过python的beautifulsoup模块也许能够解决这个采集,但是我果然还是弱爆了,头疼了一天除了会用python弄个猜数字大小的小程序以外,连bs4都安装不上~
又查了查,看到说可以使用VB实现Excel自动获取网页源代码中特定数据什么的~我估摸着就是我想做的事情吧~
本来想自己琢磨一下这个,想了想还是放弃好了,一点基础都没有还是别浪费时间了,求助能人吧。
到底应该用什么办法去实现?有没有愿意帮忙的可以详谈~


雷达卡




京公网安备 11010802022788号







