楼主: Miss.Wén
1034 0

[问题] 麻烦给看下这种情况应该用什么办法进行数据采集比较好? [推广有奖]

  • 0关注
  • 3粉丝

已卖:724份资源

高中生

95%

还不是VIP/贵宾

-

威望
0
论坛币
5613 个
通用积分
1.1800
学术水平
2 点
热心指数
2 点
信用等级
2 点
经验
831 点
帖子
27
精华
0
在线时间
26 小时
注册时间
2011-10-13
最后登录
2018-10-29

楼主
Miss.Wén 在职认证  发表于 2014-1-2 19:44:14 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

我要从http://www.chosun.com(朝鲜日报,韩文)这个网站上,

先以2010.7.26~2010.8.24为时间区间,以무상급식为关键词,查找所有符合条件的新闻。

通过查找条件找到的页面如下:

http://search.chosun.com/search/news.search?query=%EB%AC%B4%EC%83%81%EA%B8%89%EC%8B%9D&pageno=0&orderby=docdatetime&naviarraystr=&kind=&cont1=&cont2=&cont5=&categoryname=&categoryd2=&c_scope=&sdate=2010.07.26&edate=2010.08.24&premium=

因为是很久之前的新闻,所以查看需要登陆,我已经注册好了有需要可以提供。

然后,有的新闻会有网友留言,比如下面这一篇新闻有84条留言。

http://news.chosun.com/site/data/html_dir/2010/08/20/2010082000149.html

?? ??.jpg

点击红色的(84)那个部分会跳转到本篇新闻的所有留言页面:

http://m100.chosun.com/svc/guest//list.html?flag=json&article=2010082000149&title=%5BNEWS%20%26%20VIEW%5D%20%26%2339%3B%uACF5%uC9DC%20%uAE09%uC2DD%26%2339%3B%uC758%20%uBAA8%uC21C&artcode_dir1=dirname&artcode_id=32&art_site=WWW&artbbs_site=WWW

我的目标是把每篇新闻下面的评论(网友ID,留言时间,留言内容,针对留言的留言,赞成,反对)这些信息采集下来。

留言形式如下图所示:

2.jpg

中间红色部分就是别的网友针对这个网友的留言的留言,后面是显示赞成(2 反对(0)。

以我弱爆了的计算机知识,再在网上查了查,本来以为通过pythonbeautifulsoup模块也许能够解决这个采集,但是我果然还是弱爆了,头疼了一天除了会用python弄个猜数字大小的小程序以外,连bs4都安装不上~

又查了查,看到说可以使用VB实现Excel自动获取网页源代码中特定数据什么的~我估摸着就是我想做的事情吧~

本来想自己琢磨一下这个,想了想还是放弃好了,一点基础都没有还是别浪费时间了,求助能人吧。

到底应该用什么办法去实现?有没有愿意帮忙的可以详谈~


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据采集 beautiful Category datetime orderby 朝鲜日报 数据采集 orderby 关键词 韩文

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-24 15:20