请选择 进入手机版 | 继续访问电脑版
楼主: cyu107
1150 1

[网帖精选] python装饰器的巧用 [推广有奖]

  • 4关注
  • 4粉丝

副教授

13%

还不是VIP/贵宾

-

威望
0
论坛币
24652 个
通用积分
11.6801
学术水平
52 点
热心指数
55 点
信用等级
46 点
经验
11563 点
帖子
245
精华
1
在线时间
623 小时
注册时间
2012-11-4
最后登录
2024-1-3

cyu107 发表于 2014-6-11 13:30:34 |显示全部楼层 |坛友微信交流群

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

python装饰器的巧用

          我们来模拟一个场景,需要你去抓去一个页面,然后这个页面有好多url也要分别去抓取,而进入这些子url后,还有数据要抓取。简单点,我们就按照三层来看,那我们的代码就是如下:

def func_top(url):    data_dict= {}     #在页面上获取到子url    sub_urls = xxxx     data_list = [    for it in sub_urls:        data_list.append(func_sub(it))     data_dict['data' = data_list     return data_dict def func_sub(url):    data_dict= {}     #在页面上获取到子url    bottom_urls = xxxx     data_list = [    for it in bottom_urls:        data_list.append(func_bottom(it))     data_dict['data' = data_list     return data_dict def func_bottom(url):    #获取数据    data = xxxx    return data

    func_top是上层页面的处理函数,func_sub是子页面的处理函数,func_bottom是最深层页面的处理函数,func_top会在取到子页面url后遍历调用func_sub,func_sub也是同样。

      如果正常情况下,这样确实已经满足需求了,但是偏偏这个你要抓取的网站可能极不稳定,经常链接不上,导致数据拿不到。

于是这个时候你有两个选择:

  • 遇到错误就停止,之后重新从断掉的位置开始重新跑
  • 遇到错误继续,但是要在之后重新跑一遍,这个时候已经有的数据不希望再去网站拉一次,而只去拉没有取到的数据

对第一种方案基本无法实现,因为如果别人网站的url调整顺序,那么你记录的位置就无效了。那么只有第二种方案,说白了,就是要把已经拿到的数据cache下来,等需要的时候,直接从cache里面取。

      OK,目标已经有了,怎么实现呢?

    如果是在C++中的,这是个很麻烦的事情,而且写出来的代码必定丑陋无比,然而庆幸的是,我们用的是python,而python对函数有装饰器。

    所以实现方案也就有了:

    定义一个装饰器,如果之前取到数据,就直接取cache的数据;如果之前没有取到,那么就从网站拉取,并且存入cache中.

代码如下:

import osimport hashlib def deco_args_recent_cache(category='dumps'):    '''    装饰器,返回最新cache的数据    '''    def deco_recent_cache(func):        def func_wrapper(*args, **kargs):            sig = _mk_cache_sig(*args, **kargs)            data = _get_recent_cache(category, func.__name__, sig)            if data is not None:                return data             data = func(*args, **kargs)            if data is not None:                _set_recent_cache(category, func.__name__, sig, data)            return data         return func_wrapper     return deco_recent_cache def _mk_cache_sig(*args, **kargs):    '''    通过传入参数,生成唯一标识    '''    src_data = repr(args) + repr(kargs)    m = hashlib.md5(src_data)    sig = m.hexdigest()    return sig def _get_recent_cache(category, func_name, sig):    full_file_path = '%s/%s/%s' % (category, func_name, sig)    if os.path.isfile(full_file_path):        return eval(file(full_file_path,'r').read())    else:        return None def _set_recent_cache(category, func_name, sig, data):    full_dir_path = '%s/%s' % (category, func_name)    if not os.path.isdir(full_dir_path):        os.makedirs(full_dir_path)     full_file_path = '%s/%s/%s' % (category, func_name, sig)    f = file(full_file_path, 'w+')    f.write(repr(data))    f.close()

       然后,我们只需要在每个func_top,func_sub,func_bottom都加上deco_args_recent_cache这个装饰器即可~~

     搞定!这样做最大的好处在于,因为top,sub,bottom,每一层都会dump数据,所以比如某个sub层数据dump之后,是根本不会走到他所对应的bottom层的,减少了大量的开销!



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:python Category RETURN bottom recent python技巧 python基础教程

tanxinwei 发表于 2014-6-11 13:33:03 |显示全部楼层 |坛友微信交流群
好文,学习了

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-3-29 22:15