楼主: 充实每一天
6813 95

20180426【充实计划】第689期   [推广有奖]

51
白色裙裾 发表于 2018-4-26 10:28:55
昨日阅读2小时,累计阅读65小时
已有 1 人评分论坛币 收起 理由
充实每一天 + 10 精彩帖子

总评分: 论坛币 + 10   查看全部评分

52
yitansishui 发表于 2018-4-26 10:42:47
今天读了2.5小时,累计94.5小时
已有 1 人评分论坛币 收起 理由
充实每一天 + 10 精彩帖子

总评分: 论坛币 + 10   查看全部评分

53
冷甜心 发表于 2018-4-26 10:51:46
昨天阅读1小时,累计阅读143小时
已有 1 人评分论坛币 收起 理由
充实每一天 + 10 精彩帖子

总评分: 论坛币 + 10   查看全部评分

54
myJGw 发表于 2018-4-26 11:19:57
昨日阅读时间1小时,总阅读时间259小时
已有 1 人评分论坛币 收起 理由
充实每一天 + 10 精彩帖子

总评分: 论坛币 + 10   查看全部评分

55
bztian 发表于 2018-4-26 11:50:44
昨日阅读2小时,累计阅读139小时。
已有 1 人评分论坛币 收起 理由
充实每一天 + 10 精彩帖子

总评分: 论坛币 + 10   查看全部评分

56
GKINGLIU 在职认证  发表于 2018-4-26 12:20:19
DAY #26

1.主题
Data analysis in Python with pandas全30集
https://www.bilibili.com/video/av6785636/?p=3
NumPy 数据科学基本训练
https://www.bilibili.com/video/av11263377/?p=12

2.摘要
loc[ ] 与 iloc[ ] 用法:
ufo.loc[ufo.City=='Oakland','State']
ufo.loc[ : , ['City','State']]
ufo.loc[[0, 2, 4], 1 : 4] ——>包括第四列数据
ufo.head(4).drop('Time',axis =1)——>loc[  , ]用行列锁定区域,:表示连续选择多项,[  , ]表示多项单独选择

ufo.iloc[ : , 0 : 4 ] ——> 不包括第四列数据
ufo.iloc[ : , [0,3] ] ——> iloc[ ,]用integer锁定行与列

保存与读取文件:
train.to_pickle('newtrain.pkl')
pd.read_pickle('newtrain.pkl')

随机抽样:
ufo.sample(4) ——>抽取4个
ufo.sample(frac = 0.05) ——>抽取5%

时间处理:
ufo['Time'] = pd.to_datetime(ufo.Time) ——> 将ufo.Time转为默认时间格式
ufo.Time.dt.month ——> 查询ufo.Time列的年份、月份数、时刻。。。。
ts = pd.to_datetime('3/2/1955')
ufo.loc[ufo.Time >= ts] ——> 设定时间戳ts,并筛选出此刻之后的数据

重复:
ufo.duplicated().sum() ——>对整个表格用duplicated查重,并统计重复的记录数
ufo.loc[ufo.duplicated() , : ]  ——>传入duplicated的布尔值,查看所有重复的记录行
ufo.drop_duplicates( ) ——> 用drop_duplicates删除重复行,
ufo.duplicated(subset = ['Time', 'Year']) ——> 用subse限定范围查重

显示:
pd.get_option('display.max_rows') ——>查出默认显示行数
pd.set_option('display.max_rows', None) ——>修改显示行数,None表示显示全部记录数,100表示显示100行
pd.reset_option('display.max_rows') ——>恢复默认
pd.get_option('display.max_colwidth')——>查出默认显示列宽
pd.set_option('display.max_colwidth', 100)
pd.get_option('display.precision')——>查出默认小数点后保留位数
pd.set_option('display.precision’,2)——>修改小数点后为2位
pd.reset_option('all’)——> 全部恢复默认值

查阅文档:
pd.describe_option() ——>查阅所有文档
pd.describe_option('date')

创建DataFrame并指定列名称排序与索引:
df = pd.DataFrame({ 'id' : [101, 102, 103], 'color' : ['red' , 'black', 'green']},columns = ['id', 'color'], index = ['a', 'b','c'])
pd.DataFrame([[101, 'red'] , [102, 'black'] , [ 103, 'green']] , columns = ['id' , 'color'])

apply的用法:
train['Name_length'] = train.Name.apply(len) ——>单独对某列的单元格逐个运用函数len,只写上函数名
drinks.loc[ : , 'beer_servings' : 'wine_servings'].applymap(float) ——> 对整个DataFrame的每个单元格运用函数,只写上函数名

添加说明文字markdown:
# 写上说明文字 ,距离#要有空格 ,然后ESC + M,再shift + Enter,就可以啦~~

3.心得感悟
还是要多听牛人的课程,尤其是geek的播客,尤其是 视频/音频 + 配套资料 的模式,可以大幅增加参与度,随时练手,~~

jupyter notebook还有好多功能,都很神奇,要多学一点!

牛人的讲解让人茅塞顿开,也意识到了python + numpy + pandas的工具组合真乃科研神器!!

牛人讲解 + 视频/音频 + 配套资料 的模式就是以后挑选学习资料的标准,读书笔记 + 多轮复习 就是最快的学习路径。

4.时间统计
昨日阅读5小时,累计530小时
已有 2 人评分论坛币 学术水平 热心指数 信用等级 收起 理由
充实每一天 + 60 精彩帖子
obaby85 + 5 + 5 + 5 精彩帖子

总评分: 论坛币 + 60  学术水平 + 5  热心指数 + 5  信用等级 + 5   查看全部评分

57
franky_sas 发表于 2018-4-26 12:23:26
昨天阅读1小时,累计阅读428小时
已有 1 人评分论坛币 收起 理由
充实每一天 + 10 精彩帖子

总评分: 论坛币 + 10   查看全部评分

58
左风右雨 发表于 2018-4-26 12:57:00
昨天阅读1小时,累计阅读377小时。
已有 1 人评分论坛币 收起 理由
充实每一天 + 10 精彩帖子

总评分: 论坛币 + 10   查看全部评分

59
wy_wy001 发表于 2018-4-26 12:59:07
昨日阅读5小时,累计阅读10小时
已有 1 人评分论坛币 收起 理由
充实每一天 + 10 精彩帖子

总评分: 论坛币 + 10   查看全部评分

60
安然的纪念 发表于 2018-4-26 13:09:50
昨天阅读半小时,累计28小时,工作出了很大变动,要加油做好平衡,努力提高自己!

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jr
拉您进交流群
GMT+8, 2026-3-6 12:08