发帖

楼主: 邢不行

1998 1

[交易策略] 量化投资中经常使用Excel，可能会被同事打【邢不行|量化小讲堂54】（上） [推广有奖]

12关注
1299
粉丝

已卖：1906份资源

院士

10%

还不是VIP/贵宾

-

0%

威望: 1 级
论坛币: 26755 个
通用积分: 156.8592
学术水平: 489 点
热心指数: 509 点
信用等级: 460 点
经验: 53138 点
帖子: 585
精华: 26
在线时间: 1200 小时
注册时间: 2010-4-30
最后登录: 2026-1-19

楼主

邢不行

发表于 2020-5-11 10:00:41 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

引言:

邢不行的系列帖子“量化小讲堂”，通过实际案例教初学者使用python进行量化投资，了解行业研究方向，希望能对大家有帮助。

【必读文章】:《10年400倍策略分享-附视频逐行讲解代码》

《EOS期现套利，一周时间，15%无风险收益》

【历史文章汇总】:https://bbs.pinggu.org/thread-3950124-1-1.html

个人微信：xbx9585，有问题欢迎交流

量化投资中经常使用Excel，可能会被同事打

[img=1080,1080][/img]

这是邢不行第 54期量化小讲堂的分享

作者 | 方宁、邢不行

在量化研究中，使用Python处理数据之前，常常需要要先肉眼看一下数据，形成最直观的认识。

当你打开数据文件，99%的情况系统会默认帮你选择Excel打开，这是初学者最常用的表格工具，没有之一。确实在多数情况下，Excel可以很好的显示数据，也方便我们做初步的排序、筛选、作图。

但使用Excel也有一些隐藏的深坑，不注意的话很容易带来麻烦。

本文就来细数Excel的那些坑，并且提供解决方法。同时，也会推荐更适合在量化投资中，用来查看数据的工具。

[img=650,80][/img]

下面这张图就是上证指数日K线的一小段，注意看最后两列数据：

[img=444,202][/img]

Excel 列太窄的时候，会显示成“###”或省略掉小数部分

倒数第二列没有正常显示成交量数字，而是显示为“####”；

最后一列开盘价应该精确到小数点后三位，但图中只有整数部分。

这是数据的问题吗？要不要检查下数据来源重新采集数据？

答案是不需要。让我们看看文件数据本来的样子：

[img=742,188][/img]

真实csv数据的样子

我们发现原始数据跟Excel显示的很不一样，是不是感觉 Excel 吃掉了很多细节？如果我们不知道的话，很容易觉得是数据有问题，然后费劲心思重新爬了一遍，还是显示成这个样子。

但是其实数据好着呢，有问题的是Excel显示格式：你的数字太宽了，Excel忽略显示了部分内容。

这种情况也很好办：把你觉得显示不完整的列拉宽即可。

[img=216,233][/img]

[img=600,90][/img]

上文中倒数两列成交额和开盘价不是显示不完整嘛，我们手动拉宽这两列，然后成交额就显示成了下图中类似于1.2E+10这种格式：

[img=530,365][/img]

Excel 会使用科学记数法显示长数字

这和我们原始数据的中展示的仍然不一样。Excel这么显示的原因是因为当数字过大时，会默认使用科学计数法展示数字，以节省屏幕上显示的空间。

很多人不习惯用科学计数法来看数字，确实科学计数法只显示前几位有效数字，不方便我们形成对数据的直观感受。

不想看到科学计数法也很好办，分两步走：

1.把显示成科学计数法的列拉宽；

2.拉宽还不行的，选中整列，手动调整单元格格式，推荐直接设成文本。

[img=740,598][/img]

选中整列设置单元格格式

[img=580,580][/img]

推荐把单元格格式设成文本

[img=600,85][/img]

我们再来看一个日期格式的例子。

在原始数据中，日期是“年-月-日”这样的格式：

[img=610,174][/img]

原始csv数据，日期格式为 “年-月-日”

但是到了Excel里打开，日期就从“年-月-日”，变成了 “年/月/日”。

[img=604,162][/img]

用Excel查看csv文件，日期格式为“年/月/日”

这么显示是因为 Excel 会自动判断单元格的格式，一旦判断成日期的数据，就会自动转换成“年/月/日”的格式。

这个坑副作用很大：如果用Excel打开并保存了，日期的格式就会从“年-月-日”变成“年/月/日”，原本是我们常用的pandas可以直接识别的日期格式，转换之后就需要手动调用 pd.to_datetime 函数来处理。

针对这个问题，可以只用 Excel 打开，不用 Excel 保存，这样就只是看着不一样了，数据还是不变的。或者在单元格格式里设成“日期”类别里的“年-月-日”格式。

[img=600,85][/img]

有的时候，我们用Excel打开的历史数据所有中文都是乱码，遇到过的人都知道那是怎样一种绝望的体验：

10 .jpg

[img=566,132][/img]

用Excel看某些csv文件中文是乱码

这是因为不同系统下中文的编码格式不同，unix/linux家族，包括mac、linux、ios、android系统默认使用utf8编码，windows使用的是GBK/GB2312编码。这两种编码的中文字符都是互不兼容的。

当我们使用Python读入导出数据时默认使用utf8编码，而不管是mac还是windows下的Excel都使用GBK编码，这就导致了Python导出的文件用Excel读中文会乱码的问题。

[img=640,391][/img]

不同编码问题的例子和原因

只要不使用Excel修改文件，对我们用Python量化分析就没有影响。不可避免地会干扰我们看数据：中文乱码了之后，我们就不知道每一列数据对应的是什么了，连哪列是开盘价哪列是前收盘价都不知道，很难形成对数据的直观认识。

而一旦用Excel打开发现是乱码，然后用Excel保存了之后，在Python里面读取中文也是乱码，到了这一步基本上就无药可救了。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏2 回帖

关键词：excel缺陷 python vscode 编程数据分析

[交易策略] 量化投资中经常使用Excel，可能会被同事打【邢不行|量化小讲堂54】（上） [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

[交易策略] 量化投资中经常使用Excel，可能会被同事打【邢不行|量化小讲堂54】（上） [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群