引言:
邢不行的系列帖子“量化小讲堂”,通过实际案例教初学者使用python进行量化投资,了解行业研究方向,希望能对大家有帮助。
【必读文章】:《10年400倍策略分享-附视频逐行讲解代码》
【历史文章汇总】:https://bbs.pinggu.org/thread-3950124-1-1.html
个人微信:xbx9585,有问题欢迎交流
接上文
Excel 存在最大行数限制,顾名思义,Excel只能显示到一定行数,超过这个最大行数的部分就不显示了。不知道这个坑的时候,就会“咦,我的数据怎么没了?”。
2003版本只能显示到65536行,之后的版本可以显示到1048576行。同样的,也存在最大列数限制。超出这个范围的数据Excel不会显示。
好在最大行数限制没有副作用,只是显示问题,不影响数据。就算用 Excel 打开再保存了,也不会丢掉没有显示的数据。
以上Excel的问题,导致在用它来查看数据时不是很顺手。更好的做法是使用专业的文本编辑器来查看数据。
下面推荐三个方案供大家选择:
1.Notepad++
2.Visual Studio Code
3.Pycharm
另外,因为绝大多数文本编辑器不能读Excel格式的文件。所以在数据工作中,大家千万不要把数据保存成Excel格式,而是推荐使用csv格式存储原始数据。csv本质上就是一个纯文本文件,用文本编辑器和Excel都能方便打开。
Notepad++是一款强大的文本编辑器,只支持Windows,不支持mac。软件很小,非常轻便。使用Notepad++可以看到csv数据原始的样子:
使用notepad++查看csv文件
用notepad++根本不会遇到刚刚上文说的5个坑。可以显示出csv数据最原始的样子,没有行数限制,能自动识别文件使用的是GBK还是UTF8编码。自动识别不出来的时候也可以手动指定编码,基本不用担心遇到乱码的问题。
当然,跟Excel比起来,缺点也很明显:
1.没有对齐,想要对应哪列是什么数据比较费劲。特别是数据的位数变化比较大的时候,整体看起来会很乱;
2.不能筛选、排序等等;
3.只能读取csv格式,不能读xls、xlsx等格式;
4.仅限Windows系统使用。
我们下面推荐另一款软件,可以解决 Notepad++ 的这几个缺陷。
VSCode(Visual Studio Code)是近几年兴起的编辑器。特点是插件强大,通过自带的市场安装一些插件,可以达到极值的体验。
直接用 VSCode 打开csv文件就和 Notepad++ 显示的结果一样:
一旦装上“Excel viewer”插件,就可以实现接近Excel的显示效果,甚至还可以筛选和排序。
VSCOde 安装 Excel viewer 插件
安装好插件之后,我们就可以使用插件来查看csv和xlsx格式的数据文件了。
使用Excel viewer 插件查看文件的方法
使用Excel Viewer查看文件的效果
配合Excel viewer插件,使用VSCode查看数据的体验非常接近Excel。
总结下,使用VSCode配合插件有以下几个优点:
1.不用担心单元格格式问题,显示的就是数据原本的样子;
2.不存在最大行数限制;
3.可以方便地更改文件编码;
4.可以查看csv和xlsx格式;
5.可以像 Excel 一样筛选和排序;
6.全平台制霸。不管是Windows、macOS还是Linux,都可以使用VSCode和绝大多数插件。
另外,如果是参与了邢不行Python量化交易课程的同学,会看到邢不行经常使用Pycharm 来做量化分析。其实 Pycharm 功能也很强大,可以当做文本编辑器来使用。让我们看看在Pycharm中怎么查看 csv 格式的数据文件。
通常我们做Python量化都会使用Pycharm来写程序,所以如果能直接用Pycharm来查看就更好了。
事实上是可以的。csv就是纯文本,直接用Pycharm打开看就和notepad++一样。另外,我们也可以给Pycharm装插件,让Pycharm看csv的体验接近Excel。
Pycharm 安装csv插件
安装完后需要重启Pycharm让插件生效,我们打开一个csv文件,看起来没有什么变化。仔细观察就会发现最下面多了一个选项:
Pycharm查看csv文件
Pycharm表格视图查看csv文件
稍微调整下显示格式之后,就可以像在Excel里面一样看csv格式的文件。
使用Pycharm来查看数据文件,除了不会遇到前面说到 Excel 的五个坑之外还有以下几个优点:
1.表格视图接近 Excel 的体验;
2.使用Pycharm 同学可以不用另外装软件了;
3.全平台制霸,通吃Windows、macOS和Linux。
相对而言,缺点也明显:
1.对不用pycharm的同学来说,就要另外装一个重量级的软件;
2.不支持筛选、排序;
3.只能读取csv格式。
前面说到的Excel坑,都是很多人会问起的。编码问题、显示问题和最大行数限制,如果不是事先知道这些坑,碰上了都会觉得是数据的问题,然后大费周章不止一次地重采数据,结果问题并没有解决。
由于我们使用Excel仅仅是为了查看数据形成对数据的直观感受,实在没必要浪费力气跟Excel死磕。
建议查看数据的时候不要用Excel,换文本编辑器来看数据。前面说到的notepad++、VSCode、Pycharm就是很好的选择,可以根据自己的情况选择合适的。
联系邢不行:关于量化的任何问题,或者想要了解其他内容,可以加我的微信(xbx9585)和我交流。