- import numpy as np
- x = np.array([2, 3, 5, 7, 11, 13])
- x * 2
而在实际的数据分析项目中,我们也常常能够遇见由字符串构成的序列,如人名、地名等等,下面将分享一些处理字符串序列的基本方法,以及一些简单的数据读写方法。首先,大小写的处理是我们处理字符串时常见的问题,Python 内置的函数 capitalize 能够帮助我们将各种形式的字符串转化为首字母大写的形式:
- data = ['peter', 'Paul', 'MARY', 'gUIDO']
- [s.capitalize() for s in data]
需要注意的是,这个函数无法处理缺失值,所以在转换大小写形式前,请确认你的目标字符串列表里没有缺失值:
- data = ['peter', 'Paul', None, 'MARY', 'gUIDO']
- [s.capitalize() for s in data]
接下来,我们来看一下如何处理含有字符串元素的 Pandas 序列,首先我们构建一个 Pandas 序列 name:
- import pandas as pd
- names = pd.Series(data)
- names
可以看到,我们的序列 name 中存在一个缺失值 None,我们可以通过 Pandas 序列的 str 属性将序列中的字符串元素提取出来,并调用 capitalized 函数,从而将所有字符串都转化为首字母大写的形式:
- names.str.capitalize()
类似地,我们还可以运用函数 lower 将所有的字符串转化为小写形式:
- monte = pd.Series(['Graham Chapman', 'John Cleese', 'Terry Gilliam',
- 'Eric Idle', 'Terry Jones', 'Michael Palin'])
- monte.str.lower()
查看字符串长度:
- monte.str.len()
检查字符串首字母是否为 T:
- monte.str.startswith('T')
以上内容转自 数析学院,原文后续还有字符串分割、正则表达式匹配等较为复杂的内容,有需要的同学可以直接访问原文查看


雷达卡




京公网安备 11010802022788号







