GitHub排名前20的Pandas, NumPy 和SciPy函数 [color=rgb(0, 0, 0) !important]大数据文摘
摘要: 几个月前,我看到一篇博文根据Github上的实例,列出了一些最流行的python库中最常用的函数/模块。我已将这些结果做了可视化并写下每个库中排名前10的例子。我在下文中列举了一些,完整版本可以在IPython notebook文 ...
几个月前,我看到一篇博文根据Github上的实例,列出了一些最流行的python库中最常用的函数/模块。我已将这些结果做了可视化并写下每个库中排名前10的例子。 我在下文中列举了一些,完整版本可以在IPython notebook文件中获得(链接地址https://github.com/agalea91/most ... hon_functions.ipynb)。 Github上最流行的Pandas,Pandas.DataFrame, NumPy和SciPy函数。 我使用python的requests和BeautifulSoup从原始博文中抓取了统计数据,并用matplotlib和seaborn制作了条形图,图中各个函数是按照包含实例的特殊库的数量排列的。例如,我们可以看到,尽管pd.Timestamp在Github上的所有实例中占有很大比例,但在项目中的使用频率并不如其它函数。 Pandas 1)Dataframe: 创建一个dataframe对象 6) 合并:合并dataframe NumPy 3)arange: 在两个限值之间创建一个均等间隔值的数组。 8) mean:得到一个列表/数组所有数值的平均值或者行或列的平均值。 SciPy 1)stats: 一个包含不同统计函数和分布的模块(连续和离散)。 5)linalg: 此外,这个模块包含线性代数函数,包括inverse (linalg.inv),determinant(linalg.det),,和matrix/vector norm (linalg.norm)以及eigenvaluetools,例如:linalg.eig。 6)interpolate: 一个包含样条曲线和其它插值工具的模块。 8)signal: 这个模块必须直接引用,它包含信号处理工具。 10)misc: 一个包含了“仅在此出现的实用函数”的模块。基于谷歌搜索结果,人们常用misc.imread 和 mics.imsave来打开和保存图片。 |