Dask是一款用于分析计算的灵活并行计算库。
Dask 是一个开源项目,为你提供 NumPy 数组、Pandas Dataframes 以及常规 list 的抽象,
允许你使用多核处理器并行运行它们的操作。
Dask是一个并行计算库,能在集群中进行分布式计算,能以一种更方便简洁的方式处理大数据量,
与Spark这些大数据处理框架相比较,Dask更轻。Dask更侧重与其他框架,
如:Numpy,Pandas,Scikit-learning相结合,从而使其能更加方便进行分布式并行计算。
Dask由两部分组成:
·针对计算优化的动态任务调度。这与Airflow,Luigi,Celery或Make类似,但针对交互式计算工作负载进行了优化。
· "大数据"集合, 像并行数组,数据框和列表一样,它们将通用接口(如NumPy,Pandas或Python迭代器)扩展到大于内存或分布式环境。
这些并行集合运行在动态任务调度器之上。


雷达卡




京公网安备 11010802022788号







