Dask的Merge操作性能对比
在前面的博客中,我们已经对Dask做了一点简单的介绍了,在这篇博客中我们来对比一下Dask的DataFrame在不同条件下的运算性能,主要是连接操作的性能(merge)。
Dask中的DataFrame实际是多个pandas的DataFrame的集合,merge操作是最常见的操作之一。但是,不同情况下的merge操作对性能的影响很大。本节主要考虑以下因素来比较连接操作的性能。
1、DataFrame中列的数量 2、join的字段是否是index 3、join的字段是整形还是字符串 4、DataFrame中partition的数量 5、关联的列是否有序
这篇博文中的项目已经在Github中释放了,链接如下:
