大模型评测

大模型列表

大模型对比

搜索博客

加载中...

DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台，持续更新可落地的 AI 能力图谱。

产品

评测榜单
模型对比
数据资源

资源

部署教程
原创内容
工具导航

关于

关于我们
隐私政策
数据收集方法
联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例，为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款

Dask的Merge操作性能对比 | DataLearnerAI

首页/
博客列表/
博客详情

Dask的Merge操作性能对比

2020/05/24 18:32:52

3,809 阅读

dask python 分布式计算

在前面的博客中，我们已经对Dask做了一点简单的介绍了，在这篇博客中我们来对比一下Dask的DataFrame在不同条件下的运算性能，主要是连接操作的性能（merge)。

Dask中的DataFrame实际是多个pandas的DataFrame的集合，merge操作是最常见的操作之一。但是，不同情况下的merge操作对性能的影响很大。本节主要考虑以下因素来比较连接操作的性能。

1、DataFrame中列的数量 2、join的字段是否是index 3、join的字段是整形还是字符串 4、DataFrame中partition的数量 5、关联的列是否有序

这篇博文中的项目已经在Github中释放了，链接如下： https://github.com/df19900725/datalearner_python_exp

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送

DataLearner 官方微信二维码

返回博客列表

相关博客

运行dask程序报错：Task exception was never retrieved
Dask concat throws ValueError: Shape of passed values is (xxx, xxx), indices imply (xxx, xxx)
Dask调度器简介
Dask分布式任务中包含写文件的方法时候，程序挂起不结束的解决方案
pandas.DataFrame.to_csv和dask.dataframe.to_csv在windows下保存csv文件出现多个换行结果
dask的dataframe的值变成1和foo的解决方法
通过命令行的方式建立Dask集群

为了对比，我们用generate_table_data.py来生成数据。

一、列的数量的影响
二、join的字段是否被设置成index
三、关联的字段是整型还是字符串
四、DataFrame中的partition数量
五、关联的列是否有序
六、总结

一、列的数量的影响

Dask可以读取文件夹下所有的文件，但是，你也可以选择读取所有的列，还是读取指定的列。这里我们生成两个数据：

第一个数据是10个文件，每个文件有100,0000行，每一行有50个字段。第二个数据是2个文件，每个文件500,0000行，每一行是5个字段。

我们使用如下语句进行关联：

df3 = df1.merge(df2, on="id", how="left")
df3.to_csv(output_dir)

最后发现，读取所有的字段进行关联需要947秒，而仅仅读取2个字段进行关联只需要69秒。因此，尽量只读取你需要的数据进行关联，这将加快你的处理速度。

二、join的字段是否被设置成index

通常情况下，DataFrame格式的数据包含了index，也就是每一行的行名，index可以是根据需要生成的行号，也可以是指定的某一列，如ID列作为index。关联的时候，是以index进行关联还是以某一列关联效率是不同的。因为Dask中设置了index之后，这一列的数据将会进行排序和分割，形成不同的divisions，divisions包括每个partition索引的最小值和最后一个partition索引的最大值。这对关联和group都很有帮助。

在这个实验中，我们做了如下几个实验，注意，这些数据集的ID都是排序好的，同时，数据二，也就是要关联的数据的index设置与数据一是保持一致的：

| 实验组 | 数据 | 文件数 | 字段数 | 文件行数 | 字段类型|index | 耗时（秒） | ------------ | ------------ | | 实验一 | 数据集一 | 1 | 10 | 1000,0000 | string | N |72 | 实验一 | 数据集一 | 1 | 10 | 1000,0000 | string | Y |57 | 实验一 | 数据集二 |2 | 5 | 50,0000 | string | \ |
| | 实验二 | 数据集一 | 1 | 10 | 1000,0000 | integer | N |54 | 实验二 | 数据集一 | 1 | 10 | 1000,0000 | integer | Y |33 | 实验二 | 数据集二 | 2 | 5 | 500000 | integer | \ |
| | 实验三 | 数据集一 | 10 | 10 | 100,0000 | string | N |66 | 实验三 | 数据集一 | 10 | 10 | 100,0000 | string | Y |53 | 实验三 | 数据集二 | 2 | 5 | 50,0000 | string | \ |
| | 实验四 | 数据集一 | 10 | 10 | 100,0000 | integer | N |43 | 实验四 | 数据集一 | 10 | 10 | 100,0000 | integer | Y |30 | 实验四 | 数据集二 | 2 | 5 | 500000 | integer | \ | \

从以上四组实验中我们都可以发现，不管在什么情况下，把要关联的字段设置为index会加速关联的处理。

三、关联的字段是整型还是字符串

关联的时候需要设置以那一列关联，或者是以index关联，这一列的类型是字符串还是整型也将影响关联的效率。还是上述四组实验，我们更换一下对比的顺序：

| 实验组 | 数据 | 文件数 | 字段数 | 文件行数 | 字段类型|index | 耗时（秒） | ------------ | ------------ | | 实验一 | 数据集一 | 1 | 10 | 1000,0000 | string | N |72 | 实验一 | 数据集一 | 1 | 10 | 1000,0000 | integer | N |54 | 实验一 | 数据集二 |2 | 5 | 50,0000 | \ | N |
| | 实验二 | 数据集一 | 1 | 10 | 1000,0000 | string | Y |57 | 实验二 | 数据集一 | 1 | 10 | 1000,0000 | string | Y |33 | 实验二 | 数据集二 | 2 | 5 | 500000 | integer | Y |
| | 实验三 | 数据集一 | 10 | 10 | 100,0000 | string | N |66 | 实验三 | 数据集一 | 10 | 10 | 100,0000 | integer | N |43 | 实验三 | 数据集二 | 2 | 5 | 50,0000 | string | Y |
| | 实验四 | 数据集一 | 10 | 10 | 100,0000 | string | Y |53 | 实验四 | 数据集一 | 10 | 10 | 100,0000 | integer | Y |30 | 实验四 | 数据集二 | 2 | 5 | 500000 | integer | Y | \

从这四个实验来看，显然关联的列如果是integer类型，它的关联速度要远快于string类型。它的效果甚至比设置index还要好。

四、DataFrame中的partition数量

Dask中DataFrame的partition数量也会影响关联的速度，一般来说，单个文件如果能被放到内存中，那么几个文件读取就会有几个partition。在上述实验中我们也可以看到，partition的数量适当多一点也会加快运行的速度。但是这也不是绝对的。当partition数量过多的时候，也会消耗调度的资源。因此，分布式情况下，这种情况需要慎重考虑，官方推荐一般一个partition的大小为100MB最合适。但实际我们使用发现不一定，32MB有时候也很好。

五、关联的列是否有序

上述实验都是在有序的ID情况下进行关联得到的结果。但实际上很多时候未必ID是有序的。我们也构造了一个乱序的数据集。实验如下：

| 实验组 | 数据 | 文件数 | 字段数 | 文件行数 | 字段类型|index | 有序|耗时（秒） | ------------ | ------------ | | 实验一 | 数据集一 | 10 | 10 | 100,0000 | string | N |N|62 | 实验一 | 数据集一 | 10 | 10 | 100,0000 | string | N |Y|66 | 实验一 | 数据集二 | 2 | 5 | 50,0000 | string | N |
| | 实验二 | 数据集一 | 10 | 10 | 100,0000 | string | Y |N|120 | 实验二 | 数据集一 | 10 | 10 | 100,0000 | string | Y |Y|53 | 实验二 | 数据集二 | 2 | 5 | 500000 | string | Y |
| | 实验二 | 数据集一 | 10 | 10 | 100,0000 | integer | N |N|47 | 实验二 | 数据集一 | 10 | 10 | 100,0000 | integer | N |Y|43 | 实验二 | 数据集二 | 2 | 5 | 500000 | integer | N |
| | 实验二 | 数据集一 | 10 | 10 | 100,0000 | integer | Y |N|59 | 实验二 | 数据集一 | 10 | 10 | 100,0000 | integer | Y |Y|30 | 实验二 | 数据集二 | 2 | 5 | 500000 | integer | Y | \

如上表所示，当关联的字段是index的时候，乱序要比有序慢很多，但如果是其他的列，那么乱序并不比排序的结果慢。这个应该是由于乱序的话设置index是需要时间的。

六、总结

根据这些实验其实我们也可以看到，如果希望提高dask的merge效率，有几个比较值得操作的是将关联的字段尽量设置为整型的字段，整型的列对关联的效率的提升非常有帮助，其次是要将关联的列设置为index，这会提高dask对dataframe的理解，进而提升关联的速度，最后，还是最好将数据排个序，虽然这是比较耗时的，但对于merge的提升也是客观的。

并行计算中如何提高处理效率——来自Dask的提示

热门博客

1Dirichlet Distribution（狄利克雷分布）与Dirichlet Process（狄利克雷过程）
2回归模型中的交互项简介（Interactions in Regression）
3贝塔分布（Beta Distribution）简介及其应用
4矩母函数简介（Moment-generating function）
5普通最小二乘法（Ordinary Least Squares，OLS）的详细推导过程
6使用R语言进行K-means聚类并分析结果
7深度学习技巧之Early Stopping（早停法）
8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署