pandas提速315倍~

发布时间：2021-04-11 16:24:41 所属栏目：评论来源：互联网

导读：那些写Pythonic风格的人来说，这个设计看起来很自然。然而，这个循环将会严重影响效率。原因有几个：首先，它需要初始化一个将记录输出的列表。其次，它使用不透明对象范围(0，len(df))循环，然后再应用apply_tariff()之后，它必须将结果附加到用于创建新D

那些写Pythonic风格的人来说，这个设计看起来很自然。然而，这个循环将会严重影响效率。原因有几个：

首先，它需要初始化一个将记录输出的列表。

其次，它使用不透明对象范围(0，len(df))循环，然后再应用apply_tariff()之后，它必须将结果附加到用于创建新DataFrame列的列表中。另外，还使用df.iloc [i]['date_time']执行所谓的链式索引，这通常会导致意外的结果。

这种方法的最大问题是计算的时间成本。对于8760行数据，此循环花费了3秒钟。

接下来，一起看下优化的提速方案。一种可以通过pandas引入iterrows方法让效率更高。这些都是一次产生一行的生成器方法，类似scrapy中使用的yield用法。

.itertuples为每一行产生一个namedtuple，并且行的索引值作为元组的第一个元素。nametuple是Python的collections模块中的一种数据结构，其行为类似于Python元组，但具有可通过属性查找访问的字段。

.iterrows为DataFrame中的每一行产生（index，series）这样的元组。

在这个例子中使用.iterrows，我们看看这使用iterrows后效果如何。

pply的语法优点很明显，行数少，代码可读性高。在这种情况下，所花费的时间大约是iterrows方法的一半。

但是，这还不是“非常快”。一个原因是apply()将在内部尝试循环遍历Cython迭代器。但是在这种情况下，传递的lambda不是可以在Cython中处理的东西，因此它在Python中调用并不是那么快。

如果我们使用apply()方法获取10年的小时数据，那么将需要大约15分钟的处理时间。如果这个计算只是大规模计算的一小部分，那么真的应该提速了。这也就是矢量化操作派上用场的地方。

（编辑：济南站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

荣耀X30 Max跌破两千元	moto带来两款王牌旗舰
电力行业大转折点来临	锂电池终局，咋看？