Pandas-Add missing years in time series data with duplicate years( pandas -在具有重复年份的时间序列数据中添加缺失年份)
本文介绍了 pandas -在具有重复年份的时间序列数据中添加缺失年份的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
我有一个这样的数据集,其中某些年份的数据丢失。
County Year Pop
12 1999 1.1
12 2001 1.2
13 1999 1.0
13 2000 1.1
我想要
County Year Pop
12 1999 1.1
12 2000 NaN
12 2001 1.2
13 1999 1.0
13 2000 1.1
13 2001 nan
我尝试将索引设置为Year,然后将Reindex与另一个数据帧的Just Year方法(这里提到的Pandas: Add data for missing months)一起使用,但它给出错误:无法使用重复值重新编制索引。我也试过df.loc,但它有同样的问题。我甚至尝试了一个只有几年的空白df的完全外连接,但也不起作用。
我如何解决此问题?
推荐答案
创建多个索引,这样就不会有重复项:
df.set_index(['County', 'Year'], inplace=True)
然后使用所有组合构造一个完整的多索引:
index = pd.MultiIndex.from_product(df.index.levels)
然后重新编制索引:
df.reindex(index)
多重指数的构建未经测试,可能需要稍作调整(例如,如果所有县完全不存在一年),但我认为您明白这一点。
这篇关于 pandas -在具有重复年份的时间序列数据中添加缺失年份的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持编程学习网!
沃梦达教程
本文标题为:pandas -在具有重复年份的时间序列数据中添加缺失
猜你喜欢
- ";find_element_by_name(';name';)";和&QOOT;FIND_ELEMENT(BY NAME,';NAME';)";之间有什么区别? 2022-01-01
- YouTube API v3 返回截断的观看记录 2022-01-01
- 检查具有纬度和经度的地理点是否在 shapefile 中 2022-01-01
- 我如何卸载 PyTorch? 2022-01-01
- CTR 中的 AES 如何用于 Python 和 PyCrypto? 2022-01-01
- 如何使用PYSPARK从Spark获得批次行 2022-01-01
- 计算测试数量的Python单元测试 2022-01-01
- 使用公司代理使Python3.x Slack(松弛客户端) 2022-01-01
- 我如何透明地重定向一个Python导入? 2022-01-01
- 使用 Cython 将 Python 链接到共享库 2022-01-01