PySpark Load Packages for Pandas UDF#39;s(Pandas UDF的PySpark加载包)
本文介绍了Pandas UDF的PySpark加载包的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
我曾尝试关注Databricks的博客帖子here,但不幸的是一直收到错误。我正在尝试安装PANDA、PYARROW、NumPY和h3库,然后能够访问我的PySpark集群上的这些库,但按照这些说明操作是不起作用的。
- Conda init--All(然后关闭并重新打开终端)
- conda create-y-n pyspark_conda_env-c conda-forge pyrow pandas h3 numpy python=3.7.10 conda-pack
- conda激活pyspark_conda_env
- conda pack-f-o pyspark_conda_env.tar.gz
import os
from pyspark.sql import SparkSession
os.environ['PYSPARK_PYTHON'] = "./environment/bin/python"
spark = SparkSession.builder.config(
"spark.yarn.archive", # 'spark.yarn.dist.archives' in YARN.
"~/gzk/pyspark_conda_env.tar.gz#environment").getOrCreate()
我可以做到这一点,但当我实际尝试运行 pandas UDF时,我收到错误:ModuleNotFoundError: No module named 'numpy'
如何解决此问题并使用 pandas UDF?
推荐答案
我最终解决了这个问题,方法是为我的AWS EMR集群编写一个引导脚本,该脚本将在所有节点上安装我需要的所有包。我始终无法按照上面的说明正常工作。
有关引导脚本的文档可以在以下位置找到:https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-plan-bootstrap.html
这篇关于Pandas UDF的PySpark加载包的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持编程学习网!
沃梦达教程
本文标题为:Pandas UDF的PySpark加载包


猜你喜欢
- 我如何卸载 PyTorch? 2022-01-01
- 检查具有纬度和经度的地理点是否在 shapefile 中 2022-01-01
- CTR 中的 AES 如何用于 Python 和 PyCrypto? 2022-01-01
- 使用 Cython 将 Python 链接到共享库 2022-01-01
- 计算测试数量的Python单元测试 2022-01-01
- 使用公司代理使Python3.x Slack(松弛客户端) 2022-01-01
- YouTube API v3 返回截断的观看记录 2022-01-01
- 我如何透明地重定向一个Python导入? 2022-01-01
- 如何使用PYSPARK从Spark获得批次行 2022-01-01
- ";find_element_by_name(';name';)";和&QOOT;FIND_ELEMENT(BY NAME,';NAME';)";之间有什么区别? 2022-01-01