我正在尝试将我的 pyspark 应用程序 dockerize 以在 HDInsight Spark Cluster 上运行。对于从 docker 调用的简单作业,它会引发错误:
org.apache.spark.sql.AnalysisException: java.lang.RuntimeException: java.lang.RuntimeException: java.lang.ClassNotFoundException: Class org.apache.hadoop.fs.azurebfs.AzureBlobFileSystem not found;
我看到此属性在我的 HDInsight 群集上的 core-site.xml 文件中设置。我在哪里可以获取此 jar,以便我也可以在 docker 上安装它?基本的谷歌搜索没有返回任何结果。
谢谢。
答案1
您需要来自的 hadoop-azure.jarhttp://repo1.maven.org/maven2/org/apache/hadoop/hadoop-azure/