我是 Hadoop 和 Spark 的新手。安装后,当我在 pyspark 中运行测试时,我使用格式错误的保存命令将测试文件写入目录。我没有保存到特定文件,而是保存到现有工作目录,导致 spark 删除目录的一部分(仅删除部分,因为命令已通过 ctrl+C 取消)。
是否有可能恢复丢失的数据?
pyspark 命令是:
df.write.format("parquet").mode("overwrite").save("/some_work_directory")
该目录/some_work_directory
被部分覆盖但并未完全删除,因为它是一个很大的目录,当它挂起时我取消了该命令。