1准备

1准备

我已经阅读了一些上传文件或数据集的命令谷歌实验室或者在 Linux 终端中GitHub参见我之前的问题)。

但是我不知道如何上传数据集谷歌实验室或通过命令直接进入 Linux shell 进入 Kaggle。我怎样才能实现这个目标?

答案1

1准备

根据官方 Kaggle API 文档

  1. 安装 Kaggle 命令行界面(这里通过 Python 包管理器 PIP 安装):

    sudo apt install python3-pip
    pip3 install --user kaggle
    
  2. 为下一步创建配置目录:

    mkdir ~/.kaggle
    
  3. 验证:

    为了使用 Kaggle 的公共 API,您必须首先使用 API 令牌进行身份验证。在网站标题中,单击您的用户个人资料图片,然后从下拉菜单中单击“我的帐户”。这将带您进入您的帐户设置https://www.kaggle.com/account. 向下滚动到页面中标有 API 的部分:

    要创建新令牌,请点击“创建新 API 令牌”按钮。这将下载一个新的身份验证令牌到您的机器上。

    将其存储为~/.kaggle/kaggle.json,因为 CLI 默认会在此查找它。您只需将该路径复制并粘贴到 Web 浏览器的文件选择对话框中即可。

2 数据集上传

再次来自同一个官方 API 文档

创建新数据集

以下是在 Kaggle 上创建新数据集的步骤:

  1. 创建一个包含要上传的文件的文件夹。

  2. 跑步

    kaggle datasets init -p /path/to/dataset
    

    生成元数据文件

  3. 将数据集的元数据添加到生成的文件中datapackage.json

  4. 跑步

    kaggle datasets create -p /path/to/dataset
    

    创建数据集。

您的数据集默认为私密数据集。您还可以-u在创建数据集时添加标记以将其设为公开,或者从数据集页面导航至“设置”>“共享”以将其设为公开或与协作者共享。

创建新的数据集版本

如果您想上传现有数据集的新版本,请按以下步骤操作:

  1. 跑步

    kaggle datasets init -p /path/to/dataset
    

    生成元数据文件(如果您还没有)。

  2. 确保(或)id中的字段指向您的数据集。dataset-metadata.jsondatapackage.json

  3. 跑步:

    kaggle datasets version -p /path/to/dataset -m "Your message here"
    

这些说明是在 Kaggle 上创建和更新数据集所需的基本命令。您可以从 GitHub 上的官方文档中找到更多详细信息:

看我的回答,这似乎是一种告诉你阅读手册的好方法。;-]

相关内容