BigQuery 数据提取中出现流错误导致不一致

Question

您在 Gist 中提供的错误是java.net.SocketTimeoutException: Read timed outHttpClient，当套接字操作在本地超时时，Java 会抛出该异常。它不是由 BigQuery 服务直接抛出的（尽管可能由于某些服务器端问题导致连接突然终止而间接导致）。

AbackendError有所不同 - 这将指示（通常）服务器暂时出现故障或远程发生其他错误情况，BigQuery 服务能够在保持连接打开的同时发出信号。

这两种错误都有可能发生在记录提取之前、之中或之后，这就是为什么您有时会看到没有记录、部分记录或所有记录都被写入。BigQuery非交易性，因此由于错误而发生部分插入。

因此，回答你的问题：

除了查询应该写入的数据并检查其是否存在之外，没有简单的方法可以区分这三种情况。由于流式插入是分批进行的，因此更简单的方法是退避并在失败的批次上重试，这可能会覆盖任何现有数据。这是insertId提供字段 - 以避免重复和确保数据一致性重试插入时。
从上面继续，您应该以相同的方式处理SocketTimeoutException和的所有情况backendError，即始终重试失败的批次并使用insertId以避免重复。
另外扩展一下1.，即使数据已经写入，任何超时或系统问题仍然可能发生，特别是在的情况下SocketTimeoutException。

Answer 1

您在 Gist 中提供的错误是java.net.SocketTimeoutException: Read timed outHttpClient，当套接字操作在本地超时时，Java 会抛出该异常。它不是由 BigQuery 服务直接抛出的（尽管可能由于某些服务器端问题导致连接突然终止而间接导致）。

AbackendError有所不同 - 这将指示（通常）服务器暂时出现故障或远程发生其他错误情况，BigQuery 服务能够在保持连接打开的同时发出信号。

这两种错误都有可能发生在记录提取之前、之中或之后，这就是为什么您有时会看到没有记录、部分记录或所有记录都被写入。BigQuery非交易性，因此由于错误而发生部分插入。

因此，回答你的问题：

除了查询应该写入的数据并检查其是否存在之外，没有简单的方法可以区分这三种情况。由于流式插入是分批进行的，因此更简单的方法是退避并在失败的批次上重试，这可能会覆盖任何现有数据。这是insertId提供字段 - 以避免重复和确保数据一致性重试插入时。
从上面继续，您应该以相同的方式处理SocketTimeoutException和的所有情况backendError，即始终重试失败的批次并使用insertId以避免重复。
另外扩展一下1.，即使数据已经写入，任何超时或系统问题仍然可能发生，特别是在的情况下SocketTimeoutException。

BigQuery 数据提取中出现流错误导致不一致

答案1

相关内容