我在物流行业工作,我们负责处理跟踪IDS。
我有超过 10 万行的大量数据,包含与跟踪 ID 相关的所有数据(转储)
我有一个跟踪 ID 列表,其中大部分都是数百个,我必须从转储中筛选出来并进行多次分析和计算
处理此类数据时,第一组分钟数非常长,因为 PQ 需要先加载所有数据,然后我们必须从中进行过滤,然后从那里获取数据
关于这一点有什么参考或解决方案吗?
示例:转储表
R D
1 a
2 b
3 c
列表表
R D
2 b
我只需要将第 2 行(b)加载到电源查询表中,这样我们就不必处理加载后的数据切片。
答案1
当然,一个简单的解决方案是不言而喻的。
如果 PQ 加载时间较长,请检查以电子表格形式打开是否需要明显更少的时间。如果是,请在第二个电子表格中FILTER
使用所需 ID 列表对数据进行操作。复制并粘贴|特殊|值并保存结果。
使用 PQ 打开第二个电子表格。
如果在电子表格而不是 PQ 中打开数据需要很长时间,或者根本不可能,那么这样做就不值得。此外,它可能在物理上比上面的直接路径更复杂,因此最终会变得令人讨厌。
当然,如果还没有这样做,人们会建议数据源尽可能地减少数据。这更多的是出于“没有不必要的数据列”的想法,而不是一种反面的说法,即让数据源为您过滤数据,这肯定不是一个可行的想法。但如果由于没有提供不需要的列而可以拥有较小的数据集...
我的GUESS
猜测是,如果您先加载要过滤的列表,然后再加载数据,PQ 可能会在加载时尝试工作,而且似乎比先加载数据再加载列表要花费更长的时间。因此,如果这是可能的,它可能会加快 PQ 的速度。但这只是猜测,而且 MS 很有可能想到了这么明显的事情。