如何高效处理Excel数据

如何高效处理Excel数据

我有各种变量的公司级数据,但缺少大量数据。因此,我想通过删除观察次数很少的公司来减少数据集的大小。我不想手动执行此操作。在 Excel 中是否有任何有效的方法可以解决此问题?

答案1

创建工作簿的副本,以便可以修改它

  1. 在新的工作簿中创建一个新工作表。

  2. 获取公司名称的唯一列表并将其放入新工作表中。您可以使用过滤器命令执行此操作而不重复。

  3. 现在,使用 countif() 函数计算每家公司出现的次数。根据此计算出您的截止值,即决定一家公司需要出现多少次才能被纳入。

  4. 假设您只想保留具有 10 个或更多观测值的公司。在包含所有观测值的原始工作表中,在一列中创建一个名为 COUNT 的新变量,并使用 VLOOKUP 函数在新工作表中查找公司名称并导入该公司出现的次数。这应该会为您提供一列,其中对于每家公司,您在 COUNT 列中都有一个值,对应于该公司出现的次数(该公司所有观测值的值应该相同)。

  5. 按 COUNT 变量以降序对原始工作表进行排序。这意味着观察次数最多的公司将排在最前面。

  6. 删除所有观察值少于 10 个的公司。

总结:计算每家公司出现的次数。按该值对观测值进行排序。删除观测值太少的公司。

我不知道这是否真的是一个统计问题,而更确切地说是一个 Excel 问题。

答案2

我会做一些类似于@Deathkill14 的回答的事情,但我会使用数据透视表构建步骤 1-5。在数据透视表字段列表窗格中,我会将公司名称拖到行标签,然后再次将其拖到值区域以获取按名称计数。

然后,我将单击数据透视表中的任何公司名称单元格,并从数据功能区中单击“排序”,然后选择“按公司名称数量降序排列”。

如果您尝试在 Excel 中管理大数据集,则应研究 Power Pivot(又称 Excel 数据模型)。​​它可以压缩数据以提高性能,并支持表关系和公式。

相关内容