我有各种变量的公司级数据,但缺少大量数据。因此,我想通过删除观察次数很少的公司来减少数据集的大小。我不想手动执行此操作。在 Excel 中是否有任何有效的方法可以解决此问题?
答案1
创建工作簿的副本,以便可以修改它
在新的工作簿中创建一个新工作表。
获取公司名称的唯一列表并将其放入新工作表中。您可以使用过滤器命令执行此操作而不重复。
现在,使用 countif() 函数计算每家公司出现的次数。根据此计算出您的截止值,即决定一家公司需要出现多少次才能被纳入。
假设您只想保留具有 10 个或更多观测值的公司。在包含所有观测值的原始工作表中,在一列中创建一个名为 COUNT 的新变量,并使用 VLOOKUP 函数在新工作表中查找公司名称并导入该公司出现的次数。这应该会为您提供一列,其中对于每家公司,您在 COUNT 列中都有一个值,对应于该公司出现的次数(该公司所有观测值的值应该相同)。
按 COUNT 变量以降序对原始工作表进行排序。这意味着观察次数最多的公司将排在最前面。
删除所有观察值少于 10 个的公司。
总结:计算每家公司出现的次数。按该值对观测值进行排序。删除观测值太少的公司。
我不知道这是否真的是一个统计问题,而更确切地说是一个 Excel 问题。
答案2
我会做一些类似于@Deathkill14 的回答的事情,但我会使用数据透视表构建步骤 1-5。在数据透视表字段列表窗格中,我会将公司名称拖到行标签,然后再次将其拖到值区域以获取按名称计数。
然后,我将单击数据透视表中的任何公司名称单元格,并从数据功能区中单击“排序”,然后选择“按公司名称数量降序排列”。
如果您尝试在 Excel 中管理大数据集,则应研究 Power Pivot(又称 Excel 数据模型)。它可以压缩数据以提高性能,并支持表关系和公式。