用于半自动清理混乱数据(平面文件、Excel 等)的软件工具?

用于半自动清理混乱数据(平面文件、Excel 等)的软件工具?

我经常收到文件,通常是 Excel 电子表格,其中包含手动输入的数据,这些数据已经超出了电子表格的实用性。然后我会清理这些文件以导入数据库。

这有时很容易,有时很费力,取决于数据的“干净”程度。

例如:

Name            Age     Phone #
J Smith         31 yo   8019219210
Smith, Mary Alice  43     (203) 456-7788

我翻译成:

First_Name  Middle_Name Last_Name      Age  Phone_Number
J            NULL        Smith          31   801-921-9210
Mary          Alice       Smith          43   203-456-7788

我真的很喜欢一些软件,它可以帮我设置每列“应该是什么样子”的参数,自动标记可疑的值,并允许我循环浏览这些值以根据需要进行编辑。

有人知道是否存在这样的软件吗?我猜想它确实存在,但我不知道如何开始寻找它。

我还愿意接受有助于有效完成同类任务的标准操作程序。

谢谢!

答案1

更新:Google Refine 已转型为社区驱动项目,开放的Refine


在我发布这篇文章后,谷歌发布了谷歌优化,它似乎具有我所想象的所有功能,并且还包含一些其他功能。

当我发现 Refine 时,我刚找到了一份新工作,没有机会测试它,所以我无法评论它的质量。如果你用过它并且它有用,请投票支持这个答案。如果它得到几票,我会选择这个答案。

答案2

如果您收到的文件中的列布局是半一致的,那么您可能可以编写一个宏来完成大多数操作。拆分姓名(使用规则来识别姓氏,后面跟逗号等),将年龄设为数字,格式化手机。

您甚至可以让它循环,并在有疑问时有条件地格式化该行以供进一步关注。

相关内容