我经常收到文件,通常是 Excel 电子表格,其中包含手动输入的数据,这些数据已经超出了电子表格的实用性。然后我会清理这些文件以导入数据库。
这有时很容易,有时很费力,取决于数据的“干净”程度。
例如:
Name Age Phone #
J Smith 31 yo 8019219210
Smith, Mary Alice 43 (203) 456-7788
我翻译成:
First_Name Middle_Name Last_Name Age Phone_Number
J NULL Smith 31 801-921-9210
Mary Alice Smith 43 203-456-7788
我真的很喜欢一些软件,它可以帮我设置每列“应该是什么样子”的参数,自动标记可疑的值,并允许我循环浏览这些值以根据需要进行编辑。
有人知道是否存在这样的软件吗?我猜想它确实存在,但我不知道如何开始寻找它。
我还愿意接受有助于有效完成同类任务的标准操作程序。
谢谢!
答案1
答案2
如果您收到的文件中的列布局是半一致的,那么您可能可以编写一个宏来完成大多数操作。拆分姓名(使用规则来识别姓氏,后面跟逗号等),将年龄设为数字,格式化手机。
您甚至可以让它循环,并在有疑问时有条件地格式化该行以供进一步关注。