故意污染 Excel 中的数据

故意污染 Excel 中的数据

我正在努力在网上寻找这个问题的答案。我有一个数据集,我想故意污染它。我正在挖掘关联规则,我想运行一些测试。理想情况下,我想随机选择 x% 的单元格并将其替换为“Null”或空白空间。有人对如何做到这一点有什么建议吗?

谢谢

答案1

只需使用 Python...

如果是“旧”xls 文件,请使用简写西林

如果它是一个“新” xlsx 文件,请使用开放的PYXL

使用 openpyxl 的示例

30 个随机细胞被消灭

import openpyxl as xl
import random

wb = xl.open("Book1.xlsx")
ws = wb.worksheets[0]
for n in range(30):
    r = random.randint(1,ws.max_row)      #  Note row indexes start at 1
    c = random.randint(0,ws.max_column-1) #  Note column indexes start at 0
    ws[r][c].value=None
wb.save("Book1b.xlsx")

相关内容