我在 notepad++ 中有一些我从未见过的条目。我在许多行中突出显示了带有SGCI
SSA
PU1
PU2
MW
和的方块SPA
,如果在此处复制/粘贴,则所有内容都会翻译/变成“
我正在寻找一种方法来从条目中删除这些字符。Google 表示它们是“控制字符”,但这些字符太多了,我无法手动尝试删除。
尝试过[\x00-\x09\x0B-\x0C\x0E-\x1F]
但显然它没有/没有覆盖有问题的字符。
这里有几行示例,以防我的原始帖子不够清楚。
这是文件本身。
答案1
所有这些字符都是 UTF8
- Ctrl+H
- 查找内容:
[\x{0080}-\x{0099}]
或[\x00-\x09\x0B-\x0C\x0E-\x1F]
- 替换为:
LEAVE EMPTY
或任何你想要的 - 查看 环绕
- 查看 正则表达式
- Replace all
解释:
[ # character class
\x{0080} # from character http://www.fileformat.info/info/unicode/char/0080/index.htm
- # upto
\x{0099} # character http://www.fileformat.info/info/unicode/char/0099/index.htm
] # end character class
[ # character class
\x00-\x09 # hex 00 to 09
\x0B-\x0C # hex 0B to 0C
\x0E-\x1F # hex 0E to 1F
] # end character class
您可以调整范围以准确满足您的需求。
截图(之前):
我从您的示例文件中摘取了一些行。
截图(之后):
在这里我使用XXX
替换来查看替换完成的位置。
答案2
答案3
SGCI
或者“单一图形角色介绍者”(U+0099)和PU2
,或者更确切地说“私人用途二”(U+0092) 属于“Latin-1-supplement”块的一部分,从 开始[\x80-\xFF]
。这里你可以看到这个区块中的所有字符。
因此,要删除两者SGCI
,PU2
您需要找到:
[\x99\x92]
替换为无。