对目录中的所有文件的标点符号拆分文本

Question

根据Abhijit 的回答在 stackoverflow 上的相关问题上，可以使用模块punctuation中的类string并将其用作re.sub()函数内的模式。

该glob模块不是特别必要的，因为您可以利用命令行上的全局功能，并稍微缩短代码。

#!/usr/bin/env python3
import sys,re
from string import punctuation
for name in sys.argv[1:]: 
    with open(name) as f:
        for line in f:
            l = re.sub( '[{}]'.format(punctuation), '\n', line.strip()   )
            print(l)

使用input.txt如下文件：

Foo, bar !
Baz, foobar.
alpha: beta ?

该脚本的工作原理如下：

$ ./split_words.py  input.txt
Foo
 bar 

Baz
 foobar

alpha
 beta

Answer 1

根据Abhijit 的回答在 stackoverflow 上的相关问题上，可以使用模块punctuation中的类string并将其用作re.sub()函数内的模式。

该glob模块不是特别必要的，因为您可以利用命令行上的全局功能，并稍微缩短代码。

#!/usr/bin/env python3
import sys,re
from string import punctuation
for name in sys.argv[1:]: 
    with open(name) as f:
        for line in f:
            l = re.sub( '[{}]'.format(punctuation), '\n', line.strip()   )
            print(l)

使用input.txt如下文件：

Foo, bar !
Baz, foobar.
alpha: beta ?

该脚本的工作原理如下：

$ ./split_words.py  input.txt
Foo
 bar 

Baz
 foobar

alpha
 beta

对目录中的所有文件的标点符号拆分文本

答案1

相关内容