我尝试将文件拆分为 n 个匹配项。该文件只有一行,分隔符是'<br>'
foo<br>bar<br>.....<br>
我只想将文件分成几部分,每个文件有 100 个数据集(text plus <br>
)(通常是 100 个数据集,但最后可能更少)
我已经玩过这个了...使用 sed 将文件拆分为 2 个和这个根据模式将一个文件拆分为多个文件
sed.exe -e "^.*.<br>{0,100}/g" < original.txt > first_half.txt
分割不起作用,结果只有 1 个文件而不是多个。
答案1
awk -v n=100 -v RS="<br>" -v ORS="<br>" '++i % n == 0 {printf "\n"} 1' file
测试
$ printf "%d<br>" $(seq 100)
1<br>2<br>3<br>4<br>5<br>6<br>7<br>8<br>9<br>10<br>11<br>12<br>13<br>14<br>15<br>16<br>17<br>18<br>19<br>20<br>21<br>22<br>23<br>24<br>25<br>26<br>27<br>28<br>29<br>30<br>31<br>32<br>33<br>34<br>35<br>36<br>37<br>38<br>39<br>40<br>41<br>42<br>43<br>44<br>45<br>46<br>47<br>48<br>49<br>50<br>51<br>52<br>53<br>54<br>55<br>56<br>57<br>58<br>59<br>60<br>61<br>62<br>63<br>64<br>65<br>66<br>67<br>68<br>69<br>70<br>71<br>72<br>73<br>74<br>75<br>76<br>77<br>78<br>79<br>80<br>81<br>82<br>83<br>84<br>85<br>86<br>87<br>88<br>89<br>90<br>91<br>92<br>93<br>94<br>95<br>96<br>97<br>98<br>99<br>100<br>
$ printf "%d<br>" $(seq 100) |
awk -v n=10 -v RS="<br>" -v ORS="<br>" '++i % n == 0 {printf "\n"} 1'
1<br>2<br>3<br>4<br>5<br>6<br>7<br>8<br>9<br>
10<br>11<br>12<br>13<br>14<br>15<br>16<br>17<br>18<br>19<br>
20<br>21<br>22<br>23<br>24<br>25<br>26<br>27<br>28<br>29<br>
30<br>31<br>32<br>33<br>34<br>35<br>36<br>37<br>38<br>39<br>
40<br>41<br>42<br>43<br>44<br>45<br>46<br>47<br>48<br>49<br>
50<br>51<br>52<br>53<br>54<br>55<br>56<br>57<br>58<br>59<br>
60<br>61<br>62<br>63<br>64<br>65<br>66<br>67<br>68<br>69<br>
70<br>71<br>72<br>73<br>74<br>75<br>76<br>77<br>78<br>79<br>
80<br>81<br>82<br>83<br>84<br>85<br>86<br>87<br>88<br>89<br>
90<br>91<br>92<br>93<br>94<br>95<br>96<br>97<br>98<br>99<br>
100<br>
答案2
我在 RHEL 机器上使用 sed 时收到未知命令。可能是因为您使用的是 Windows,而 sed.exe 将其^.*.<br>{0,100}
作为 g 命令的模式。
echo "foo<br>bar<br>...baz<br>" | sed -e "^.*.<br>{0,100}/g"
sed: -e expression #1, char 1: unknown command: `^'
您是否尝试将每个匹配项放入模式空间。我认为这种方法行不通,因为像 sed "/pattern/command" 这样的匹配项每行只会执行一次,所以在您的情况下总共执行一次。即使以不同的方式分隔文本,您也会将输出重定向到单个文件。
这是一个更简单的方法来替换所有出现的
:
echo "foo<br>bar<br>...baz<br>" | sed -e "s/<br>\{1,100\}/\n/g"
foo
bar
...baz
然后可以使用 split 将每一行放在不同的文件中