正则表达式或 Excel:比较多行/列并从括号中找出不同的数字

正则表达式或 Excel:比较多行/列并从括号中找出不同的数字

我在将近 2,000 个 html 文件中都有此菜单。每个链接在末尾的括号中都有一个数字(该数字代表我在该部分中的文章数量)。

<li><a href="link_one.html" title="Link One">Love and Letters (25)</a></li>
<li><a href="link_two.html" title="Link Two">Books and Readers (23)</a></li>
<li><a href="link_3.html" title="Link 3">Windows and Doors (24)</a></li>
<li><a href="link_4.html" title="Link 4">Names and Addresses (5)</a></li>
<li><a href="link_5.html" title="Link 5">Other Stuff (14)</a></li>
<li><a href="link_6.html" title="Link 6">Cars and Roses (14)</a></li>
<li><a href="link_7.html" title="Link 7">Mobile and Laptop (36)</a></li>

现在,我必须检查所有 2,000 个菜单 html 文件中是否还有其他不同于这些数字的数字。例如,我想找到那些在链接 1 (26) 或链接 5 (13) 上有不同数字的 .html 页面,如以下菜单所示:

<li><a href="link_one.html" title="Link One">Love and Letters (26)</a></li>
<li><a href="link_two.html" title="Link Two">Books and Readers (23)</a></li>
<li><a href="link_3.html" title="Link 3">Windows and Doors (24)</a></li>
<li><a href="link_4.html" title="Link 4">Names and Addresses (5)</a></li>
<li><a href="link_5.html" title="Link 5">Other Stuff (13)</a></li>
<li><a href="link_6.html" title="Link 6">Cars and Roses (14)</a></li>
<li><a href="link_7.html" title="Link 7">Mobile and Laptop (36)</a></li>

基本上,我需要比较并发现与第一个菜单中不同的数字。有人能给我一个主意吗?请记住,我有 2,000 个文件,所以我可以逐个比较 :(

答案1

手动处理 2000 个文件是不切实际的,所以我搜索了自动执行此操作的方法,并找到了这个声称可以将多个 excel 文件合并为一个的网站。我尝试了一下,可以合并 2 个文件,然后我将其下载到我的盒子里。所以我认为他们可以做到。

http://www.docsoso.com/excel/combine-excel.aspx

我无法保证。我通过 Google 搜索并尝试了。

将 2000 个 excel 文件(您可以一次上传多个文件)上传到网站,然后获得一个 excel 文件。如果网站不允许一次上传这么多文件,请至少合并网站允许的尽可能多的文件,这样您仍会剩下 5 或 10 个可以手动管理的文件。

一旦创建了单个文件,您上面提供的链接应该位于 A 列中。

打开文件并选择A列的所有数据并排序

选择 A 列中的所有数据,转到菜单 - 数据 - 单击删除重复项。

它将删除所有重复的条目,即来自不同文件但具有相同文章编号的条目。

只剩下那些包含不同数量文章的行。

答案2

我用正则表达式找到了答案。要验证下面的公式,请比较我的基本帖子中的这两个菜单。此正则表达式将从第二个菜单中选择所有与第一个菜单中的数字不同的行。

搜索:

\s+<li><a href=".*\.html" title=".*">.* (?:(?!\b(25|23|24|5|14|14|36)\b).)*<\/a><\/li>$

相关内容