我有大约 50 个关于某公司银行付款的 html 文件。我必须在文件中搜索序列号。我用它Agent Ransack
来搜索文件内容。但我的问题是关于HTML
文件中数字的格式,即波斯语/阿拉伯语;类似۲۶۴۲۰۸۵۷
。但这个数字并没有存储在源文件中26420857
。实际上,它以字符串的形式存储在 html 文件的源文件中,如下所示:۱۳۹۲/۱۱/۲۵
!
因此,当我尝试查找包含的文件时26420857
,结果将为空。我该如何解决这个问题?
我尝试将数字转换为&#
格式,但我不知道该怎么做。我也尝试使用 notepad++ 将&#
格式数字转换为普通数字,但我做不到。
答案1
您可以使用 Microsoft Word 读取 HTML,然后将其保存为“纯文本”文件,同时指定编码为 UTF-8 或阿拉伯 ISO。我想您可以在 Word 中搜索阿拉伯文本,而无需保存文件。
或者,如果 HTML 页面是阿拉伯语,而不是英语/阿拉伯语混合的,您可以尝试谷歌翻译。它需要两个 URL 链接,或者您可以直接复制/粘贴 html 内容。