是否有开源/商业软件可以对大量带有标记元数据以便于分类的 pdf 文档进行自动内容分析(以生成期望的摘要)?Google 使用什么技术来解析网络托管的 pdf 并对其进行排名?
答案1
我不确定 Google 使用的是哪种软件,但可以使用 ABCpdf.NET 等软件组件在服务器端读取和创建 PDF 文档。这需要具备一些 Microsoft IIS 服务器的 ASP 或 ASP.NET (Active Server Pages) 编程知识,或 Apache Web 服务器的 PHP 编程知识。