用于解析自动生成的 HTTP 索引的工具？

Question

我假设您的意思是您想要解析 HTTP 响应中包含的 HTML。
如果您熟悉 PHP，则可以使用curl 检索页面，然后使用 PHP 的将字符串解析为其 DOM 结构DOM文档类，然后您可以通过查询 DOMDocument 实例来检索感兴趣的innerHTML。
作为命令行 PHP 脚本

#!/usr/bin/php

// curl or readfile or whatever for url and assign HTML body into variable $html
$html = '<!DOCTYPE html>
<html>
<head>
    <meta charset="utf-8">
    <meta name="viewport" content="width=device-width">
    <title></title>
    link
</head>
<body>
    <h1>stuff in directory listing</h1>
</body>
</html>
';

$DOM = @DOMDocument::loadHTML($html);

$element = $DOM->getElementsByTagName("h1")->item(0);
echo $element->nodeValue;

无论如何我都会这样做，原因是因为

它将提供灵活的实现，您可以适应网络服务器给您的不同响应。
尝试通过正则表达式解析内容会非常困难（我猜）

这里有一个演示-http://codepad.viper-7.com/apsiKR

Answer 1

我假设您的意思是您想要解析 HTTP 响应中包含的 HTML。
如果您熟悉 PHP，则可以使用curl 检索页面，然后使用 PHP 的将字符串解析为其 DOM 结构DOM文档类，然后您可以通过查询 DOMDocument 实例来检索感兴趣的innerHTML。
作为命令行 PHP 脚本

#!/usr/bin/php

// curl or readfile or whatever for url and assign HTML body into variable $html
$html = '<!DOCTYPE html>
<html>
<head>
    <meta charset="utf-8">
    <meta name="viewport" content="width=device-width">
    <title></title>
    link
</head>
<body>
    <h1>stuff in directory listing</h1>
</body>
</html>
';

$DOM = @DOMDocument::loadHTML($html);

$element = $DOM->getElementsByTagName("h1")->item(0);
echo $element->nodeValue;

无论如何我都会这样做，原因是因为

它将提供灵活的实现，您可以适应网络服务器给您的不同响应。
尝试通过正则表达式解析内容会非常困难（我猜）

这里有一个演示-http://codepad.viper-7.com/apsiKR

用于解析自动生成的 HTTP 索引的工具？

答案1

相关内容