宏重载、catcode 重新定义...或者如何使用 TeX 解析 XML？

Question

假设以下输入示例：

<?xml version="1.0" encoding="utf8"?>
<cenik>
  <nazev>Počítačové komponenty</nazev>
  <platnost od="1.1.2000" do="31.3.2000"/>
  <dodavatel>
    <nazev>První hardwarová, s.r.o.</nazev>
    <adresa>
      <ulice>Průmyslová 12</ulice>
      <mesto>Praha 10</mesto>
      <psc>100 000</psc>
      <email>[email protected]</email>
   </adresa>
  </dodavatel> 
  <nabidka>
    <produkt kategorie="polohovací zařízení" kod="pxbd-21">
      <nazev>Hyperoptická <em>digitální</em> myš</nazev>
      <cena mena="CZK">368.30</cena>
    </produkt>
    <produkt kategorie="pevné disky" kod="sbhd-99">
      <nazev>Soft-slow disc &lt; 19,3 GB</nazev>
      <cena mena="CZK">8500</cena>
    </produkt>
    <produkt kategorie="polohovací zařízení" kod="pxbd-13">
      <nazev>Tlakový tablet</nazev>
      <cena mena="CZK">5635.20</cena>
    </produkt>
  </nabidka>
</cenik>

然后尝试\xmlprep {input} {output}使用pdftex thisfile命令通过我的宏来处理它。

\newwrite\xmloutfile
\def\xmlprep#1#2{% #1=input file, #2=output file
   \ifx\relax#2\relax \chardef\xmloutfile=16 \else
   \immediate\openout\xmloutfile=#2 \fi
   \begingroup \everypar={\setbox0=\lastbox\par \xscan}\input#1 \endgroup
   \immediate\closeout\xmloutfile
}
\long\def\xscan#1<{\ifx\xscan#1\xscan \else
   \toks0={#1}\xprint{\the\toks0\npercent}\fi\xtag}

\def\nob#1{}\edef\nob{\expandafter\nob\string\{}
\def\ncb#1{}\edef\ncb{\expandafter\ncb\string\}}
\def\npercent#1{}\edef\npercent{\expandafter\npercent\string\%}

\def\xprint#1{\immediate\write\xmloutfile{\xindent#1}}
\def\xindent{}

\def\xtag#1#2>{\ifx#1?\xtagD#2>\else\ifx#1/\xtagC#2>\else\xtagE#1#2>/>\end\fi\fi}
\def\xtagE#1/>#2\end{\ifx>#2>\let\tmp=n\xtagA#1 \end\else \let\tmp=/\xtagA#1> \end\fi}
\def\xtagA#1 #2\end{\def\currargs{}\ifx>#2>\xtagB#1\else \xargsB#2\xtagB#1>\fi}
\def\xtagB#1>{\bgroup\def\currtag{#1}%
   \ifx\tmp/\xprint{\string\XML#1{\currargs}{}}\egroup\else
   \xprint{\string\XML#1{\currargs}\nob\npercent}%
   \edef\xindent{\xindent\space\space}\fi}
\def\xtagD#1?>{\xprint{\string\META{#1}}}
\def\xargsB#1>{\def\currargs{#1}}
\def\xtagC#1>{\def\tmp{#1}\ifx\tmp\currtag\else
   \message{WARNING: <\currtag>...</#1> doesn't match}\fi
   \egroup\xprint{\ncb}%
}

\xmlprep {test.xml} {test.out}

\end

您将获得以下输出test.out

\META{xml version="1.0" encoding="utf8"}
\XMLcenik{}{%
  \XMLnazev{}{%
    Počítačové komponenty%
  }
  \XMLplatnost{od="1.1.2000" do="31.3.2000"}{}
  \XMLdodavatel{}{%
    \XMLnazev{}{%
      První hardwarová, s.r.o.%
    }
    \XMLadresa{}{%
      \XMLulice{}{%
        Průmyslová 12%
      }
      \XMLmesto{}{%
        Praha 10%
      }
      \XMLpsc{}{%
        100 000%
      }
      \XMLemail{}{%
        [email protected]%
      }
    }
  }
  \XMLnabidka{}{%
    \XMLprodukt{kategorie="polohovací zařízení" kod="pxbd-21"}{%
      \XMLnazev{}{%
        Hyperoptická %
        \XMLem{}{%
          digitální%
        }
        myš%
      }
      \XMLcena{mena="CZK"}{%
        368.30%
      }
    }
    \XMLprodukt{kategorie="pevné disky" kod="sbhd-99"}{%
      \XMLnazev{}{%
        Soft-slow disc &lt; 19,3 GB%
      }
      \XMLcena{mena="CZK"}{%
        8500%
      }
    }
    \XMLprodukt{kategorie="polohovací zařízení" kod="pxbd-13"}{%
      \XMLnazev{}{%
        Tlakový tablet%
      }
      \XMLcena{mena="CZK"}{%
        5635.20%
      }
    }
  }
}

这是 TeX 友好的格式。您可以简单地定义使用标签等宏\XMLcenik，\XMLnazev其中包含两个参数（参数和正文）。然后，您就可以使用 TeX 来处理它。如果准备好了这些宏，那么您可以在一次 TeX 运行中处理 XML 文件：

\xmlprep {test.xml} {text.out}
\input test.out

Answer 1

假设以下输入示例：

<?xml version="1.0" encoding="utf8"?>
<cenik>
  <nazev>Počítačové komponenty</nazev>
  <platnost od="1.1.2000" do="31.3.2000"/>
  <dodavatel>
    <nazev>První hardwarová, s.r.o.</nazev>
    <adresa>
      <ulice>Průmyslová 12</ulice>
      <mesto>Praha 10</mesto>
      <psc>100 000</psc>
      <email>[email protected]</email>
   </adresa>
  </dodavatel> 
  <nabidka>
    <produkt kategorie="polohovací zařízení" kod="pxbd-21">
      <nazev>Hyperoptická <em>digitální</em> myš</nazev>
      <cena mena="CZK">368.30</cena>
    </produkt>
    <produkt kategorie="pevné disky" kod="sbhd-99">
      <nazev>Soft-slow disc &lt; 19,3 GB</nazev>
      <cena mena="CZK">8500</cena>
    </produkt>
    <produkt kategorie="polohovací zařízení" kod="pxbd-13">
      <nazev>Tlakový tablet</nazev>
      <cena mena="CZK">5635.20</cena>
    </produkt>
  </nabidka>
</cenik>

然后尝试\xmlprep {input} {output}使用pdftex thisfile命令通过我的宏来处理它。

\newwrite\xmloutfile
\def\xmlprep#1#2{% #1=input file, #2=output file
   \ifx\relax#2\relax \chardef\xmloutfile=16 \else
   \immediate\openout\xmloutfile=#2 \fi
   \begingroup \everypar={\setbox0=\lastbox\par \xscan}\input#1 \endgroup
   \immediate\closeout\xmloutfile
}
\long\def\xscan#1<{\ifx\xscan#1\xscan \else
   \toks0={#1}\xprint{\the\toks0\npercent}\fi\xtag}

\def\nob#1{}\edef\nob{\expandafter\nob\string\{}
\def\ncb#1{}\edef\ncb{\expandafter\ncb\string\}}
\def\npercent#1{}\edef\npercent{\expandafter\npercent\string\%}

\def\xprint#1{\immediate\write\xmloutfile{\xindent#1}}
\def\xindent{}

\def\xtag#1#2>{\ifx#1?\xtagD#2>\else\ifx#1/\xtagC#2>\else\xtagE#1#2>/>\end\fi\fi}
\def\xtagE#1/>#2\end{\ifx>#2>\let\tmp=n\xtagA#1 \end\else \let\tmp=/\xtagA#1> \end\fi}
\def\xtagA#1 #2\end{\def\currargs{}\ifx>#2>\xtagB#1\else \xargsB#2\xtagB#1>\fi}
\def\xtagB#1>{\bgroup\def\currtag{#1}%
   \ifx\tmp/\xprint{\string\XML#1{\currargs}{}}\egroup\else
   \xprint{\string\XML#1{\currargs}\nob\npercent}%
   \edef\xindent{\xindent\space\space}\fi}
\def\xtagD#1?>{\xprint{\string\META{#1}}}
\def\xargsB#1>{\def\currargs{#1}}
\def\xtagC#1>{\def\tmp{#1}\ifx\tmp\currtag\else
   \message{WARNING: <\currtag>...</#1> doesn't match}\fi
   \egroup\xprint{\ncb}%
}

\xmlprep {test.xml} {test.out}

\end

您将获得以下输出test.out

\META{xml version="1.0" encoding="utf8"}
\XMLcenik{}{%
  \XMLnazev{}{%
    Počítačové komponenty%
  }
  \XMLplatnost{od="1.1.2000" do="31.3.2000"}{}
  \XMLdodavatel{}{%
    \XMLnazev{}{%
      První hardwarová, s.r.o.%
    }
    \XMLadresa{}{%
      \XMLulice{}{%
        Průmyslová 12%
      }
      \XMLmesto{}{%
        Praha 10%
      }
      \XMLpsc{}{%
        100 000%
      }
      \XMLemail{}{%
        [email protected]%
      }
    }
  }
  \XMLnabidka{}{%
    \XMLprodukt{kategorie="polohovací zařízení" kod="pxbd-21"}{%
      \XMLnazev{}{%
        Hyperoptická %
        \XMLem{}{%
          digitální%
        }
        myš%
      }
      \XMLcena{mena="CZK"}{%
        368.30%
      }
    }
    \XMLprodukt{kategorie="pevné disky" kod="sbhd-99"}{%
      \XMLnazev{}{%
        Soft-slow disc &lt; 19,3 GB%
      }
      \XMLcena{mena="CZK"}{%
        8500%
      }
    }
    \XMLprodukt{kategorie="polohovací zařízení" kod="pxbd-13"}{%
      \XMLnazev{}{%
        Tlakový tablet%
      }
      \XMLcena{mena="CZK"}{%
        5635.20%
      }
    }
  }
}

这是 TeX 友好的格式。您可以简单地定义使用标签等宏\XMLcenik，\XMLnazev其中包含两个参数（参数和正文）。然后，您就可以使用 TeX 来处理它。如果准备好了这些宏，那么您可以在一次 TeX 运行中处理 XML 文件：

\xmlprep {test.xml} {text.out}
\input test.out

宏重载、catcode 重新定义...或者如何使用 TeX 解析 XML？

答案1

相关内容