使用 datatool 的文档编译速度很慢

Question

该datatool包使用插入排序算法。对于任何感兴趣的人，请参阅第 4.10 节中的详细信息。datatool 记录代码。不过，我同意这些评论。TeX 是一个排版工具（而且非常好），但它有很多缺点，这就是为什么它datatool有一个附带的辅助应用程序叫做datatooltk。它可以加载自己的本机.dbtex格式，也datatool可以使用加载（加载速度比或\DTLloaddbtex快得多）。还可以加载 CSV、XLS、ODS 并可以从 MySQL 数据库获取数据，它可以对数据库进行排序并将两个数据库合并在一起。（它还可以对数据库进行打乱并过滤掉行。）\DTLloaddb\DTLloadrawdbdatatooltk

为了测试目的，我生成了一个包含一列和 101 行的 CSV 文件。第一行是标题行，其余 100 行每行包含从字典中随机选择的一个单词或短语。CSV 文件的开头（entries.csv）如下所示：

Word
minnow
running board
dispirit
gravelly
sharp-tongued
penitentiary
vice
witness box
hydrochloric acid

这是一个测试文件（test-texsort.tex）：

% arara: pdflatex
\documentclass{article}

\usepackage[utf8]{inputenc}
\usepackage[T1]{fontenc}

\usepackage{datatool}

\DTLloaddb{test}{entries.csv}

\DTLsort{Word}{test}

\begin{document}

\DTLforeach*{test}{\Word=Word}{\Word. }

\end{document}

这只需要

pdflatex test-texsort

进行编译。下一个示例文件（test-csv.tex）需要datatooltk导入并排序 CSV 文件中的数据，然后将其转换为entries.dbtex：

% arara: datatooltk: {csv: entries.csv, sort: Word, output: entries.dbtex}
% arara: pdflatex
\documentclass{article}

\usepackage[utf8]{inputenc}
\usepackage[T1]{fontenc}

\usepackage{datatool}

\DTLloaddbtex{\testdb}{entries.dbtex}

\begin{document}

\DTLforeach*{\testdb}{\Word=Word}{\Word. }

\end{document}

这需要：

datatooltk --csv entries.csv --sort Word --output entries.dbtex
pdflatex test-csv

我将 CSV 文件转换为 XLS 和 ODS。测试文件完全相同，尽管datatooltk调用需要不同的开关。以下是test-ods.tex（修改了 arara 指令）：

% arara: datatooltk: {ods: entries.ods, sort: Word, output: entries.dbtex}
% arara: pdflatex
\documentclass{article}

\usepackage[utf8]{inputenc}
\usepackage[T1]{fontenc}

\usepackage{datatool}

\DTLloaddbtex{\testdb}{entries.dbtex}

\begin{document}

\DTLforeach*{\testdb}{\Word=Word}{\Word. }

\end{document}

现在构建文档所需的命令行调用是：

datatooltk --ods entries.ods --sort Word --output entries.dbtex
pdflatex test-ods

这里是test-xls.tex：

% arara: datatooltk: {xls: entries.xls, sort: Word, output: entries.dbtex}
% arara: pdflatex
\documentclass{article}

\usepackage[utf8]{inputenc}
\usepackage[T1]{fontenc}

\usepackage{datatool}

\DTLloaddbtex{\testdb}{entries.dbtex}

\begin{document}

\DTLforeach*{\testdb}{\Word=Word}{\Word. }

\end{document}

现在构建文档所需的命令行调用是：

datatooltk --xls entries.xls --sort Word --output entries.dbtex
pdflatex test-xls

我使用arara4.0 版本构建了所有这些文档，这给出了总共花费的时间。结果如下：

测试-texsort：1.12 秒
测试-csv：0.42秒
测试时间：0.63 秒
测试-xls：0.57秒

我还将 CSV 文件转换为 MySQL 数据库。以下是test-sql.tex：

% arara: datatooltk: {sql: "SELECT * FROM words ORDER BY Word",
% arara: --> sqluser: sampleuser,
% arara: --> sqldb: samples, output: entries.dbtex}
% arara: pdflatex
\documentclass{article}

\usepackage[utf8]{inputenc}
\usepackage[T1]{fontenc}

\usepackage{datatool}

\DTLloaddbtex{\testdb}{entries.dbtex}

\begin{document}

\DTLforeach*{\testdb}{\Word=Word}{\Word. }

\end{document}

命令行调用是：

datatooltk --sql "SELECT * FROM words ORDER BY Word" --sqluser sampleuser --sqldb samples --output entries.dbtex
pdflatex test-sql

总时间为 4.23 秒，看起来很长，但大部分时间都是因为我在提示符下输入 SQL 密码所花费的时间。如果我将密码添加到命令行调用中（出于显而易见的原因，我不建议这样做），则所用时间会减少到 0.58 秒。

可以使用--merge类似的开关之一来合并另一个数据库，这些开关记录在datatooltk 用户指南。该datatool包有几个命令允许您以 .dbtex 格式保存数据库：\DTLsaverawdb和。您可以创建另一个数据库，使用该数据库来存储参考资料，并在文档末尾写出数据库，\DTLprotectedsaverawdb而不是将命令写入文件。然后使用合并和过滤。.auxdatatooltk

例如：

% arara: datatooltk: {output: entries.dbtex, csv: entries.csv,
% arara: --> sort: Word, options: [--merge, Word, refs.dbtex],
% arara: --> filters: [[Used, eq, 1]] }
% arara: pdflatex
\documentclass{article}

\usepackage[utf8]{inputenc}
\usepackage[T1]{fontenc}

\usepackage{datatool}

\DTLloaddbtex{\testdb}{entries.dbtex}

\DTLnewdb{refs}
\DTLaddcolumn{refs}{Word}
\DTLaddcolumn{refs}{Used}

\newcommand{\useword}[1]{% assumes no expansion required on #1
  \dtlgetrowindex{\myrowidx}{refs}{1}{#1}%
  \ifx\myrowidx\dtlnovalue
   \DTLnewrow{refs}%
   \DTLnewdbentry{refs}{Word}{#1}%
   \DTLnewdbentry{refs}{Used}{1}%
  \fi
}

\begin{document}

\DTLforeach*{\testdb}{\Word=Word}{\Word. }

Let's use the words  ``minnow''\useword{minnow}, 
``android''\useword{android} and ``felcity''\useword{felicity}.

\DTLsaverawdb{refs}{refs.dbtex}

\end{document}

现在的调用datatooltk是：

datatooltk --sort Word --filter Used eq 1 --csv entries.csv --merge Word refs.dbtex --output entries.dbtex

我第一次运行arara（当refs.dbtex不存在时）arara花了 0.47 秒，生成的文档如下所示：

列出 100 个单词的文档图像

第二次运行arara耗时 0.45 秒。生成的文档如下所示：

列出三个单词的文档图像

该entries.dbtex文件现在仅包含上次运行文档中使用的三个单词。

至于为什么我不能在中实现更高效的排序算法datatool.sty，答案相当平凡：我独自经营一家企业，还要照顾家庭。我根本没有时间开发我的 LaTeX 软件包，而且编写快速排序算法的 TeX 实现将非常耗时、令人疲惫，而且我看不出这样做有什么意义，因为您可以使用来datatooltk排序。

最后，快速回顾一下第 i 页datatool 用户手册：

有句老话说，“用合适的工具做合适的工作”。木工的细凿子是进行精细雕刻的合适工具，但如果你试图用它来砍断树枝，那将需要很长时间。这并不意味着凿子有问题。这只是意味着你使用的工具不对。

提供数据工具包来帮助执行重复命令，例如邮件合并，但由于 TeX 被设计为排版语言，因此不要指望该工具包能够像自定义数据库系统或专用数学或脚本语言那样高效地运行。 如果提供的软件包需要很长时间来编译您的文档，请使用另一种语言来执行计算或数据处理，并将结果保存在可以输入到您的文档中的文件中。对于需要排序、过滤或连接的大量数据，请考虑将数据存储在 SQL 数据库中并使用 datatooltk 导入数据，使用 SQL 语法对值进行过滤、排序和以其他方式操作。

Answer 1

该datatool包使用插入排序算法。对于任何感兴趣的人，请参阅第 4.10 节中的详细信息。datatool 记录代码。不过，我同意这些评论。TeX 是一个排版工具（而且非常好），但它有很多缺点，这就是为什么它datatool有一个附带的辅助应用程序叫做datatooltk。它可以加载自己的本机.dbtex格式，也datatool可以使用加载（加载速度比或\DTLloaddbtex快得多）。还可以加载 CSV、XLS、ODS 并可以从 MySQL 数据库获取数据，它可以对数据库进行排序并将两个数据库合并在一起。（它还可以对数据库进行打乱并过滤掉行。）\DTLloaddb\DTLloadrawdbdatatooltk

为了测试目的，我生成了一个包含一列和 101 行的 CSV 文件。第一行是标题行，其余 100 行每行包含从字典中随机选择的一个单词或短语。CSV 文件的开头（entries.csv）如下所示：

Word
minnow
running board
dispirit
gravelly
sharp-tongued
penitentiary
vice
witness box
hydrochloric acid

这是一个测试文件（test-texsort.tex）：

% arara: pdflatex
\documentclass{article}

\usepackage[utf8]{inputenc}
\usepackage[T1]{fontenc}

\usepackage{datatool}

\DTLloaddb{test}{entries.csv}

\DTLsort{Word}{test}

\begin{document}

\DTLforeach*{test}{\Word=Word}{\Word. }

\end{document}

这只需要

pdflatex test-texsort

进行编译。下一个示例文件（test-csv.tex）需要datatooltk导入并排序 CSV 文件中的数据，然后将其转换为entries.dbtex：

% arara: datatooltk: {csv: entries.csv, sort: Word, output: entries.dbtex}
% arara: pdflatex
\documentclass{article}

\usepackage[utf8]{inputenc}
\usepackage[T1]{fontenc}

\usepackage{datatool}

\DTLloaddbtex{\testdb}{entries.dbtex}

\begin{document}

\DTLforeach*{\testdb}{\Word=Word}{\Word. }

\end{document}

这需要：

datatooltk --csv entries.csv --sort Word --output entries.dbtex
pdflatex test-csv

我将 CSV 文件转换为 XLS 和 ODS。测试文件完全相同，尽管datatooltk调用需要不同的开关。以下是test-ods.tex（修改了 arara 指令）：

% arara: datatooltk: {ods: entries.ods, sort: Word, output: entries.dbtex}
% arara: pdflatex
\documentclass{article}

\usepackage[utf8]{inputenc}
\usepackage[T1]{fontenc}

\usepackage{datatool}

\DTLloaddbtex{\testdb}{entries.dbtex}

\begin{document}

\DTLforeach*{\testdb}{\Word=Word}{\Word. }

\end{document}

现在构建文档所需的命令行调用是：

datatooltk --ods entries.ods --sort Word --output entries.dbtex
pdflatex test-ods

这里是test-xls.tex：

% arara: datatooltk: {xls: entries.xls, sort: Word, output: entries.dbtex}
% arara: pdflatex
\documentclass{article}

\usepackage[utf8]{inputenc}
\usepackage[T1]{fontenc}

\usepackage{datatool}

\DTLloaddbtex{\testdb}{entries.dbtex}

\begin{document}

\DTLforeach*{\testdb}{\Word=Word}{\Word. }

\end{document}

现在构建文档所需的命令行调用是：

datatooltk --xls entries.xls --sort Word --output entries.dbtex
pdflatex test-xls

我使用arara4.0 版本构建了所有这些文档，这给出了总共花费的时间。结果如下：

测试-texsort：1.12 秒
测试-csv：0.42秒
测试时间：0.63 秒
测试-xls：0.57秒

我还将 CSV 文件转换为 MySQL 数据库。以下是test-sql.tex：

% arara: datatooltk: {sql: "SELECT * FROM words ORDER BY Word",
% arara: --> sqluser: sampleuser,
% arara: --> sqldb: samples, output: entries.dbtex}
% arara: pdflatex
\documentclass{article}

\usepackage[utf8]{inputenc}
\usepackage[T1]{fontenc}

\usepackage{datatool}

\DTLloaddbtex{\testdb}{entries.dbtex}

\begin{document}

\DTLforeach*{\testdb}{\Word=Word}{\Word. }

\end{document}

命令行调用是：

datatooltk --sql "SELECT * FROM words ORDER BY Word" --sqluser sampleuser --sqldb samples --output entries.dbtex
pdflatex test-sql

总时间为 4.23 秒，看起来很长，但大部分时间都是因为我在提示符下输入 SQL 密码所花费的时间。如果我将密码添加到命令行调用中（出于显而易见的原因，我不建议这样做），则所用时间会减少到 0.58 秒。

可以使用--merge类似的开关之一来合并另一个数据库，这些开关记录在datatooltk 用户指南。该datatool包有几个命令允许您以 .dbtex 格式保存数据库：\DTLsaverawdb和。您可以创建另一个数据库，使用该数据库来存储参考资料，并在文档末尾写出数据库，\DTLprotectedsaverawdb而不是将命令写入文件。然后使用合并和过滤。.auxdatatooltk

例如：

% arara: datatooltk: {output: entries.dbtex, csv: entries.csv,
% arara: --> sort: Word, options: [--merge, Word, refs.dbtex],
% arara: --> filters: [[Used, eq, 1]] }
% arara: pdflatex
\documentclass{article}

\usepackage[utf8]{inputenc}
\usepackage[T1]{fontenc}

\usepackage{datatool}

\DTLloaddbtex{\testdb}{entries.dbtex}

\DTLnewdb{refs}
\DTLaddcolumn{refs}{Word}
\DTLaddcolumn{refs}{Used}

\newcommand{\useword}[1]{% assumes no expansion required on #1
  \dtlgetrowindex{\myrowidx}{refs}{1}{#1}%
  \ifx\myrowidx\dtlnovalue
   \DTLnewrow{refs}%
   \DTLnewdbentry{refs}{Word}{#1}%
   \DTLnewdbentry{refs}{Used}{1}%
  \fi
}

\begin{document}

\DTLforeach*{\testdb}{\Word=Word}{\Word. }

Let's use the words  ``minnow''\useword{minnow}, 
``android''\useword{android} and ``felcity''\useword{felicity}.

\DTLsaverawdb{refs}{refs.dbtex}

\end{document}

现在的调用datatooltk是：

datatooltk --sort Word --filter Used eq 1 --csv entries.csv --merge Word refs.dbtex --output entries.dbtex

我第一次运行arara（当refs.dbtex不存在时）arara花了 0.47 秒，生成的文档如下所示：

列出 100 个单词的文档图像

第二次运行arara耗时 0.45 秒。生成的文档如下所示：

列出三个单词的文档图像

该entries.dbtex文件现在仅包含上次运行文档中使用的三个单词。

至于为什么我不能在中实现更高效的排序算法datatool.sty，答案相当平凡：我独自经营一家企业，还要照顾家庭。我根本没有时间开发我的 LaTeX 软件包，而且编写快速排序算法的 TeX 实现将非常耗时、令人疲惫，而且我看不出这样做有什么意义，因为您可以使用来datatooltk排序。

最后，快速回顾一下第 i 页datatool 用户手册：

有句老话说，“用合适的工具做合适的工作”。木工的细凿子是进行精细雕刻的合适工具，但如果你试图用它来砍断树枝，那将需要很长时间。这并不意味着凿子有问题。这只是意味着你使用的工具不对。

提供数据工具包来帮助执行重复命令，例如邮件合并，但由于 TeX 被设计为排版语言，因此不要指望该工具包能够像自定义数据库系统或专用数学或脚本语言那样高效地运行。 如果提供的软件包需要很长时间来编译您的文档，请使用另一种语言来执行计算或数据处理，并将结果保存在可以输入到您的文档中的文件中。对于需要排序、过滤或连接的大量数据，请考虑将数据存储在 SQL 数据库中并使用 datatooltk 导入数据，使用 SQL 语法对值进行过滤、排序和以其他方式操作。

使用 datatool 的文档编译速度很慢

答案1

相关内容