更新:我想稍微重新提出(并修改)这个问题,因为最近有了一些进展,而且我很乐意鼓励一些最新的讨论。
我正在考虑(从专业角度)从数据中全自动生成报纸。
更准确地说,所考虑的系统将得到作为输入文章的‘归因’数据流(主题分类、标题、作者信息等、文本、图像)加上一些关于事物布局方式的提示,但仅限于“头条新闻”、“短信”、“天气预报”层面。
作为输出,完整的报纸将自动生成,无需进一步的用户交互(重点是印刷,而不是在线;即 PDF 而不是 HTML)。
请注意,我并不是在寻求有关如何使用 LaTeX 执行此操作的帮助。使用我的系统 DocScape 不会在页面和文章布局方面遇到技术困难。我问的是(我自己)有关基于给定内容流“几何地”生成页面布局的基本算法。从专业报纸编辑的角度来看,必须有一些“人工智能”才能使报纸看起来不错。
当然,任何生产质量系统都会给出一个有效的答案,包括那些基于 TeX 的 ;-)
谷歌搜索给出了一些有趣的参考,但很难区分其中哪一个能真正带来有效的实施。我在这里谈论的不是学术活动,而是一个真正的系统,出版商将使用它每周制作数百份报纸。
在 VLSI 布局的平面规划领域还有更多有趣的参考资料,但当然,这些参考资料缺乏对报纸的特定需求的考虑 ;-)
现在我的问题更精确一点:
- 像上面描述的系统是否有效存在(它不必基于 TeX)?我对具体系统的指针以及有关它们的出版物感兴趣。
- 是否有出版商真的使用这样的系统来制作报纸(在线报纸也很有趣)?
- 这里有人使用过这样的系统并愿意描述一下它是如何使用的吗?
- 当我自己设计这样一个系统时,我应该考虑关于这个主题的最有趣的“科学”出版物是什么?
我已经看到了这个问题使用 LaTeX 自动创建报纸,但它的重点与我的略有不同(使用什么 LaTeX 工具),不幸的是那里的讨论不是很激烈,没有提供任何可以帮助我的指示。
一些文献
在这里,我将添加我收集的关于这个主题的文献评论。请注意,我已经不是阅读了所有内容,如果我误解了某些内容,请发表评论。
舒恩,本杰明·杜兰特
Fishpaper:自动个性化报纸布局
论文(BS)-麻省理工学院,电气工程和计算机科学系,1994 年。与其说这是对这一主题的真正贡献,不如说是历史记载。这里的“自动个性化报纸布局”不包括自动找到好的页面布局。页面布局由固定模板提供,尽管该系统据称可以解决文章内容的不同文本长度或图像大小,或者在缺少某些元素时显示替代内容。
它的历史意义重大,因为它正值 WWW 的出现。Mosaic 浏览器被明确提及为一种以电子方式呈现新闻项目的设备,但在 HTML 2.0 出现之前,屏幕格式化的可能性显然有限。TeX 也被明确提及,从某种意义上说,它是所介绍软件的竞争产品
fishpaper
,它根据给定的新闻内容流和给定的页面布局模板生成 PostScript 文件。论文中的例子:
Gonzalez J、Rojas I、Pomares H、Salmeron M、Merelo JJ。
使用模拟退火算法进行网络报纸版面优化
IEEE 系统人机控制论 B 辑。2002;32(5):686-91。感谢马丁提供链接。
这是一篇经典的研究论文,因为主要关注的是将特定的优化方法(模拟退火)应用于精确的数学指定问题(网络报纸布局)。
论文中展示的具体结果并不令人信服,而且从某种意义上说,所解决的问题并不完全符合我自己的兴趣(这是针对网页的,因此对生成的页面长度没有限制;此外,单篇文章的设计相当平淡无奇),但从所显示的结果来看,可以预期该方法可以扩展到解决这里讨论的“完整”问题。此外,该算法是为“实时”应用量身定制的,对于实际样本量,只需几秒钟。
论文中的例子:
最先进的技术?
因为我在思考这个问题,所以有关制作报纸的系统的广告和博客文章就不断出现在我面前 ;-)
我不涉及某个特定的供应商,只想提及两个例子,它们似乎代表了简化报纸排版的系统的最新技术:
一款名为“发布云”的工具似乎是大量几乎等同的编辑系统的一个很好的代表(用谷歌很容易找到),这些系统基于一些易于使用的基于网络的布局编辑器,但这些编辑器是基于模板的,页面布局过程主要是手动的。这些工具可以自动执行发布过程的几个阶段,提供内容导入过滤器(主要是从网页或新闻通讯系统获取内容)并导出到 PDF 或数字打印服务,但不是这里我感兴趣的部分,即在文档页面上排列内容的过程。
我对任何暗示都很感兴趣,即该领域的系统之一是否为非平凡的报纸布局提供了“真正的”自动页面布局,而不仅仅是一个真正易于使用的手动执行的 Web 前端。
最后但同样重要的一点是,我应该提到我们已经为一家新闻机构实施了一套新闻通讯生成系统,该系统每天、每周都会完全自动地生成不同类型的新闻通讯:
在链接的页面上,您可以下载示例 PDF 文件来查看不同的布局。
在这里,一切都是全自动的:只需在通讯社应用程序中选择文章的汇编即可。但布局不是我认为的“报纸布局”,因此这些示例代表了我们目前可以制作的最先进技术,但并没有回答我的问题。
答案1
没有太多的答案,更多的是一些散乱的想法......
就我目前所知,我并不知道有任何这样的系统,也不知道有任何研究涉及自动报纸排版。据我所知,只有非常有限的尝试使用更复杂的排版规则和依赖关系来解决自动排版问题,这些规则和依赖关系超出了基本上是线性的过程。你可以用手数出来:
- Michael Plass (Knuth 手下)
- Graham Asher 在 1990 年左右类型与设置)——不知道发生了什么
- 90 年代中期的 Anne Brüggemann-Klein
- Richard Furuta 和其他几位 90 年代的人
- Stephan Wohlfeil 1997(博士:关于复杂书籍类文档的分页)
据我所知,除此之外别无其他。而这些都更多地关注“书本式”文献而非报纸/期刊中出现的问题。但我可能大错特错,因为过去 10 年我并没有密切关注该领域。
但假设我的知识暂时正确,这并不令人惊讶,不是吗?你面临的是一个约束系统的全局优化问题,当你拥有不止一列和大量浮点数并受到特定约束时,你需要测试的可能性就会急剧增加。到目前为止,任何认真尝试做得比选择简单的出路(没有浮点数,只有线性排版 - 又名 MS-Word 模型)或永不回头的简单贪婪算法(如 LaTeX)更好的方法都被任务的复杂性击败了。
现在,报纸排版一方面带来了额外的复杂性(但也可能带来了自由度),因为有多个长度有限的输入流,允许(在一定程度上)重新排序。另一方面,它对图片顺序和标注的要求会有很大不同。
顺便说一句,据我所知,在报纸写作中,作者必须写出足够长的文章,如果写不出来,就会被编辑。你考虑过这一点吗?因为如果这样的话,任务可能会大大简化。
因此,我认为首要任务是了解和研究约束系统,例如,什么样的规则使报纸或期刊运转。这些规则不会具有普遍性,而且如果把它们放在一起,它们很可能是相互矛盾的。但它们构成了算法需要配置的基础。只有知道这些边界,才能更深入地研究设计这种算法的问题。我不知道一个人能离理想有多近。在某些方面,我认为由于重新排序故事的灵活性,报纸实际上可能更简单,但无论如何,我相信这是一个开放的研究课题,目前尚未解决(就像“复杂的书籍式文档的分页”一样)。---我当然很感兴趣,而且已经感兴趣了二十多年,即使千禧年后我不得不休息更长时间。
我不知道 Wohlfeil 的博士论文是否还能轻易找到(当时我很难找到),但在网上快速搜索后,我找到了 Brüggeman-Klein/Klein/Wohlfeil 的一篇较短的论文”论复杂文档的分页“这是大约同一时间的。我还发现”重新考虑分页“ 同一作者所著(但没有日期可循,但从编号来看,时间可能更早)。
我确信可能还有很多其他来源,但我认为对于德语人士来说,有一本好书值得一看,那就是“实践手册格式光栅“作者 Andreas 和 Regina Maxhauer。它的重点不是报纸角度,而是网格角度,但这自然涵盖了大量可能的规则。
顺便说一句,进行研究的一个好方法是在 Microsoft 的学术搜索中查找(尽管目前还不够完善)。例如,这可以让你了解什么背景知识安妮多年来从事的工作以及她合著的论文。但你必须意识到,他们掌握的数据中有很多垃圾,而且部分数据非常不完整。
更新
在再次阅读 Stefan 的博士论文(我最初错误地将其标记为 habil)时,我偶然发现了克里斯塔·拉古斯她在硕士论文中写道“使用模拟退火对通用报纸进行自动分页“。我没有在网上找到这篇论文,但也许值得进一步探索。
答案2
除了一些专注于页面描述语言的论文外,我不熟悉任何文献。不过我认为 Håkon Wium Lie's关于层叠样式表的论文,可能至少从开发强大的“模板”或“模板”系统的角度来看,与您所寻找的内容部分相关(也有一个有趣的参考书目)。但是,正如您所说:
使用我的系统 DocScape 不会在页面和文章布局方面遇到技术困难。我正在问(我自己)有关基于给定内容流“几何地”生成页面布局的基本算法。
困难在于定义一种算法,以便将文本对象很好地放置在页面上,尝试各种排列等。答案当然在于人工智能领域,特别是机器学习领域。
我设想了一个系统,它可以扫描并翻译成模板(基于尚未开发的系统)数千个版本,然后从这个语料库中训练算法,similar
使用模式识别算法来生成设计。
但是,如果你改写为:从一组预先确定的印刷布局中,你能否自动制作报纸,这个问题将变得更容易处理。答案几乎是肯定的,LaTeX 可以自动制作书籍等的预先确定的样式,这证明了这一点。DeTreville 在一篇博士论文中描述了这样的系统。论文有点过时但是在抽象布局方面有很好的方法。
我曾努力尝试定义一种算法,从一组图形和文本中生成类似艺术书的输出。到目前为止,我收集了大约 100 种不同的设计。如何从中选择一个仍然让我困惑,而这要容易三个数量级。
但是,请不要让我打击你。我认为这是一个值得开发和研究或创建初创企业的好领域。
答案3
CSS 分页媒体
首先,LaTeX 并非真正用于无人值守排版大型文档。ConTeXT 在这方面可能略胜一筹,但它仍然无法满足自动排版报纸的要求。
相比之下,HTML 和 CSS 的组合在自动定位和调整内容大小方面表现更好,而且不需要设计师付出太多努力。毕竟,这并不奇怪,因为这正是我们期望流畅网页能够做到的:使内容适应未知的屏幕尺寸。
这就是为什么商业软件Prince XML值得一提的是,它是从 HTML 到印刷媒体的桥梁。在产品的网站上,有几个从 HTML 和 CSS 自动排版的整本杂志示例。
最近,这项技术获得了一个通用名称:CSS 分页媒体。一罐点击此处了解更多信息。
在特定情况下,使用 Prince XML 是免费。
我自己正在使用非商业许可的 Prince XML在我的自动工作流程中Pandoc MarkdownHTML 和 CSS 转换为 Letter 和 A4 大小的 PDF。查看我的网站例如makefile
。
尽管我在使用 TeX 方面有丰富的经验,但我无法使用 LaTeX 或 ConTeXt 获得如此好看的自动生成结果。
此外,HTML、CSS 和 Prince XML 组合速度极快。ConTeXt 通常需要至少 3 秒钟才能完成几页,而 Prince XML 只需几分之一秒就能完成相同甚至更好的工作。因此,使用商业许可的 Prince XML 进行服务器端按需排版肯定是可行的。
答案4
以下是 feedjournal 的结果。我不知道他们是如何做到的。他们获取 URL 并提供以下结果,如图所示。FeedJournal.com 示例
Duplo 程序用于自动布局: