有一个 *.sgm 文件。这是我的数据集,我想将其转换为任何其他类型的数据集,这样我就能够使用 WEKA 等程序访问它。Weka 主要支持 *.arff 文件。
答案1
.sgm
是一个标准;它是一种 XML 文件。您可以尝试将文件扩展名重命名为.xml
或.arff
(如果您愿意丢失 XML)!
答案2
SGML 是 XML 的前身标准,通常被认为是 SGML 的简化版本。根据其编写方式,您可以大概将其重命名为 .xml 并进行一些细微的编辑以使其成为有效的 XML。
SGML 具有多项 XML 所不具备的功能,例如标签最小化。例如(如果我没记错的话),这些相当于 SGML 解析器:
<para/This is a paragraph./>
<para>This is a paragraph.</para>
(第一个的语法可能有点错误,因为已经过去很长时间了。)
SGML 还可以暗示必需元素的存在,这是 XML 所不能做到的(您必须明确地包含它们)。
第一步是使用文本编辑器(或命令行工具,如 xmlwf),将其重命名为 .xml,然后尝试清理它,直到语法错误消失。如果同一类型的错误多次发生(您没有提到您的 SGML 文件有多大),像 perl 这样的文本处理工具可能会让您的生活更轻松。