如何检测电子邮件主题中的非拉丁文字？

Question 1

根据RFC 5322, 3.6.5，Subject标题定义为

subject = "Subject:" unstructured CRLF

和RFC 5322, 2.2.1定义“非结构化”：

本规范中的一些字段主体被简单地定义为“非结构化的”（在第 3.2.5 节可打印字符 (如任何可打印的 US-ASCII 字符加空格字符) 没有其他限制。

由于标头中只允许使用 US-ASCII 字符Subject，因此任何非 US-ASCII 字符都必须编码为 US-ASCII，并且RFC 2047定义了一个标准草案对此，这是广泛使用的。例如，使用“Quoted-Printable”又名“Q”编码（第4.2节),

西里尔文Тест变成Subject: =?UTF-8?Q?=D0=A2=D0=B5=D1=81=D1=82?=
阿拉伯语متحان变成Subject: =?UTF-8?Q?=D9=85=D8=AA=D8=AD=D8=A7=D9=86?=。

PCRE 中的匹配header_checks应该针对该编码进行。但是，匹配unicode 块使用像 PCRE 这样的正则表达式非常困难，如下表所示。

Unicode 块	范围	量子点启动	量子点结束
西里尔	U+0400..U+04FF	`=D0=80`	`=D3=BF`
阿拉伯	U+0600..U+06FF	`=D8=80`	`=DB=BF`

这一限制在Postfix 内置内容检查文档：

Postfix 标头/正文检查的局限性

标头/正文检查不会解码邮件标头或邮件正文内容。例如，如果邮件正文中的文本采用 BASE64 编码（RFC 2045)，则您的正则表达式必须匹配 BASE64 编码形式。同样，带有编码非 ASCII 字符的邮件头（RFC 2047) 需要以其编码形式进行匹配。

我建议改用 SpamAssassin 规则。TextCat 语言猜测器甚至可以ok_languages从邮件正文中检测语言。

Answer