Unicode 中的双拉丁字母(连字)

Unicode 中的双拉丁字母(连字)

有哪些 Unicode 字符是由两个拉丁字母连在一起形成单个 Unicode 字符的?类似于这种类型的字符:或者æ

我看了Unicode 图表但要整理的东西实在太多了。

答案1

这取决于您对“连字符”的定义。例如,“æ” 的起源是连字符,在某些情况下仍被视为“a”和“e”的连字符(例如,在用英语书写拉丁词时),但在许多语言中,它已成为一个独立的字母(就像其他一些语言中的“ä”一样 - 从历史上看,它也是“a”和“e”的连字符)。字符“㎐”是标识符 Hz 的特殊形式,表示赫兹,仅用于东亚书写系统。

唯一与印刷拉丁字母的连字是字母表示形式的连字:ff、fi、fl、ffi、ffl、ſt 和 st 的连字。包含这些连字只是为了兼容性(让您能够表示现有数据,其中此类连字以字符形式出现),而不是为了高质量排版。

答案2

你只需要分解将字母转换成字符使其正常化韩国核能开发协会,然后检查输出是否为拉丁字母。这里有一个简单的 Python 脚本来执行此操作

import unicodedata

for c in range(0, 0x10FFFF + 1):
    d = unicodedata.normalize('NFKD', chr(c))
    if len(d) > 1 and d.isascii() and d.isalpha():
        print("U+%04X (%s): %s\n" % (c, chr(c), d))

不幸的是,许多连字符æ或者œ不可分解,因为它们不被视为正字法连字

丹麦语、挪威语、冰岛语或古英语中使用的字符 Æ(小写 æ;古代称为 æsc)不是印刷连字符。它是一个独特的字母——元音——按字母顺序排列时,在字母顺序中处于不同的位置。

...

但请注意,连字(例如 æ 和 œ)不能用于替换任意的“ae”或“oe”序列;通常认为将“does”写成“dœs”是错误的。

以下是 Unicode 11.0.0 的结果(使用unicodedata.unidata_version

U+0132 (IJ): IJ
U+0133 (ij): ij
U+01C7 (LJ): LJ
U+01C8 (Lj): Lj
U+01C9 (lj): lj
U+01CA (NJ): NJ
U+01CB (Nj): Nj
U+01CC (nj): nj
U+01F1 (DZ): DZ
U+01F2 (Dz): Dz
U+01F3 (dz): dz
U+20A8 (₨): Rs
U+2116 (№): No
U+2120 (℠): SM
U+2121 (℡): TEL
U+2122 (™): TM
U+213B (℻): FAX
U+2161 (Ⅱ): II
U+2162 (Ⅲ): III
U+2163 (Ⅳ): IV
U+2165 (Ⅵ): VI
U+2166 (Ⅶ): VII
U+2167 (Ⅷ): VIII
U+2168 (Ⅸ): IX
U+216A (Ⅺ): XI
U+216B (Ⅻ): XII
U+2171 (ⅱ): ii
U+2172 (ⅲ): iii
U+2173 (ⅳ): iv
U+2175 (ⅵ): vi
U+2176 (ⅶ): vii
U+2177 (ⅷ): viii
U+2178 (ⅸ): ix
U+217A (ⅺ): xi
U+217B (ⅻ): xii
U+3250 (㉐): PTE
U+32CC (㋌): Hg
U+32CD (㋍): erg
U+32CE (㋎): eV
U+32CF (㋏): LTD
U+3371 (㍱): hPa
U+3372 (㍲): da
U+3373 (㍳): AU
U+3374 (㍴): bar
U+3375 (㍵): oV
U+3376 (㍶): pc
U+3377 (㍷): dm
U+337A (㍺): IU
U+3380 (㎀): pA
U+3381 (㎁): nA
U+3383 (㎃): mA
U+3384 (㎄): kA
U+3385 (㎅): KB
U+3386 (㎆): MB
U+3387 (㎇): GB
U+3388 (㎈): cal
U+3389 (㎉): kcal
U+338A (㎊): pF
U+338B (㎋): nF
U+338E (㎎): mg
U+338F (㎏): kg
U+3390 (㎐): Hz
U+3391 (㎑): kHz
U+3392 (㎒): MHz
U+3393 (㎓): GHz
U+3394 (㎔): THz
U+3396 (㎖): ml
U+3397 (㎗): dl
U+3398 (㎘): kl
U+3399 (㎙): fm
U+339A (㎚): nm
U+339C (㎜): mm
U+339D (㎝): cm
U+339E (㎞): km
U+33A9 (㎩): Pa
U+33AA (㎪): kPa
U+33AB (㎫): MPa
U+33AC (㎬): GPa
U+33AD (㎭): rad
U+33B0 (㎰): ps
U+33B1 (㎱): ns
U+33B3 (㎳): ms
U+33B4 (㎴): pV
U+33B5 (㎵): nV
U+33B7 (㎷): mV
U+33B8 (㎸): kV
U+33B9 (㎹): MV
U+33BA (㎺): pW
U+33BB (㎻): nW
U+33BD (㎽): mW
U+33BE (㎾): kW
U+33BF (㎿): MW
U+33C3 (㏃): Bq
U+33C4 (㏄): cc
U+33C5 (㏅): cd
U+33C8 (㏈): dB
U+33C9 (㏉): Gy
U+33CA (㏊): ha
U+33CB (㏋): HP
U+33CC (㏌): in
U+33CD (㏍): KK
U+33CE (㏎): KM
U+33CF (㏏): kt
U+33D0 (㏐): lm
U+33D1 (㏑): ln
U+33D2 (㏒): log
U+33D3 (㏓): lx
U+33D4 (㏔): mb
U+33D5 (㏕): mil
U+33D6 (㏖): mol
U+33D7 (㏗): PH
U+33D9 (㏙): PPM
U+33DA (㏚): PR
U+33DB (㏛): sr
U+33DC (㏜): Sv
U+33DD (㏝): Wb
U+33FF (㏿): gal
U+FB00 (ff): ff
U+FB01 (fi): fi
U+FB02 (fl): fl
U+FB03 (ffi): ffi
U+FB04 (ffl): ffl
U+FB05 (ſt): st
U+FB06 (st): st
U+1F12D (

答案3

使用 OS 实用程序获取此类信息。在以下选项中选择一种 Unicode 字体:

Microsoft Windows 操作系统有字符映射表。

Apple Macintosh OS X 有键帽。

具有 GUI 的 Linux 发行版通常具有字符映射表。

Linux 实用程序非常易于使用,许多字体都是 UTF-8,在脚本选择器中选择拉丁语并滚动列表。

答案4

通过绘图搜索 Unicode 字符

虽然它似乎不能识别Hz(㎐)。

拉丁小写字母 ae:æ
Unicode 十六进制:0xe6
在块中:拉丁语-1补充

西里尔小连字符 a 即:ӕ
Unicode 十六进制:0x4d5
在块中:西里尔

相关内容