Unicode 标准化
EmEditor 支持对 Unicode 字符及字符序列进行规范化(Normalization)。文本规范化的一个典型用途是:当你拥有一个包含来自多种来源的 Unicode 输入的数据集时,你可能希望将所有字符串规范化为同一种形式,以便更容易匹配等价字符。
UAX #15 Unicode 规范化形式(Unicode Normalization Forms) 描述了四种用于规范化字符与序列的算法:规范合成(canonical composition)、规范分解(canonical decomposition)、兼容合成(compatibility composition)以及兼容分解(compatibility decomposition)。

分解(Decomposition)是将一个字符拆分成更小单位的过程。如果我们对单个字符 ñ(带波浪号的拉丁小写字母 n,LATIN SMALL LETTER N WITH TILDE)应用规范分解,并查看字符代码值(Ctrl+I),会发现该序列现在变成了两个字符:拉丁小写字母 n(LATIN SMALL LETTER N)和组合波浪号(COMBINING TILDE)。规范合成则会反向执行上述操作。
所有规范等价(canonical equivalence)都是兼容(compatible)的,但并非所有兼容关系都在规范意义上等价。规范等价的形式在外观和含义上完全一致,例如前面 ñ 的例子。
另一方面,两种兼容形式可能在外观上略有不同,并且它们只在某些语境中具有相同含义。¼ 和 1/4 是兼容形式,但不是规范等价。¼ 的外观与 1/4 略有不同。此外,¼ 表示“四分之一”,而 1/4 有时表示“1 除以 4”,因此它们只在特定语境下才可以互换。
规范化命令可通过 转换 > 编码/解码所选内容 访问。
