Unicode 标准化

EmEditor 支持对 Unicode 字符及字符序列进行规范化（Normalization）。文本规范化的一个典型用途是：当你拥有一个包含来自多种来源的 Unicode 输入的数据集时，你可能希望将所有字符串规范化为同一种形式，以便更容易匹配等价字符。

UAX #15 Unicode 规范化形式（Unicode Normalization Forms）描述了四种用于规范化字符与序列的算法：规范合成（canonical composition）、规范分解（canonical decomposition）、兼容合成（compatibility composition）以及兼容分解（compatibility decomposition）。

分解（Decomposition）是将一个字符拆分成更小单位的过程。如果我们对单个字符 ñ（带波浪号的拉丁小写字母 n，LATIN SMALL LETTER N WITH TILDE）应用规范分解，并查看字符代码值（Ctrl+I），会发现该序列现在变成了两个字符：拉丁小写字母 n（LATIN SMALL LETTER N）和组合波浪号（COMBINING TILDE）。规范合成则会反向执行上述操作。

所有规范等价（canonical equivalence）都是兼容（compatible）的，但并非所有兼容关系都在规范意义上等价。规范等价的形式在外观和含义上完全一致，例如前面 ñ 的例子。

另一方面，两种兼容形式可能在外观上略有不同，并且它们只在某些语境中具有相同含义。¼ 和 1/4 是兼容形式，但不是规范等价。¼ 的外观与 1/4 略有不同。此外，¼ 表示“四分之一”，而 1/4 有时表示“1 除以 4”，因此它们只在特定语境下才可以互换。

规范化命令可通过 转换 > 编码/解码所选内容 访问。