两万个汉字

汉字字库的问题本来就复杂,我另文探讨。

这是我找到的Windows 2000拼音可以输入的汉字集,有20902个字。下载:pycharset.txt

我的方法:

  1. 解压缩出Windows 2000的安装i386中的imegen.exeimegen.tpl。这两个是输入法生成器程序。Windows 2000已经取消了输入法生成器的安装选项。
  2. 用输入法生成器逆转换%SystemRoot%\System32\winpy.mb,得到winpy.txt。这是拼音输入法的码表。
  3. 编写了这个getcharset.js,从winpy.txt中提 取所有单字。得到最后的字集。

此外还有所有郑码可以输入的字集zmcharset.txt,有 21002个字符。没有仔细查过,但可能是包括了GBK字库余下的偏旁部首。

20902个汉字,这只是基本CJK(GBK)的汉字数。实际上Windows 2000需要一个补丁支持GB18030。

还有我偶然发现的一桩怪事,地名用字“邗”(扬州),unicode里有两个,编码是U+9097和U+48b4,前者在CJK里面,后者在CJK Extension A里。是不是unicode搞错了?我已经去信询问。

P.S.unicode.org答复说这是一个字形样本的错误。——一星期后补记。


Google No GIFs Valid XHTML 1.1! Creative Commons License Viewable With Any Browser