汉字字库的问题本来就复杂,我另文探讨。
这是我找到的Windows 2000拼音可以输入的汉字集,有20902个字。下载:pycharset.txt
我的方法:
此外还有所有郑码可以输入的字集zmcharset.txt,有 21002个字符。没有仔细查过,但可能是包括了GBK字库余下的偏旁部首。
20902个汉字,这只是基本CJK(GBK)的汉字数。实际上Windows 2000需要一个补丁支持GB18030。
还有我偶然发现的一桩怪事,地名用字“邗”(扬州),unicode里有两个,编码是U+9097和U+48b4,前者在CJK里面,后者在CJK Extension A里。是不是unicode搞错了?我已经去信询问。
P.S.unicode.org答复说这是一个字形样本的错误。——一星期后补记。