优麒麟技术论坛

 找回密码

有关汉字部件和部首的编码……(TR) [复制链接]

有关汉字部件和部首的编码……
W
发表于 2005-12-27 21:14:18 |只看该作者 凯文君 |倒序浏览


近日根据《香港增补字符集-2004》里面的资料,得知Unicode里面编码空间在2E00-2FFF这一段的字符是康熙部首。我因此去查了Unicode 4.1 版标准的文档。在标准里面,2E80这个平面(2E80-2EF3)被注明为CJK增补部首,而2F00平面(2F00-2FD6)才是康熙部首。

这我就糊涂了,那到底2E80-2EF3这些字符是不是康熙部首呢。如果是,Unicode好像没有必要特别注明它们是CJK部首吧?另外,康熙部首到底有多少个啊?Unicode里面收录的2F00-2FD6这一段215个字符是不是全部的康熙部首呢?还请语言文字方面的行家朋友不吝赐教!

另外个人感觉汉字的编码还是有欠考虑的地方。比如在CJK统一汉字(Unicode 的说法是CJK统一表意字符)里面,实际上有不少的字符并不是汉字,而是汉字部首或部件。为什么不能把汉字部件(包括部首)和汉字分开编码(我指的是分在不同的编码平面,而不是用不同的编码标准)呢?因为现在这种混合编码的方式给实际中的应用造成了很大的不便。最典型的,我国很早以前就制定了汉字偏旁部首规范和汉字部件标准,但目前的GB编码体系中并没有将所有这些部首和部件编码进去,而且编码时汉字和部件不分,这样我们做中文信息处理软件的时候想有关分别对部首和部件类型的字符及汉字字符进行处理是很麻烦的。如果部件和部首能单独地编码在一个区间内,编程时只要校验字符所属的编码区间就能知道一个字符是汉字还是部件了。但现在显然不行,我们还必须自己额外地建立一个有关汉字部首和部件的数据库。而且收集这个数据库的数据也是很麻烦的,因为现有的大多数输入法都不能很好或很完整地对这些部件进行编码。程序员总不能自己浏览一遍所有的字符来挑出这些部件字符吧。

因此强烈建议国家能尽快确定汉字偏旁部首和部件规范的正式标准,并真正的与计算机汉字编码标准和字型标准制定的工作结合起来。总感觉我国语言文字规范的制定工作和汉字编码工作似乎缺乏必要的合作和交流,因做出来的东西总是不太搭调。让我们这些处在边缘的”中文信息处理软件“开发作者感到十分的不痛快。不知大家以为如何?




发表于 2013-4-29 18:19:01
回复

使用道具 举报

有关汉字部件和部首的编码……(TR) [复制链接]

发表于 2005-12-27 22:07:11 |只看该作者 采采卷耳


小弟所知不多,以下仅供参考。

2F00-2FD6是全部的康熙部首。
2E80-2EF3则是康熙部首的异体写法/简化字写法。




 楼主| 发表于 2013-4-29 18:20:01
回复

使用道具 举报

有关汉字部件和部首的编码……(TR) [复制链接]

发表于 2005-12-27 23:22:51 |只看该作者 凯文君


请教采采卷耳
嗯~好像差不多是这样了,谢谢采采卷耳兄!
那么能不能再请你详细解释一下2E80-2EF3里面哪些是异体写法,哪些又是简化字写法呢?另外,这些异体/简化字写法又分别和2F00-2FD6里面哪些字符对应呢?




 楼主| 发表于 2013-4-29 18:20:45
回复

使用道具 举报

有关汉字部件和部首的编码……(TR) [复制链接]

发表于 2005-12-28 01:10:52 |只看该作者 谢振斌


Unicode已经乱得很了。
很多部件还是没有收进来,收进来得又重复很多份。
拥有三份编码的部件可以举出好多例子,两份的就更多。
编码区域划分也很乱。
部首很多也归错位置。

1)要是按照字频先划几个区,然后再按部首排就对了。
2)然后允许每个区不断增补,随着版本增加而增补。而不是去别的新建区域去扩充。
3)可以分为:
部首、部件区(512),常用字区(4000), 次常用字区(4000),罕用字, 异体字,垃圾字。
做一下字频统计又不难。




 楼主| 发表于 2013-4-29 18:21:41
回复

使用道具 举报

有关汉字部件和部首的编码……(TR) [复制链接]

发表于 2005-12-28 01:32:27 |只看该作者 凯文君


认同以使用频度、类型分区编码的观点
我和谢兄有相同的观点。目前的编码的方法只关注了符号和表意文字的区别,但它忽略了实际上中表意文字中有很多也是需要分类的,不能一概的以单一的笔画、读音来排列,而应该综合考虑如使用频度、字符的类型(汉字还是汉字部件)等来分类,进而在编码时体现出这种分类。而且这种分类在技术上来说并没有什么代价,一旦确定了一个编码标准的大体框架,其中某一个字符不管分配什么码位对该编码标准而言并不是很重要的事。但对文字处理程序或者说使用这个程序的人来说可不一样了,就像我上面举的那个例子。如果编码中真能实现分类分区编码,那程序就能直接根据编码来处理字符而不是还要在额外的数据库中来匹配,这两者是有很大的性能差别的。




 楼主| 发表于 2013-4-29 18:22:12
回复

使用道具 举报

有关汉字部件和部首的编码……(TR) [复制链接]

发表于 2005-12-28 01:47:53 |只看该作者 谢振斌


U+2E9C的Unicode名称是"CJK RADICAL SUN“,也就是“日”, 可以看字形应该是冒字头。
U+2E9D是月。
U+5183冃, 字形也像月,紫光输入法拼音为mao4, 说明是看作“冒字头”。可以Unicode对这个字没有定音,不知到这个字到底是不是“冒字头”。




 楼主| 发表于 2013-4-29 18:23:10
回复

使用道具 举报

有关汉字部件和部首的编码……(TR) [复制链接]

本帖最后由 centrish 于 2013-4-29 18:25 编辑

发表于 2005-12-28 02:34:10 |只看该作者 采采卷耳

至於準確定義真的很不好解釋,對不起。
因爲Unicode的標準和字書不完全相同(我懷疑是Unicode做錯了)。

[冃]是[帽]的古字。
冒 最 曼 冑…………都是從這個部首。



U+2E9C的字形是[冃],但事實上[冃]和[日]是兩個字。
只能解釋為Unicode亂來了。
 楼主| 发表于 2013-4-29 18:23:41
回复

使用道具 举报

有关汉字部件和部首的编码……(TR) [复制链接]

发表于 2005-12-28 02:59:18 |只看该作者 凯文君


个人观点,请讨论
呵呵,GB13000.1 汉字部件规范早在97年就公布了,但相应的部件名称规范直到2003年才确定--这滞后也忒大了些。
根据这两份规范文档,U+2E9C的那个字符形制扁而宽,正是97部件规范中的10号部件,例字有“冒”、“冕”等,但10号部件只是附形部件,它的主形部件是8号部件--“日”,这两个都是第5组的部件。U+5183的“冃”字符的形制长而宽,例字有“冃”和“胄”,在97部件规范中的序号是11,也是第5组的一个附形部件。而U+2E9D的这个月在97部件规范中的序号是19,例字有“胖”、“朋”、“朗”和“服”等,月是第11组部件的主形部件。
至于这几个部件的名称,根据2003部件名称规范,U+2E9C那个字符的名称已经被确定为“冒字头”。而U+5183的“冃”似乎应该是“肖字底”,例字有“肖”、“肩”、“前”、“婿”。但如果冃就是肖字底的话,在部件名称规范里它已经是部件月的附形部件了。而在97部件规范里面它应该是和部件日一组的一个附形部件啊。在这里好像被合并了。




 楼主| 发表于 2013-4-29 18:26:56
回复

使用道具 举报

有关汉字部件和部首的编码……(TR) [复制链接]

发表于 2005-12-28 06:36:24 |只看该作者 采采卷耳


U+5183的“冃”似乎应该是“肖字底”


這個字不能這樣看吧。
您的[肖字底]就是[月(肉的變體)],而[冃]是單獨的一個字。注意兩橫左右是不封口的。封口就寫錯了。




 楼主| 发表于 2013-4-29 18:27:30
回复

使用道具 举报

有关汉字部件和部首的编码……(TR) [复制链接]

发表于 2005-12-28 07:48:36 |只看该作者 nirvana104722


原帖由 采采卷耳 于 2005-12-28 02:34 发表
[冃]是[帽]的古字。
冒 最 曼 冑…………都是從這個部首。


卷耳老弟,這箇“從”字,要改爲“从”字。

凱文君,您可以買一本《康熙字典》來查閱。必要時,可以對照《說文解字》。沒有這方面的知識,有時候會鬧笑話。

《康熙字典》,一定得買影印版,現代的什麼整理點校本沒用。《說文解字》也一樣。

[ 本帖最后由 nirvana104722 于 2005-12-28 07:50 编辑 ]




 楼主| 发表于 2013-4-29 18:28:14
回复

使用道具 举报

小黑屋|优麒麟    

GMT+8, 2022-5-20 10:00 , Processed in 0.022059 second(s), 17 queries .

Copyright ©2013-2022 Ubuntu Kylin. All Rights Reserved .

ICP No. 15002470-2 Tianjin

快速回复 返回顶部 返回列表