Ubuntu Kylin技术论坛

 找回密码
楼主: centrish

誰將最終摘取中文輸入法這頂皇冠?

  [复制链接]
  • TA的每日心情
    开心
    2016-12-26 10:36
  • 签到天数: 8 天

    [LV.3]偶尔看看II

    发表于 2013-4-27 22:47:16 | 显示全部楼层
    centrish 发表于 2013-4-27 22:13
    物極必反:所謂成也蕭何,敗也蕭何。拼音輸入法發展到這一步已到極限而弊端惡果已經顯露。

    提筆忘字, ...

    {:3_52:}“提筆忘字” -- 的确是大部分现代人的通病~
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2014-8-27 12:46
  • 签到天数: 1 天

    [LV.1]初来乍到

     楼主| 发表于 2013-4-27 22:52:16 | 显示全部楼层
    是拼音輸入法的副產品。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情

    2016-7-25 21:28
  • 签到天数: 14 天

    [LV.3]偶尔看看II

    发表于 2013-4-28 00:53:46 | 显示全部楼层
    其实感觉关键在于在于孩子最先接触到的基础教育。
    PS:字形码很多汉字打不出来等问题需要解决
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    发表于 2013-4-28 04:12:47 | 显示全部楼层
    本帖最后由 Apple 于 2013-4-28 06:46 编辑

    我所谓的「形码」泛指纯音码(不带音调,400多种组合,包括各种全拼、双拼)之外的输入法。

    《观察1》拼音输入法的使用者愈来愈多。五笔等形码日渐式微。
    推论:形码必须易学。选字虽然痛苦且慢,但在某些条件下还是可被接受。

    《观察2》双拼并无超越全拼的迹象。
    推论:韵母不易掌握。节省之键击不足以补偿学习之不便。

    《观察3》二笔曾引发关注,但并无超越五笔的迹象。
    推论:五笔字根表太难。大字根符合直观。

    《观察4》自然码未兴盛。
    推论:韵母不易掌握。

    《观察5》香港、台湾很多人背了码表却只拆首尾两码。如「速成」、「轻松」。
    推论:形码必须易学再易学。不但字根表要简单,拆字法则也必须直观。

    字根表可以多简单?答案是不可能太简单。这是汉字的宿命。
    如果要以字根做直观的拆字,至少要有50个字根。
    这麼多字根,许多是读不出来的,要对应到26个键盘,最理想的状态是能将
    它们平均分配到26个键盘位置,然后每一组又能跟它们对应的键盘位置产生某种联想。
    键盘能有什麼意义?不外乎物理排列位置与传统英文字母。一个英文。

    物理排列本身也没意义,需要设计一个「排序」投射上去。
    中文输入法的一个划时代创举就是发明了「五笔键盘」。
    先将中文字的笔划分为五类,再以五五二十五的变化造出一个「排序」,对应到键盘。
    再把字根依五笔变化纳入键盘。大多数的码表都源自这个理念。
    但是如果不进一步调整,字根分布很不平均。一调整,产生太多特例,又增加记忆负担。
    五笔式的键盘已经被探索过千万遍,不能期待有大突破。

    还有什麼可能的排序呢?谢振斌先生的山人输入法把字根分为二十几大类,
    对应到键盘上:日月金木水火土,人心手口,食衣住行…
    我个人觉得依这个排列铺在键盘上就不难记了,
    但是他基於某种考量选择把字对应到英文字母。
    另外像是仓颉,也是选定二十几个中文字对到英文键,
    再把字根依照相似相关度纳入各个键位。
    这类方式的优点是:一个中文对一个英文字母,方便记忆。
    但问题只解决了一半,其余的字根要漂亮地对应到这些中文字上仍有一番波折。
    虽说如此,还是有进步,毕竟中文字不论是形状或意义,
    都比英文字母更容易与字根产生联想。

    「联想」是一个很难量化的行为,却也是字根对应的骨架。
    从字根到键盘,必定要经过一次,甚至好几次的联想转折。
    比方说山人输入法中的「曲」是字根,归到「言」这码元,因为「言」泛指文化类的东西。
    「言」又对到「I」,因为「I」和简体的「言」长得像。
    仓颉中「又」这字根归到「水」,大概因为形状味道有些神似。
    「水」又对到「E」,有一个记忆口诀是「水银」,因为念起来像「水E」。
    类似这样的例子非常多,不足为奇。
    面对这类的码表,使用者除了硬背,就只能在脑中装进一堆联想、联想的联想。

    记忆码表还有一重困难。刚才讨论的是给定一个字根,要找出它的键位。
    但很多时候,没有经验的使用者不容易判断什麼算字根,什麼不算。
    比方说「石」、「白」,在某些码表中是字根,某些不算。
    这又增加了使用者的一层不确定感。
    这个问题必定存在,因为「字根」本就是个模糊的概念。

    大陆学者曾经列出500多个字根。实际创作输入法的人当然不可能照单全收,
    一般输入法大约百来个字根。如何取舍,大同中有小异。
    通常都会把看起来很相似的字根合成一个。比方说「水」。
    除了普通水、三点水,还会有一些看起来像水但实际意义和水无关的字根。
    有的输入法作者把所有变化都老实列出来,字根数就自然多一点。
    不明白列的也不见得要作什麼见不得人的勾当,因为有些字根的相似度
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    发表于 2013-4-28 04:13:48 | 显示全部楼层
    本帖最后由 Apple 于 2013-4-28 13:37 编辑

    高到几乎人人都可以猜到它们是同一款。既然能自动联想,不必徒增额外记忆的困扰。

    大家都必须承认,最简单的一种联想是:【金 J】,【木 M】,【水 S】,【火 H】…
    仅仅一个英文字母能带给中文最多讯息量的用法就是当成声母了。这叫「托音」。
    既是「万码奔腾」,当然有人试著用托音来建立码表。结果也不难猜到,
    有进展,但不尽如人意。原因大致两点:很多字根读不出来;
    字根分布也不均(有些英文字母根本不是声母)。

    有时一种手段不能彻底把所有字根对应对键盘,就可能采取拼装策略,
    将不同的手段混合运用。实在不行,就只好硬背
    (有时作者会提出极牵强的联想法则,实际上与硬背没什麼差别)。

    以上说了一堆,无非是要确立一个概念:对中文输入法的期待不能太高。
    除非像写字一样地一笔一划敲,一个有效率的输入法不可能在几个小时内被学会。


    (摘自百度郑码吧:http://tieba.baidu.com/p/1344088114?pn=2
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    发表于 2013-4-28 04:56:18 | 显示全部楼层
    郑码吧里用户tzehengm提到的第5个观察现象值得国内所有形码研究人员的反思:
    “《观察5》香港、台湾很多人背了码表却只拆首尾两码。如「速成」、「轻松」。
    推论:形码必须易学再易学。不但字根表要简单,拆字法则也必须直观。 ”

    形码类输入法几乎所有方案在这20多年都已经思索过,至于优劣该作者也已经分析的相当全面。而从《观察5》中发现一个有趣的象形,香港人没有一种简单的拼音标记汉字,所以他们大多数人都学会了形码输入法,然后他们绝大多数人并不需要最科学的,也不追求最低重码,也不要求速度最快的输入法。对于普通用户只需要一个能够较快录入汉字,所以香港人都选择了“速成”、“轻松”这样的简易输入法(就像大陆人使用智能拼音,台湾人使用注音输入这样)学习成本极低,但并不一定最有效率的输入法,也不需要最快速的输入法。

    而汉字输入法如果没有行政强制推行一种简易高效的输入法,那最后最高效的只可能是拼音,所有的形码都无缘。而事实上形码输入法不可能有一个能像英文26个字母那样简单输入方式的输入法,对于几万字的编码来说,这是行不通的。

    在中国大陆,因为五笔先入为主,所以后来的形码都只能是小众的输入法,即使要比五笔有更大效率优势也没用,和五笔用户数量比只是零星。在大陆的拼音输入法或者说全拼输入法的排布是极其固定的,这是因为大陆的拼音输入法直接就采用了汉语拼音方案,而且直接使用英文的键盘布局而不作更改,所以一开始对新手用户来说,对汉字输入的难度最多也就相当于用这键盘的输入英文字母的难度,或极其接近其英文字母录入难度(注:这里新手指改革开放后接受过义务教育的人,而对于普通人一般使用电脑,录入文字基本上为心里想着什么内容才输入什么内容,而心里所想的内容,都是心里可以读出来的内容,所以不是一些生僻的罕见字,跟文稿录入不同,故而拼音用户是知道的)。所以我们看到用户拿到拼音就可以直接上手,而没必要看手册说明,这个就跟英文的输入文字是几乎一模一样。

    而在台湾和香港,他们并没有一种不用学习就能够掌握的输入法(此处的学习对于大陆来说,幼儿园和小学一年级的汉语拼音不能算其中,除非国际废除汉语拼音教学),台湾人要使用注音输入法不能直接使用,因为键盘上不是一一对应,台湾人用的注音输入法键位从25键到41键的每个数量的键盘布局都有人设计过,台湾人使用最多的是41键的注音输入法,其次是26键和25键的注音输入法,而注意输入法的难度要比大陆的二笔输入法的学习难度还要大,因为其布局大多数键位没有规律,要靠强制性记忆,且记忆量大,但是并不障碍台湾人学习注音输入法,因为他们一方面对注音符号熟悉,另一方面台湾的仓颉输入法、嘸虾米输入法学习难度过高,而行列输入法要掌握难度也不小,综合对比下来就是注音稍微要简单些。这也是因为台湾各大输入法没一个能有大陆的拼音输入法这样最为简单,所以台湾用形码的比例要高些,有接近20%的人选择形码输入法,最多的是嘸虾米,其次是仓颉输入法。对于香港,因为没有拼音,所以他分要输入汉字只能使用形码输入法。

    但是很明显一点,对于绝大多数人,他们用拼音也好,用注音也好,用“轻松”“速成”也好,但是他们的速度可以轻轻松松就超过他们写字的书写速度,而且用上述输入法只要平时渐渐使用就很快可以达到30到40甚至到50.对于一般人来说,只要超过了了他们书写速度后,没多少人会继续进一步提升他们的打字速度,因为写字速度30字算是一般的速度,而40字是相当快的速度了。所以对于这些人,你休想让他们换其他输入法,除非从小要他们对其他进行输入法深入学习。所以对于普罗大众来说,什么终极形码是毫无意义。

    从tzehengm对于各输入法的分析可以知道,想达到英文输入这样简单的形码是不存在的,再这样研究也是没意义的,即使连拼音输入法的难度要小的输入法都是不存在的。

    对于一个没研究意义的终极输入法,加上普通用户不会领情的终极输入法,这样问冠的形码输入法明显不会存在,也是没有研究的意义。因为不管再怎么变,汉字已经不能再变化,而改造汉字也是不实际的想法,即使要改造汉字,也只有将汉字改成线性录入的才有意义。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    发表于 2013-4-28 05:18:31 | 显示全部楼层
    本帖最后由 Apple 于 2013-4-28 06:51 编辑

    在百度输入法吧里一个用户henyaziwang(附百度输入法吧的内容:http://tieba.baidu.com/p/2243678886)提到的内容有这一个思想:中文输入法采用一种自然编码方案,而不是一味刻意拆分汉字。所以该作者提到,五笔输入法刻意强制对汉字进行拆分,一方面不合理的因素增加,另一方面学习难度也会很大,虽然可以在重码率、速度、击键优化方面可以适当优化,但是总体不优。而二笔输入法先按简易规律排位,然后给出简易规则,利用这套简单的规则却可以对成千上万的汉字进行简单的编码,而且这种就像无意插柳的编码方式,却同时还可以拥有一个极低的重码率,这样就可以做到对于普通用户可以轻松上手,对于追求快度可以达到高速,这也是为什么二笔公司当时组织比赛中有很多人速度可以在200字/分以上的原因。

    这种输入法编码方式就有点像ASCII编码那样,对于由0和1组成的字符,通过定下一些规则排列,按照一定顺序,最终得到英文字母与数字和其他一些符号。可是在楼主的北大中文论坛的输入法版块中,却没多少人有这样的思想,很多人只是一味地追求一个纯形的输入法,但是正如 tzehengm 所指出那样,现在纯形编码的研究几乎都是徒劳的工作,除了重复造一些轮子外,已经找不到新的突破口了。

    回复 支持 反对

    使用道具 举报

    该用户从未签到

    发表于 2013-4-28 05:46:08 | 显示全部楼层
    本帖最后由 Apple 于 2013-4-28 06:46 编辑

    在北大中文论坛中不少研究码字的圈子里,还有一个怪现象,很多人对于音与形的转换有一个“想当然”的意识,即认为从音转到形一定会障碍到思维,影响输入速度,试问这些研究码字的人对于音形类的输入法掌握到哪个程度了呢?

    如果你的速度达到150字以上,你才会有资格这样评论由音转到形是否存在“音形”转换的思维障碍问题,如果你速度连100都不到,就这样点评的话,那除了自己想象外,还有什么理论支撑?

    用户不管用音形码也好,用全形码也好,对于每个编码的分解之间都有一个间断点,而这间断点除了物理上的时间差异上,当然是由于人的思维控制与手指灵活度相关。对于形码,就拿郑码或五笔举例,在初学阶段,碰到每个字对于每个字根是哪一个,对于该字怎么拆都用很费时间,这里为了探讨问题我假设量化一些数据。

    对于刚入门新输入法不久用户来说,由于拼音和人脑对应速度之快(有多快这个可以参考亚位速录的拼音,反应速度不会比五笔慢),所以头脑中想到拼音,而且手指打出拼音所用时间为1,而形码的部件,字根或双笔画定下的整体汉字结构(超强二笔输入法为双笔定下的整体结构,要比五笔郑码字根部件还大,这点二笔公司的二笔不大一样。对于整体定下结构或字根,楼主可以参考五笔吧里的水晶五笔,实际上里面的排布就是二笔双笔定位的思想),这里我用数据5来表示。
    (入门新输入法对于拼音反应时间为1,部件或字根反应为5,数值越小,其速度也快)

    所以对于五笔和郑码新用户,他们打第一码用时间为5,第二码用时间也为5,第三码用时间也为5,第四码用时间也为5。
    对于二笔输入法用户,第一码用时间为1,第二码用时间为5,第三码用时间为5,第四码用时间为5。

    从以上对比就可以看出来,对于新学输入法不久用户来说,打五笔、郑码用户打每个码用时都相差不大,所以不会感觉到有什么对比可言。
    而二笔输入法,一上手,第一码就1时间内打出来,而二三四码却时间长得多,达到5,所以这些新手心里会对这两种不同的反映时间有一个差异对比,而且他们实际上也是打完了拼音首字母后,要进行思索一下,才得到第二个编码。而正是这个时间对比的差异,让很多所谓研究码字的高手下定论,二笔输入法打字有音转形的思维障碍问题。
    如果阁下不是这样,那么请问你们的“二笔输入法从音转形”问题是从哪里得来,是根据什么推导得到,是心理学还是脑科学研究的成果,是谁做过二笔高手这方面调查得到的数据表明这样的结果?

    但是很明显一点,即使后面的编码时间为5,但是和五笔郑码的时间为5是一样的,这反应的时间并不因为从音转到形的问题导致思维障碍,更多是自己对于汉字拆分的不熟练所导致。但是如果你的进一不熟练后,拼音的时间降为0.5,部首或字根时间降为1,再进一步的话拼音和部首字根两者反应时间最终接近0.1,这时你的常用500单字速度可以达到100以上,不管你用五笔郑码也好,用二笔输入法也好,你根本就不会再感觉到有音转形的问题。而对于汉字的输入过程中,用二笔不一定在心理就读出来,就像你看书读报,心里也不一定读出来,二笔输入法是一种固定码长固定编码类输入法,到达条反后与五笔郑码无异,而即使是拼音输入法如果速度达到200以上,看到汉字就可以直接输入,也不一定非得心里默念出来。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    发表于 2013-4-28 06:06:19 | 显示全部楼层
    ShineHuang 发表于 2013-4-27 22:06
    赞同楼主这三个词,但是不赞同形码类

    恰恰就是因为 拼音和形码相比 更加易学、好用,而高效这个东西 ...

    拼音输入法(指大陆的汉语拼音输入法中的全拼,非指台湾的注音,台湾的注音需要记忆的内容要比大陆大得多,而且键盘布局不统一,41键最多人用,26,25键和30键的也有人用)在上手难度上接近于英文输入,对于一个小孩子来说,不用教他,他对着电脑或者手机,他们基本上可以录入,而这点是其他所有中文输入法都不能达到的(因为大陆幼儿园和义务教育一年级教学汉语拼音)。

    但是全拼输入法和英文输入法的区别是:英文键位26个与26个字母(大小写字母通过Caps Lock或Shift键切换)做到一一对应,而中文的拼音输入法,拼音的对应关系却是这样,多个键位对应多个中文汉字(区位码的多个键位对应单独汉字,符合双射映射关系)。

    基于这两者的不同,这两种的输入方式也不一样。英文的在系统中的ASCII码中就定下了规则,所以只要安装好了操作系统,这个关系就对应上,可以录入,实际上可看成是特殊的一种输入法,而这种输入法不需要智能,也不需要词库,也没有联想,也没有补全功能,而这种输入法却是几乎所有美国人使用的输入法,关于其他类型的有联想功能和智能纠正英文输入法美国人也有人制作出来,但是几乎没人会主动去使用。

    而中文的全拼输入法虽然在程序上做到尽可能完善,在词库上做到尽可能庞大,在性能特别是智能功能上尽可能突破,但是并不是一直都能有效,而今天智能拼音除了在整句上做文章,再一个就是云计算(属于提高智能),没有其他实质性可以改变拼音的劣势的性质,即重码率高,选字率高不可避免,而现在拼音自搜狗2006年以来,实质性也没有什么突破,已经过了7年时间。

    因为对于拼音输入法的重码不管其多么智能,也不可能做到很低重码,因为汉语的表达中的同音字和同音词太多,这注定了拼音在消除重码方面无能为力,即使整句也一样,因为在汉语中甚至有相同读音的句子,但有时会遇到需要包含有不同的汉字,就像出现“唯一”和“惟一”这样的词语,即使出现在句子中,即使用云计算也无能为力,而一些网友想用的骂人话,制造出来的谐音,句子的字改变的就更多了。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    发表于 2013-4-28 06:10:20 | 显示全部楼层
    ShineHuang 发表于 2013-4-27 22:06
    赞同楼主这三个词,但是不赞同形码类

    恰恰就是因为 拼音和形码相比 更加易学、好用,而高效这个东西 ...

    其实中文输入法最理想的输入方式就像英文那样,无需所谓复杂程序,也不需要智能功能,就能够轻松高效的是输入法,这样用户也不用担忧自己的隐私被泄露。

    只是对于复杂的中国汉字,计算机中不存在一种能够像英文那样的输入法,探讨了30多年的汉字输入法,至今还是没有达到这个要求的输入法。像英文那样录入中文,也是很多研究码字的人日日夜夜思考的课题……
    回复 支持 反对

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    小黑屋|手机版|Archiver|Ubuntu Kylin    

    GMT+8, 2019-3-21 12:22 , Processed in 0.019690 second(s), 8 queries , File On.

    Copyright ©2013-2019 Ubuntu Kylin. All Rights Reserved .

    ICP No. 15002470-2 Tianjin

    快速回复 返回顶部 返回列表