拼音和五笔之争
【题图是绛州毛笔的制作,毛笔作为日用书写工具已经消亡了。】
去年一年写了比较多的稿,用拼音输入法打了比较多的字。到最后感觉不是特别爽,于是想换五笔试试看。最近一个月里,笔者一边断断续续学五笔,一边乱查资料,于是有了下面这些东西。笔者既不是五笔专家,也不是输入法专家,以下内容权当笑谈吧。
拼音输入法不智能 Link to heading
拼音输入法是时代的饺子1。随便找一篇某拼音输入法的软文,你就能看到以下时髦字眼:
创新
下一代
大数据
众包
云端词库
智能算法
SaaS
UGC
如果你是我,你也许会说一声:“哞。”生活在21世纪,这些东西已经听厌烦了。此时此刻,我宁可自己是一头牛。
拼音输入法的核心,不外乎庞大的语汇库加上算法的优化。从这两点看,拼音输入法自从21世纪初微软拼音的整句输入功能以后,就再没有真正的新东西了。所有的“进步”,都只是渐进式的改善而已。这些改善可以将拼音输入法从90分提高到95分,但恐怕无法再进一步提高了。
举个栗子吧2,当我输入lian'jie'zen'me'zhong'duan'le
的时候,某拼音输入法给了我两个云端建议,第一个是“链接怎么中断了”,第二个是“连接怎么中断了”。很明显第一个建议是错的,能“中断”的只有“连接”而不可能是“链接”,所以正确的候选结果应该只有“连接怎么中断了”这一个。然而为什么输入法会推荐一个错误的结果呢?
我猜是这样的:
- 和“连接”比起来,“链接”是个新词,由于各种神秘的原因,后者获得了较高的权重。从而使“链接怎么中断了”成了许多时候的默认候选词。
- 用户重度依赖拼音输入法,习惯性接收默认候选词,然后就这样稀里糊涂地接受了错误用法。
- 用户的每一次接受,在输入法看来,都是对于候选语句的肯定,于是,错误内容在词库中的权重就会被加强。
- 就算用户后来发现了输入错误,把它再改成正确的,输入法也没有办法发现和收录用户的这种改动。
- 由于这个错误用法过于常见,导致它在云端词库中占到了上风,于是就出来了这样的候选结果。
这是一个典型的“吃进去的是屎,拉出来的是屎”3的例子。这样的例子还有很多,智能输入法对只是对统计结果的反映,它对语义和语境的理解能力为零。除了这种本质性的问题以外,大部分拼音输入法还有一些产品级别的缺陷。说到底,拼音输入法的“智能”,和你的手持计算器没什么本质区别。
最近Google的围棋人工智能已经能击败职业棋手了,如果把这样的智能用到输入法上,也许结果会好很多。据说有的输入法已经用上了神经网络、深度学习之类的高级技术,前途似乎挺光明的,如果再考略到未来的脑机界面,真不知道究竟会发生什么。不过,现在智能输入法的智能还是很弱智。 拼音输入法是有害的
汉字是一种表意文字,和埃及象形文字、两河流域的楔形文字、以及美洲的玛雅文字类似,这些文字都是文明最早期的产物。别的表意文字要么已经消亡了,要么自始至终没有形成气候,只有汉字借着东方文明延续到了现代。
和字母文字相比,表意文字最大的一个问题就是“难”。在使用字母文字的古希腊和古罗马,普通人的识字率已经达到了5%,城市人口的识字率更是可能达到了20%以上4。然而直到20世纪初,中国的识字率还是勉强只有这个水平。背着这么大的一个包袱,汉文化还能走这么远,不得不说真是一个奇迹。
拼音输入法是杀人犯 Link to heading
2013年,香港大学的谭力海教授及其团队通过对数千名小学生的测试,发现对于少年儿童,拼音输入法使用时间和阅读能力呈负相关。作者认为这有可能是因为拼音的使用干扰了儿童对汉字视觉空间特性的学习。该研究发表到了美国科学院院报PNAS上,当时引起了不少人的关注5。由于汉字本身的特殊性,学习汉字的过程中,我们需要通过书写来巩固和加强记忆,而拼音对于提高儿童对于汉字空间架构的认知毫无帮助。假设儿童每天花在文字交流上面的时间是一样的,那么使用拼音的时间无疑会挤占书写的时间,这对儿童掌握汉字明显是有害的。
要熟练掌握汉字,离不开重复的书写巩固,就算如此,“提笔忘字”的现象依然常见。拼音输入法可以说避免了“提笔忘字”的问题,方法就是直接把你忘记的字告诉你。避免问题不等于解决问题。你用得挺爽,然而时间长了就会形成依赖。当你丢掉键盘捡起笔来,你会发现,很多简单的字卡在笔头处,怎么都写不出,一些词语的写法也变得模糊了。
新技术在打开一扇窗的同时,又为你关上了一扇门。从此你就只能从窗进出了。
从掌握汉字的角度讲,拼音输入法的弊端很明显。不过也许问题并不算严重。人类前进的过程,本来就是一个越来越依赖技术的过程。依赖拼音比起依赖农业、依赖全球化、依赖中国梦相比,真算不得什么事。再说就算汉字完全消亡了,文明一样还会继续前行。从2011到2016年,互联网上中文内容的比例从4.6%降到了2%6,但我觉得没什么好担心的,反正汉语本来就不行。
不过,如果你认为汉字是瑰宝,需要继承和保护,那你就更应该远离拼音输入法。
五笔没那么难 Link to heading
我学习五笔是从知乎@赵扶风 老师的帖子开始的,学习下来感觉确实不算难。赵老师说一个星期可以可以达到日常应用基本无碍的程度,我又懒又笨,三四个星期下来,感觉也能应付日常使用了。五笔的设计者在降低学习门槛,帮助用户记忆方面,的确下了很大的功夫。键盘分区、字根规律、助记口诀,种种手段为学习五笔带来很多便利。
其实若要考虑绝对难度,拼音是比五笔难一些的。你需要花几年掌握普通话口语,还需要花一段时间熟悉QWERTY键盘,而五笔只要会写字就能学,你甚至不需要认识英文字母。当然,现在普通话和计算机都得到了普及,这两道坎对于大部分年轻人是不存在的。
五笔的困难主要来自两个方面。其一是人的惰性,毕竟待在舒适区挺舒适的,只有少数人愿意跳出来学习新东西。其二是学不学五笔没什么大不了,对个人也算不上损失。但如果因为错误的原因放弃五笔,就有些可惜了。
吴军老师在《数学之美》一书中讲拼音输入法的时候,顺手小小黑了一把五笔7。吴军说五笔的问题一是背几千个编码很难,二是临时拆字会中断思维,三是他们的测试证明使用形码脱稿打字速度会慢一半到四分之一。
很明显吴军的这段话是用拼音打的,因为内容一气呵成,毫无中断的痕迹。不幸的是,这些文字中也看不出思考的痕迹。没有人会去背几千个编码。学习任何东西都有适应期。拆字规律会以程序记忆的形式得到不断巩固,就像学乐器一样,最后达到信手拈来的程度。至于他们的“测试”,由于没有论文出来,我倾向于认为结果并不可靠。在企业里上班的计算机工程师没几个会设计实验的。
对于已经严重提笔忘字的人来说,五笔上手的难度会高一些。不过经过一段时间的使用,提笔忘字的情况会得到很大的改善。这也是五笔的一大好处。
五笔是Vim Link to heading
Vim是一个“程序员的文本编辑器”。大部分的编辑器拿起来就能上手,但Vim却要经过长久的学习才能掌握。 Vim(Vi是早期版本的名称 )夸张的学习曲线,和记事本相比。
Vim之所以难学,是因为你需要记忆并熟练几十个键盘命令。这些命令可以让你完全脱离鼠标,只用键盘的主键区就能对文本进行高效的浏览和编辑操作。比如说,你可以用h/j/k/l键上下左右移动光标;如果要向下删除3行,命令是3dd;如果要把一行改成全大写,命令是gUU……掌握这些命令需要很长时间,不过一旦熟练,你的编辑效率就会大幅提高,而且会给你带来无与伦比的操控感。 Vim复杂的命令,这只是一小部分。图片来自https://github.com/xianyo/vim
五笔也一样,你需要记忆上百个字根,熟悉拆字规律,经过不断的练习,才能实现高效文字输入。这一过程需要付出额外的劳动,但是熟练以后,中文输入效率也会有明显的提高。
尽管Vim有着“程序员编辑器”的称号,程序员掌握Vim的其实也不多,因为学习成本的确挺高。普通编辑器的效率也不错,所以学习Vim也没有必要性。五笔面临的情况也类似,面对功能不错,学习成本很低的拼音输入法,五笔也很难吸引到很多用户。
和智能拼音输入法相比,五笔的输出可预测性极强,而且完全无需依赖输入法本身的智能猜测功能。因此五笔也能带来良好的操控感。在这个世界上,令人抓狂的不是愚蠢的工具,而是自作聪明的工具。
五笔的未来 Link to heading
打开五笔的官方网站8,咋一看,你会感觉到一切似乎还停留在上世纪九十年代,网站的风格极其古董,内容也很久没有更新了。但仔细翻翻,你会发现王码公司在去年还出了一版输入法,这版输入法使用了最新版本的编码方案,而且支持Windows 10。这版输入法定价138元,付款方式是银行卡转账。 王码网站,2016年2月6日截图
在这个遍地免费输入法,个个恨不得求着你用的年代,看到这么贵的一款输入法,真不知道该作何感想。吴军老师说五笔当年是因为会做市场才获得了成功,我觉得这是在逗我。
自从王永民先生输了王码86版的专利官司以后,似乎就迷失了方向。在接下来的二十来年里,王永民又陆续推出了两个五笔版本,这回他牢牢守住了专利,却没有靠专利授权赚到钱。其中的原因,一方面是免费的86版已经很好用了,另一方面,从软件的价格猜测,授权的费用估计不便宜。现在流行的输入法都是免费的,没有开发者愿意花大价钱购买授权。现在的王码公司,只能靠着王永民早期的积蓄维持9。
2011年王永民把王码公司转给了儿媳妇杨莹(新浪微博 @杨莹-Victoria)。后者接手后似乎没做什么事情,转而创建了一家女性时尚电商网站。不过前段时间杨莹说王码网站目前正在改版中。不知道她究竟会带来什么样的改变。
形码的衰落是大趋势。仓颉码是流行于台湾的一种形码,其发明人早就放弃了专利,而且仓颉码的符号被印在了台湾的标准键盘上。尽管如此,仓颉输入法也只有一成的市场份额。与之相比,五笔在大陆的使用率可能已经不到1%10。我是觉得王家没必要把专利守这么死板,至少可以先免费授权给一些开源的输入法。不过形码的时代已经过去了,就算现在公开专利,五笔也难能有什么起色。
但无论如何,在人们日渐依赖计算机智能的年代,五笔依然是掌控人类自身的智能,守卫汉字文化的一座堡垒。
不是故意。拼音输入法就是这样给我推荐的。 ↩︎
拼音输入法给的默认候选词就是这个网络用语。我想给网络另一头那只痒痒得意的产品狗喂点巧克力。 ↩︎
https://en.wikipedia.org/wiki/History_of_education#Greece_and_Rome ↩︎
http://w3techs.com/technologies/history_overview/content_language/ms/y 真正的原因可能是互联网管制,但结果一样。 ↩︎
吴军《数学之美》,“拼音输入法的数学原理”一章 ↩︎
齐介仑《王永民:我的五笔,我的三十年》,《财经文摘》2009.02 ↩︎
找不到大样本的统计数据,这只是小圈子里的调查。 ↩︎