学习啦>论文大全>毕业论文>文学论文>>

T形汉字码输入法--汉语言文学论文

时间: 谢桦657 分享

  形部编码的取码规则规定为:左右结构的汉字,按整体结构分为二部分,左半部分简称左部,右半部分简称右部,分别按书写顺序取该汉字的左部和右部的第一个基本部件的代码进行编码,即按该汉字的书写顺序分别取左部和右部的第一个基本部件的代码进行编码。今天学习啦小编要与大家分享的是汉语言文学论文:T形汉字码输入法。具体内容如下,希望能够够帮助到大家:

T形汉字码输入法

  1 背景技术

  键盘输入法是目前汉字输入法中技术最成熟,使用最广泛的输入法。按编码划分,可分为音码、形码、音形码三类[1-3]。

  音码以汉语拼音为基础,利用汉字的读音进行编码。音码的优点是使用方便,只要会汉字拼音,就可以进行输入,简单易学,所以使用最为广泛;缺点是同音字多,单字重码率高,汉字输入速度会慢。搜狗输入法等采用了智能和云输入技术提高了拼音输入速度,但重码选择仍是个难题[4-5]。

  形码利用汉字的字形特征进行编码,往往汉字部件太多,记忆麻烦,有时拆分也麻烦。五笔字型是其典型,有的形码采用将汉字五种基本笔画二二组合的方法,虽然汉字部件少,记忆方便,但却付出了不够直观,将汉字部件拆散了的代价,易学的同时却不易用。

  音形码利用汉字的语音特征和汉字的字形特征编码。它利用了汉字的音码和形码各自的优点,兼顾汉字的音和形,往往较为简单,缺点是打字时在音和形之间思维不断转换,容易疲劳。只用汉字声母参与编码的音形码,如二笔输入法等,由于必须舍弃韵母,与人们的习惯思维不符,才特别存在音形思维转换问题。完整地利用了汉字的声母和韵母,并且规定音码部分在先,形部编码部分在后的话,则思维不需要在音和形之间转换,基本上不会影响思维。

  这样我国三十多年所发明的二、三千种输入法都未能克服“简单的不快速,快速的不简单”这一汉字输入法技术难题。

  2 发明方案

  本方案属于计算机汉字编码输入法。目的是提供一种汉字部件规范直观、简单易学、取码规则合理、部件分类合理、输入汉字简便快捷的计算机汉字编码输入方法,这就是T形汉字码输入法。

  本T形汉字码输入法的编码由音码和形部编码两个部分组成。音码在先,形部编码在后。音码部分可用全拼或其他双拼或注音字母拼音或不完整拼音,一般采用拼音,为提高速度,音码还可采用双拼,占二码。形部编码部分也最多占二码。形部编码也可作为一种输入法单独使用。

  本编码方案采用双拼对那些按汉语声韵互补规律中没被合并的多个字母组成的韵母按第一个字母分为a、o、e、i、u区,每区又按a、o、e、i、u、n、g的顺序排列,极具规律性。惟一需要记忆的是双拼韵母的合并规律。在记忆双拼韵母合并规律时,只要记住以a、ong结尾的多个字母的韵母合并,以ang结尾的4个字母的韵母合并排列就是,ia被ua合并,iang被uang合并,iong被ong合并,以ü开头的多个字母的韵母均被以u开头的多个字母的韵母合并,另外ui被v合并,uo被o合并,读音简记为“为余”,“我窝”。另外er有多个键可排,优选排在r键上。见附图1所示。   这时各韵母与字母映射关系设定为:

  a―a b―uang iang c―uan üan d―ai

  e―e f―an g―ang h―ou

  i―i j―ong iong k―ei l―en

  m―un ün n―ue üe o―o uo p―ing

  q―iao r―ie er s―ao t―iu

  u―u v―ü ui w―ian x―uai

  y―in z―ua ia ;―eng

  在键盘上的排列如附图1所示,翘舌音ch、sh、zh仍按英文音序分别用i、u、v表示。

  形部编码也一般由两个代码组成,有时可能只有一个代码。本方案优选了国家语委规定的横、竖、撇、点、折五种基本笔画和28个左右的多笔画部件参与编码,这五种基本笔画和28个左右的多笔画部件被统称为基本部件,全部选自汉字的偏旁部首,既简单常见又直观,并且数量少,容易记忆。由于国家语委将五种基本笔画也称为汉字部件,因此在本发明中称五种基本笔画称为单笔画部件,而其他28个左右的优选的汉字部件由多个笔画组成,称为多笔画部件。在形部编码时要优先按笔画多的基本部件编码,否则由于多笔画部件可拆分成单笔画部件,将多笔画部件拆成单笔画部件编码的话,选取多笔画部件就无意义。

  本人在编码研究中早就认识到,一个汉字是否为左右结构是一目了然的,左右结构的汉字很容易在其产生空隙处将它一分为二,(空隙在左边部分和右边部分之间),而上下、包围结构的汉字有时不易一分为二,甚至有时难以分清一个字是独体字还是上下结构或包围结构。除了“川”、“顺”这两个字划分左右结构有点难度外,建议把“川”看一个整体,但也可不把“川”看成一个整体,本发明提供两种不同的分法,以兼容的方式处理,根据一个汉字是否为左右结构划分是最简单易学。因此可将汉字分为左右结构的汉字和非左右结构的汉字,左右结构的汉字按整体结构一分为二,先写部分为左部,或称为左边部分,后写部分为右部,或称为右边部分,左中右结构的汉字,中间部分可划到右边部分,也可划到左边部分,为降低重码,中间部分和右边部分一律划到右部。

  形部编码的取码规则规定为:左右结构的汉字,按整体结构分为二部分,左半部分简称左部,右半部分简称右部,分别按书写顺序取该汉字的左部和右部的第一个基本部件的代码进行编码,即按该汉字的书写顺序分别取左部和右部的第一个基本部件的代码进行编码。非左右结构的汉字,按书写顺序取该汉字的第一个和最末一个基本部件的代码编码,只有一个基本部件的汉字,就只取这个基本部件的代码进行编码。只有一个基本部件的汉字或者规定接连两次取这个基本部件的代码进行编码,或者规定再取该基本部件的第一个笔画的代码进行编码,编码实例中不这么规定。编码时要优先按笔画多的基本部件编码。

  还要特别指出的是,之所以不规定所有的汉字都按书写顺序取前二个基本部件的代码或都取首个、末个基本部件的代码编码,是因为这样规定的话表面上会使形部编码的取码规则显得更简单易记,实际上却会造成大量的重码,或付出增加大量多笔画部件的代价。

  若在汉字输入中不停对汉字作是否为左右结构,这是比较麻烦的,会影响头脑反应,本人在经历长达二十年潜心研究后,并于深夜睡醒,突发灵感,终于设计出的其他任何输入法都没想到过的取码思路,那就是“一竖横向T形选取基本部件”的取码思路。用这个思路编码与将汉字分为左右和非左右结构编码是等效的。具体讲,就是按书写顺序取该汉字的第一个基本部件的代码作为形部编码的第一码后,从第一个基本部件的最右端起,用一根与该汉字齐长的大致竖线从左到右横向推移,去分隔该汉字,若能将整个汉字一分为二,则该竖线就为分隔线,将该汉字分为左边和右边两个部分,简称左部、右部,再按书写顺序分别取右部的第一个基本部件的代码作为形部编码的第二码进行编码,若该竖线从左到右地横向推移到整个汉字的最右边,意味着不能用竖线将汉字一分为二,这时按书写顺序取该汉字的最末一个基本部件的代码作为形部编码的第二码编码。这个方法的核心是:碰到汉字要先按书写顺序取第一个部件的代码,然后用大致的竖线左右扫描,能分为左部和右部的话,再按书写顺序取右部的第一个部件的代码,不能将汉字分为左部和右部的话,就按书写顺序取该汉字的最末一个部件的代码。扫描的方向形似T形,对任何一个汉字都可用一根竖线沿着该汉字上方的一根虚拟的横线从左到右扫描,试着将该汉字分隔为左部、右部。

  为降低重码,优选了氵、艹、口、木、扌、钅、亻、女、讠、忄、月、虫、土、纟、火、疒、、、山、石、日、王、阝、鱼、禾、辶、鸟、贝等偏旁部首,分别用一个字母或别的符号编码。

  横、竖、撇、点等基本笔画的出现的频率较高,为降低重码,不宜与除个别如“鸟”以外的多笔画部件排在同一个键上,在编码实例中,将它们分别排到三个标点符号“,”、“.”、“/”、“;”键上,用三个标点符号“,”、“.”、“/”、“;”编码,还可将基本笔画折排到其他一个标点符号键上,用该标点符号编码,不与多笔画部件合并排列,考虑到减少键位和重码仍然比较低,在编码实例中基本笔画折按其拼音首字母z编码。折或者排在v上,用v编码,因为zh用v表示,编码实例中不这么表示。

  为便于记忆,排列多笔画部件时可按笔画数和横、竖、撇、点、折的次序排列,也按拼音或象形排列,还可按部件的义排列。为便于记忆,排列时主要以多笔画部件的读音的拼音首字母或声母为代码。为避免重码,还将若干声母相同的部件取了出来,改按象形或韵母的方式编码,如图2所示。

  多笔画部件、单笔画部件与字母、标点符号的影射关系设定为:

  a――钅 b――疒 辶 c――艹 d――氵

  e――禾 f――扌 g――贝 鸟 h――火

  i――虫 j――纟 k――口 l――鱼

  m――木 n――女 o――月 p――阝   q――日 r――亻 s――石 t――土

  u――山 v―― w――王 x――忄

  y――讠 z――折 ;――点

  , ――横 .――竖 /――撇

  根据设定关系将部件分别用相应的字母和标点符号编码。

  下面作具体解释:a的大写A与钅相似;b是疒的声母; c是艹的声母;d是氵的声母;e是禾的韵母;f似扌;g形似鸟、贝; h是火的声母;i因为ch排在其上,而ch是虫的声母;j是纟的声母; k是口的声母;L似鱼的左上角;m是木的声母;n是女的声母;o似月亮的外形;p似阝;Q似日,就作为日代码;r是亻的声母;s是石的拼音的首字母;t是土的声母;u因为sh排在u上,而sh是山的声母;v因为zh排在u上,而zh是的声母;w是王的声母;x是忄的声母;Y是讠的声母;z是和折的声母;这些字母就分别作为相应的基本部件的代码。“;”作为点的代码;“,”作为横的代码;“.”作为竖的代码;“/”作为撇的代码。这种排列方式基本上是按表音排列的,往往将基本部件按其拼音首字母或声母排列,对拼音首字母相同的少数多笔画部件,改按象形或韵母排列。

  有的基本部件在作为偏旁部首后,字形会有所改变,但必须视为同类基本部件,用同一字母编码,这类基本部件如和竹,和足,亻和人,讠和言,钅和金,氵含水、?,扌含手,忄含心,纟含?等,特点是同源。基本部件也可包含个别与它十分形似的部件,用同一字母编码。如部件“土”可包含“士”,纟包含幺。

  3 编码实施方式

  编码实例:如“汉”的编码,声母是h,韵母为an,代码是f,音码部分就为hf,为左右结构汉字,按书写顺序取左部的第一个基本部件氵的代码编码,为d,再按书写顺序取右部的第一个基本部件“折”的代码编码,为z,于是“汉”的编码为“hfdz”,音码采用全拼的话,“汉”的编码为“handz”。又如“字”的编码,音码部分双拼和双拼一致,为zi,形部编码为非左右结构汉字,按书写顺序,取第一个基本部件为基本笔画点,代码为“;”,再按书写顺序最末一个基本部件为横,代码为“,”,于是“字”的编码为“zi;,”。又如“封”,全拼为feng,双拼就为“f;”,形部编码时,左右结构汉字,左部第一个基本部件为多笔画部件“土”,代码为“t”,右部的第一个基本部件的代码“横”编码,代码为“,”,“封”的编码就为“f;t,”,音码部分采用全拼的话,“封”的编码就为“fengt,”。

  注意在形部编码时取基本部件要遵循取大优先的编码原则,即要优先取笔画多的基本部件编码,例如“封”字编码时应取多笔画部件“土”,而不能取第一个单笔画部件横,因为“土”的笔画数多于“横”,要按“土”编码。如“这”字,全拼为zhe,双拼就为“ve”,形部编码时,为非左右结构汉字,按书写顺序第一个基本部件为“点”,代码为“;”,再按书写顺序取最末一个基本部件辶的代码b,“这”的形部编码就为“;b”,于是“这”的编码为“ve;b”,音码部分采用全拼的话,编码为“zhe;b”。如“事”字,拼音为shi,sh的双拼代码为u,“事”的双拼就为ui,按书写顺序第一个基本部件为单笔画部件横,代码为“,”,根据取码规则,形部编码的第二码要按书写顺序取该汉字的最末一个基本部件竖的代码“.”编码,“事”的形部编码就为“,.”,“事”的整个编码就为“ui,.”,音码部分采用全拼的话,编码为“shi,.”。又如“木”的编码,双拼为mu,该汉字只有一个基本部件“木”,代码为m,“木”的形部编码就为“m”,于是木的编码就为mum。

  为提高输入速度,设计了简码。词语输入是提高汉字输入速度的最常用方法,输入的步骤是:

  (a) 二字词语,取每个字的前二个代码依次输入;如“编码”代码为bwma。

  (b) 三字词语,取第一字的第一码、第二字的第一码、第三字的前两码;如“计算机”的代码为“jsji”。

  (c) 四字及以上词语,取前三个字及最后一个字的第一个代码依次输入;如“新疆维吾尔自治区”,编码取前三个字及最后一个字“新疆维区”的第一个代码“xjwq”。

  需要指出的是,在本文中的字母均不分大小写,字母的大小写是等效的。

  4 输入过程

  利用输入法软件,在计算机键盘上敲击某个汉字或词组的相应的编码所在的键,就可完成输入。一般规定无重码且达到规定码长的汉字或词组自动上屏,不足4码的要按空格键,有重码的单字或词组根据提示行选择。本方案字词兼容,最多码长都为4码。“~”键可设为万能学习键。本方案的形部编码可作为直接或间接辅助码,与拼音输入法配合使用,相兼容。

  5 结束语

  本文所介绍的汉字输入法易学易用,重码率低,笔顺部件符合国家规范,只要十几分钟就能学会,只有二百多对重码,能够以每分钟二三百字的速度高速盲打输入,又便于听打。由于形部编码也可独立为一种输入法,所以不懂拼音的人也能较快输入汉字,可见,这是一种理想的完善的标准的汉字输入法,彻底解决了汉字输入法的存在的“简单不快速、快速不简单”的世纪难题。希望能够得到推广。本方案的音码部分可采用拼音。为提高输入速度,可采用双拼,虽然目前双拼种类较多,各具优缺点,还没形成统一,但是国家终将推出统一的双拼,那时本发明方案的优越性将得到更大的体现。

T形汉字码输入法--汉语言文学论文

形部编码的取码规则规定为:左右结构的汉字,按整体结构分为二部分,左半部分简称左部,右半部分简称右部,分别按书写顺序取该汉字的左部和右部的第一个基本部件的代码进行编码,即按该汉字的书写顺序分别取左部和右部的第一个基本部件
推荐度:
点击下载文档文档为doc格式
331864