|
本帖最后由 hehehahei 于 2009-1-27 23:27 编辑
汉字与词语表意上,汉字是汉文组成的最小单位,大半汉字就可以为独立表意单位,为单字词。随着语言文字的发展,有大量惯用的双字词甚至多字词出现,近代白话尤其众多,主要分为
- 同义复词:如遭遇(二字同义)
- 反义复词:一笑泯恩仇(两字反义,两个意思都保存)
- 偏义复词:不吝惜“去留”(两字反义,但只有“留”的意思)
不过,从另一方面来说,准确掌握为数众多的复合词的搭配形式和用法也成了一种负担。汉语常用词汇约为几万条,总词汇量约有百万条,从数量上来说可能使有些人望而却步。
而从古文的角度来看,多用字本义,比起过度依赖词语,会来的精确且有效率,例如朱邦复先生就提倡精确使用“字”的复古作为。
汉字的数量汉字由于是开放集合,数量并没有准确数字,日常所使用的汉字约为几千字。汉字数量的首次统计是汉朝许慎在《说文解字》中进行的,共收录9353字。其后,南朝时顾野王所撰的《玉篇》据记载共收16917字,在此基础上修订的《大广益会玉篇》则据说有22726字。此后收字较多的是宋朝官修的《类篇》,收字31319个;另一部宋朝官修的《集韵》中收字53525个,曾经是收字最多的一部书。
近代编集的字典收字量更高,如清朝的《康熙字典》收字47035个;台湾的《中文大字典》收字49905个;大陆的《汉语大字典》收字54678;最新的《中华字海》收字85568个,包含了《汉语大字典》、《中文大字典》、《康熙字典》和《说文解字》的所有收字;日本的《大汉和字典》收字48902个,另有附录1062个。21世纪已出版的字数最多的是《日本今昔文字镜》,收字15万个。
本世纪所新创的,还有第一批简化字后跟第二批的“二简字”,其中也包括社会上不少人造的文字,不过二简字已被大陆官方废除,只有少数字在社会上流行,但现时并没有于计算机编码中被收录。
在汉字计算机编码标准中,目前最大的汉字编码是台湾的国家标准CNS11643,目前(4.0)共收录可考证之正简、日、韩语汉字共76,067个,在户政系统等官方机构普遍使用。台湾及港澳地区民间通用的大五码收录正体汉字13053个。GB 18030是中华人民共和国现时最新的内码字集,GBK收录简体、繁体及日语、韩语汉字20912个,而早期的GB 2312收录简体汉字6763个。而Unicode的中日韩统一表意文字基本字集则收录汉字20902个,另有两个扩展区,总数亦高达七万多字。
初期的汉字系统字数不足,很多事物以通假字表示,使文字的表述存在较大歧义。为完善表述的明确性,汉字经历了逐步复杂、字数大量增加的阶段。过去在汉字组成基本因子(前述字根部件)研究与教学上落后,造成学习上必须逐字学习难以举一反三,汉字数量越多学习越困难,组建新字的风气日趋保守,也没有相应的资讯处理技术,于是有许多单一的汉语意义是以词表示,例如常见的双字词,所以近代书写的发展多朝向造新词而非造新字。
常用字
中国大陆、香港、台湾地区香港教育署于2000年颁布的《常用字字形表》收录4,759字,适用于香港;中华民国教育部于1996年颁布的《常用国字标准字体》收录4,808字,适用于台湾;国家语言文字工作委员会于1988年颁布的《现代汉语常用字表》收录3,500字(2,500个常用字,1,000个次常用字),适用于中国大陆。
山西大学计算机科学系受国家语言文字工作委员会委托,抽样统计200万字的材料,检测《现代汉语常用字表》收字的使用频率。结果是:2,500常用字覆盖率达97.97%,1,000次常用字覆盖率达1.51%,合计共3,500字覆盖率达99.48%。 这说明只需学习约3,500个字,已可以正常阅读中文。
日本参见:当用汉字、常用汉字及日本汉字能力检定
日本内阁于1946年颁布《当用汉字》,收录1,850汉字;文部省国语审议会(今文部科学省文化审议会)于1981年颁布《常用汉字》,收录1,945汉字,取代《当用汉字》。依《常用汉字》,1006个汉字在小学教授,939个在中学中教授,共计1,945个。
自1975年,日本汉字能力检定协会推出日本汉字能力检定,测试日本人对汉字的掌握。直至2007年,共2,716,711人考核。成绩分为12级,由最高至最低排列分别为:1级、准1级、2级、准2级、3级、4级、5级、6级、7、8级、9级、10级。
韩国参见:教育用基础汉字 |
2009-1-18 02:51:06
|