“研制汉字信息处理工程”(“748”工程)
2009-09-17 16:34:20.0 来源:中华印刷包装网 责编:涂运
汉字是中华民族智慧的伟大创造,它一字一义,直观简明,语法简单,词序排序规则,富于想象和联想,联合国各国文字的文件中最薄的总是中文。但是,汉字是一种方块字,结构复杂、笔画多、字数多、字体多、一字一音,书写和读音都比较困难。 《康熙字典》收入的汉字多达47000多个,现在常用的也有6700多个,这么多的字要认、要记、要用,对于一般老百姓来说确实是一件很困难的事。
20世纪中叶, 电子计算机技术在世界范围内迅速发展, 极大地推动世界各国社会经济文化的进步,人类进入了信息化时代。用计算机处理信息,包括数据、文字、图形、语言等等,但基本的是文字信息处理。西方国家采用拼音文字,一般字母只有几十个(英文为26个) ,字形简单,信息量较少,容易实现对文字信息的处理。而我国汉字字数多,印刷用的汉字字体也多,有宋体、黑体、楷体、隶书体等10余种,还有10余种不同字号,印刷用的汉字字模数量超过65万个,其对应的存储量超过200亿字节,比西文信息存储量高出上百倍。要使系统软件具有汉字处理和西文处理互相兼容的能力,许多人都认为是一道难以逾越的障碍,一个世界性公认的难题。
1975年,北京大学王选等一批年轻的学者立志攻克这个世界性难题。那时王选38岁,北大数学系毕业,在北大无线电系任助教。他们接受了国家计委和电子部安排的“汉字信息处理技术”国家重点研究课题中的汉字精密照排项目任务。这个课题因在1974年8月立项,因此被称为“748工程” 。
王选反复地研究汉字字形的特点和规律,他发现汉字虽然字形繁多,但基本笔画还是很有规律的,如横、竖、折等是由基本直线和起笔、收笔及转折等笔锋所组成,这种规则笔画占汉字笔画总数一半以上。这种规则笔画以宋体为例,可用4~5个字节表示,这样对提高压缩倍数起了重要作用。对不规则笔画,如撇、捺、点等虽然不规则,但也有一定的曲线变化,也有规律可循,可以用一连串折线逼近其轮廓曲线。王选一连几个月趴在桌子上用放大镜分析汉字字形的规律,进行艰苦复杂的统计和比较,精确地计算不同笔画的曲率变化,再分类合并,用参数描述横、竖、折等规律笔画的长、宽、倾斜度及变化多端的各种笔锋,用轮廓描述点、撇、捺等不规则笔画,这样使汉字字形信息量下降数百倍。同时,他还研究出一整套把折线轮廓复原成点阵的快速算法和使文字变倍失真尽可能小的变倍算法。高倍率汉字信息压缩技术,高速度还原技术和不失真的文字变倍技术是汉字激光照排技术的核心。这项技术的突破就打开了用计算机进行汉字信息处理的大门,表现了中国人的聪明和智慧。
- 关于我们|联系方式|诚聘英才|帮助中心|意见反馈|版权声明|媒体秀|渠道代理
- 沪ICP备18018458号-3法律支持:上海市富兰德林律师事务所
- Copyright © 2019上海印搜文化传媒股份有限公司 电话:18816622098