您现在的位置: 首页 > 网站导航收录 > 百科知识百科知识
唾手可得拼音-唾手可得拼音怎么读
机器翻译,汉字,语言学唾手可得拼音-唾手可得拼音怎么读
发布时间:2020-12-06加入收藏来源:互联网点击:
那段时间,冯志伟还研究了汉字的“熵”。熵是物理学术语,用于量度某些物质系统的状态,英语字母所含信息量的大小也可用“熵”来表示。信息论的奠基人香农使用手工查频的方法,统计出英语26个字母在文本中出现的频度,经过复杂计算,确定英语字母的熵为4.03比特,奠定了信息论的理论基础。
香农又提出了“编码定理”,他指出:在编码时,码字的平均长度不能小于字符的熵。英语字母采用单字节编码,码字的长度是1个字节,相当于8比特,大于英语字母的熵,符合香农的“编码定理”。因此,采用单字节来给英语字母编码,是符合数学原理的。
20世纪70年代,国外已经广泛使用计算机了。冯志伟想,中国人将来也要使用计算机,那时,就必须要给汉字编码,使得汉字也可以在计算机上自由地输入、输出、传输。但是,汉字究竟要使用多少字节来编码呢?根据香农“编码定理”,要给汉字编码,首先就要计算汉字的熵,这是冯志伟最为关心的问题。他想,如果汉字的熵大于8比特,那就不能采用单字节编码了,我们就必须另辟蹊径,研制新的编码方式。汉字数量庞大、笔画繁多,汉字熵的计算特别艰难。首先要进行字频统计,然后再计算汉字的熵。冯志伟动员岳父和10位朋友一起工作,没有计算机,主要使用计算尺和算盘来手工计算。冯志伟岳父在云南省粮食厅工作,算盘打得非常熟,他打算盘,配合冯志伟拉计算尺进行计算。最后,冯志伟根据手工统计得出的1万多个汉字的频度,经过精心计算,确定汉字的熵值为9.65比特。这样,汉字只好采用双字节(2字节=16比特)来编码了。冯志伟的这项工作,为20世纪80年代汉字的双字节编码提供了可靠的理论基础。
冯志伟始终认为,9.65比特只是一个估测出的汉字熵值,还需要采用更加精密的手段进行检验。20世纪80年代,北京航空学院计算机系教授刘源使用计算机统计了汉字的频度,并计算出汉字的熵为9.71比特,与冯志伟通过手工计算估测的结果相差不大。
1978年春,全国科学大会召开了,在“尊重知识、尊重人才”的口号声中,北京大学开始行动,希望把远在昆明的冯志伟调入北大,而冯志伟在昆明五中教学成绩优秀,学校舍不得放他走,调动没有成功。
其时,中国科技大学研究生院正式在北京成立,开始招生,冯志伟抓住这个机会,经过认真准备,一举考中,昆明五中只好放他走了。1978年国庆节之后,这个39岁的壮汉又变成了学生,背着书包从昆明到北京去上学。
闯进机器翻译的迷宫
那一年,中国科大研究生院录取新生1015名,决定选派其中的150名公费出国留学,冯志伟就是其中一员。
1978年12月20日,冯志伟乘飞机到达法国巴黎,在中国驻法大使馆报到之后,先到维希的“嘉文澜”语言学院进修法语。1979年3月1日,冯志伟乘火车从维希抵达格勒诺布尔。一下火车,他就看到格勒诺布尔理科医科大学应用数学研究所“自动翻译中心”主任沃古瓦(Vauquois)教授亲自来火车站迎接。沃古瓦是数学家、天文学家、计算机科学和计算语言学家,又是国际计算语言学会议(COLING)的主席,他曾带领自动翻译中心研制了俄-法机器翻译系统,达到国际领先水平。
冯志伟在沃古瓦的悉心指导下,闯进机器翻译的迷宫,环顾细查,借鉴创新。他掌握了最新的计算机编程技术,学会了使用当时最先进的IBM4341大型计算机,开始研制“汉语-法语机器翻译系统”。
在机器翻译的研究中,冯志伟提出了多叉多标记树形图模型(Multiple-branchedMultiple-labeledTreeModel,MMT模型),用多叉树来改进直接成分分析法的二叉树,首先对源语言的字符串进行形态分析,把线字符串转换成有层次的多叉树来表示源语言的句法语义特征,然后进行源语言多叉树到目标语言多叉树的转换,最后把目标语言多叉树转换为目标语言的字符串作为译文输出。对于多叉树中每一个节点上的信息,他还使用多标记来改进传统的单一标记,精心设计了一套复杂特征集(complexfeatureset)来描写语言的形态、句法、语义特征,并编制了计算机可读的形式化语法规则和机器词典。
为了完成这项艰巨工程,他给自己规定了“887自律规则”:每天8点上班,晚上8点下班,一周7天工作。“汉-法系统”试验成功之后,他又进一步研究“汉-法、英、日、俄、德”多语种翻译系统。历经冬去春来三个轮回,至1981年11月4日,这个系统终于研制成功。他在计算机上输入汉语,计算机立即自动将其翻译成五种语言。这是世界上第一个从汉语到多种外语的机器翻译系统。研究工作结束,冯志伟立即回到北京,并把他的研究成果写成了《自然语言机器翻译新论》在语文出版社出版。
从软件工程师到计算语言学家
从法国回国后,冯志伟被分配到中国科学技术信息研究所计算中心担任软件工程师。1982年,他去布拉格出席了国际计算语言学会议,介绍了他研究的多叉多标记树形图模型和“汉—法、英、日、俄、德”多语种翻译系统,他是第一个参加这个会议的中国学者。
1985年,冯志伟的老朋友,时任国家语委副主任、语言文字应用研究所所长陈章太登门拜访。陈章太告诉冯志伟,语文现代化就是要在语言研究中鸟枪换炮,不是换旧时的加农炮,而是要换最先进的火箭炮,“我们国家语委要搞鸟枪换炮,在语言文字应用研究所设置了一个机构,叫作计算语言学研究室。”陈章太希望冯志伟重启旧业,回到语言学队伍,担任语言文字应用研究所计算语言学研究室的负责人,这是他此行的主要目的。
冯志伟知道,语言文字应用研究所是一个文科单位,资金支持和计算机设备都比中国科技信息研究所差得多,到那里肯定很难开展像现单位这样的高水平研究,亲戚、朋友、计算机界的老同学也都对调动持反对态度。但冯志伟被陈章太的诚意感动了,更重要的是,他心里还牵挂着语言学。几经考虑,他想,自己在北京大学学习过多年的语言学,回到语言学界应该能够为国家做一些有意义的事情,就点头应允了。
不久之后,冯志伟调入了语言文字应用研究所,担任计算语言学研究室主任,同时在中国科学院软件研究所担任兼职研究员。同年9月,冯志伟被中科院软件所派往德国斯图加特的夫琅禾费研究院与德方合作,从事术语数据库的研究,研制成世界上第一个中文术语数据库GLOT-C。术语是科学知识在自然语言中的结晶,术语学是冯志伟从事语言跨学科研究的一个重要领域。根据术语数据库的研究成果,冯志伟撰写成《现代术语学引论》,受到国内外学术界的高度评价。2008年6月,联合国教科文组织奥地利委员会和国际术语信息中心给冯志伟颁发了维斯特奖,表彰他在术语学研究中作出的突出贡献。
1998年5月退休后,冯志伟仍然马不停蹄,退而不休。2001年他应聘到韩国科学技术院计算机科学与电子工程系担任客座教授,用英语为博士生讲授“自然语言处理”的高级课程。在备课中,冯志伟发现英文版的《语音和语言处理——自然语言处理、计算语言学和语音识别导论》覆盖面广,理论分析深入,是一本很优秀的自然语言处理的教材,决定把此书翻译成中文。他白天讲课,晚上加班翻译到深夜,连续工作了11个月,当翻译完14章的时候,他患了眼病,难于继续翻译,中国科学院软件研究所研究员孙乐把剩下的7章翻译成中文,帮助他迈过难关。2005年,全书翻译大功告成,由电子工业出版社以《自然语言处理综论》的书名出版。2018年,他们又合作翻译出版了此书的第二版。
下一篇:返回列表
相关链接 |
||
网友回复(共有 0 条回复) |