您好、欢迎来到现金彩票网!
当前位置:2019欢乐棋牌 > 专业词库 >

“隐性小词表+专业小词库”的自动分词技术研究-文学专业毕业论文

发布时间:2019-07-05 04:01 来源:未知 编辑:admin

  “隐性小词表+专业小词库”的自动分词技术研究-文学专业毕业论文.pdf

  1.本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。

  湖南师范大学 硕士学位论文 “隐性小词表+专业小词库”的自动分词技术研究 姓名:刘阳 申请学位级别:硕士 专业:语言学及应用语言学 指导教师:蒋冀骋;彭泽润 20070401 摘要 中文信息处理技术是我国重要的计算机应用技术,国务院制 定的国家中长期科技发展纲领中明确指出:“中文信息处理技 术是高新技术发展的重点”。而书面汉语自动分词是目前中文 信息处理中公认的难题,在中文信息处理中,凡是涉及句法、语 义等研究项目(如机器翻译,自然语言理解等)都要以此为基 本单位。”(冯志伟,1992)汉语词自动切分是中文信息处理各个 领域中最基本的环节,也是中文信息处理的“瓶颈匕 已有的分词方法一直执着于对传统文本进行切分和理解, 但是由于汉语文本本身字连写的局限性,给汉语文本的自动切 分带来了极大的困难。国内从80年代开始,陆续研究出了一些自 动5Y诟-{的系统,但是离实际应用还有一段不小的距离。罗海清 的“隐性小词表”自动分词技术是其中一种比较好的系统,用汇 编语言写成,具有占用空间小、运行速度快、对系统的依赖小等 优点,我们试图在该系统的基础之上,作一系列的改进,争取使 该系统分词在保持速度优势的情况下,进—步的提高分词的精 度。 . 本文共分五个部分,第一部分是文献综述部分,主要介绍了 汉语书面语自动分词的重要性,从80年代初至今的研究情况;第 二部分详细地介绍了罗海清“隐性小词表”自动分词技术,并在 与同时期其他5-Yi百-I软件的比较中分析了它的优势和不足;第 三部分我们提出了“隐性小词表+专业小词库”的分词模式,并选 择了—个领域做了专业小词库的具体示例;第四部分是论文 的总结部分;第五部分是专业小词库表。 关键词:自动分词隐性小词表专业小词库模式 Chineseinformation isan technologyimportantcomputer processing inChina.TheStateCouncil outin technology explicitlypoints application itsnational scientificand medium/long-termtechnologicaldevelopment information isthefocusof program,”Chineseprocessingtechnology written automatic of segmentation high-techdevelopment.”Moreover Chineseisthe inChineseinformation acknowledgeddifficulty processing. thatinvolves orsemanticresearch as Anything syntax projects(such machine usethis translation,natural languageunderstanding,ete.)should as ofChinesecharactersisthe abasicunit.Theautomatic segmentation in mostfundamentalofallareasChineseinformation aspect processing; meanwhileitisthe。oottlenecks”inChineseinformation processing. to methodhas beenlimitedthe Existingsegmentation always and oftraditional the segmentationunderstanding text.However,as of inthe Chinesecharactershavethelimitations text;thisbrings linking totheautomatic ofChinesetext.Chinese difficulties segmentation great have anumberofautomatic scholarsdeveloped segmentationsystems sincethe1980s.Stillthereisnota smalldistancefrom practical automatic of applications.One Recessive a them.Itis vocabulary”isrelativelygoodsystemamong writteninassembler ithasthe ofsmall occupied language,andadvantages Ⅱ wellaslow on to space,fastrunningspeed,as dependencysystem.Wetry makea of basedonthis alsoneed series to improvements system.We further the of while the segmentation improveaccuracy maintaining ofits advantagessegmentationspeed. This isdividedintofive first istheliterature paper parts.Thepart introducesthe ofautomatic summarization,whichmainly importance in wriUen aimsattheresearchfrom Chinese the segmentation language.It 1980stillnow.ThesecondisadetailedintroductiontoLuo’SSO early part called‘‘listofRecessive Vocabulary’automaticsegmentationtechnology, andwealso its andweaknesses toother analyzestrengths comparing in softwarethesame third we a segmentation period.Thepart propose modelnamed”Recessive segmentation weselectaleain as an Thesaurusthe Thesaurus,”and Specialized specific demonstration.Thefourthisthe ofthis fifth summary is part paper.The thetableof Thesaurus. Specialized Keywords:automaticsegmentation;RecessiveVocabulary; SpecializedThesaurus;model Ⅲ 湖南师范大学学位论文原创性声明 本人郑重声明:我呈交的学位论文,是本人在导师的指导下, 独立进行研究_T-作取得的成果.除了正文中已经注明弓1)11的内 容以外,本论文不含有任何其他个人或集体已经发表或撰写 过的作品成果.对本文的研究做出重要贡献的个人和集体,都 已经在文章中用明确方式标明.本人完全意识到本声明的法 律结果由本人承拽 / 靴做作者群:驯∥砰厂月行 f I 湖南师范大学学位论文版权使用授权书 本学位论文作者完全了解学校有关保留.使用学位论文的规 定,同意学校保留并向国家有关部门或机构送交论文的复印件 和电子版,允许论文被查阅和借阅.本人授权湖南师范大学可以 将本学位论文的全部或部分内容编入有关数据库进行检索,可 以采用影印,缩印或扫描等复制手段保存和汇编本学位论文. 一年解密后适用本授权书. . /请在以上牟应/方框。!莹痢“~/”) 作者签名:軎1膨 日期刀∥禾多月,(日 导师签名:多疆国日期舯年/月/钿 。稳性小词表+专业小词库”的自动分词技术研究 1 引言 1.1汉语自动分词技术研究的意义 中文信息处理技术是我国重要的计算机应用技术。国务院制 定的国家中长期科技发展纲领中明确指出:“中文信息处理技 术是高新技术发展的重点匕我国信息产业发展的重点是中文 信息处理软件,中文信息处理的发展已经得到国家的重视。据统 计,在信息领域中80%以上的信息是以语言文字为载体的。这些 语言信息的自动输入和输出。文本的校勘和分类,信息的提取 和检索以及语言翻译等语言工程,都是国民经济和国防信息化 建设的重要基础。 中文信息处理涵盖了字、词、短语、句子、篇章等多层面的信 息加工处理任务。当前汉语信息处理的主战场已从“字处理”转 移到“词处理匕由于中文文本是按句连写,词间无间隙,因为中 文文本处理中,首先遇到的问题是词的切分问题。按句连写转 换为按词连写,词的正确切分是进行中文文本处理的必要条 件。 汉语的信息处理就是要用计算机对汉语的声音、意义以及 汉字形体进行处理。计算机的所有语言知识都来自机器词典(给 出词的各项信息)、句法规则(以词类的各种组合方式来描述词 的聚合嘲以及有关词和句子的语义、语境、语用知识库。 然而,汉语文本中词与词之间却没有明确的分隔标记,而 是连续的汉字串。切词体现了汉语与英语的显著的不同,英语 文本是小字符集上的词串,而汉语文本是大字符集上的连续 字串。 书面汉语自动分词是目前中文信息处理中公认的难题,因 硕士学位论文 为“在中文信息处理中,凡是涉及句法、语义等研究项目(如机 器翻译,自然语言理解等)都要以此为基本单位。”(冯志伟,1992) 汉语词自动切分是中文信息处理各个领域中最基本的一个 环节,也是中文信息自动处理的“瓶颈”。已有的语词切分方法一 直执著于对传统文本进行切分和理解,但是由于汉语文本本身 存在的局限性使得汉语文本自动切分和理解变得极为困难。 汉语自动分词过程的困难就如同把某个英语文本中的所有 空格符都去掉,然后让计算机自动恢复文本中原有的空格符,实 际上’这就是汉语词语的识别过程。 在20世纪80年代初期,自动分词技术研究就受到重视,陆续有 各种分词模型和软件提出,成绩是明显的。近年来,随着国民经 济信息化的不断发展以及因特网的普及应用,在中文信息处理 的广泛应用中,迫切要求实现汉语词典和语料库等中文资源的 分享和复用,对自动分词已经引起多方面的关注,成为中文信息 处理的—个前沿课题。正如陈力为院士所说:“汉语书面语的分 词技术已经悄悄的形成了-f-]新兴的富有挑战性的学问”(陈 力为,199s) 分词是汉语自然语言处理的第—步。目瓤汉语自然语言处理 的应用系统处理对象越来越多的是大规模语料,因此分词的 速度和分词算法的易实现性交得相当关键汉字的简体/繁体转 换、信息检索和信息摘录、搜索引擎、Web文本挖掘、文本分类、文 本校对等中文信息处理系统同样都首先需要分词作为最基本 的模块。 12汉语书面语自动分词系统研究现状 国内自80年代初就在中文信息处理领域提出了自动分词, 从而产生了一些实用型的分词系统。目前,主要的分词系统有以 下几种: 。隐性小词表+专业小词库。的自动分词技术研究 1.2.1几个早期的自动分词系统 CDwS分词系统是我国第—个实用的自动分词系统,由北京 航空航天大学计算机系于1983年设计实现,它采用的自动分词 方法为最大匹配法,辅助以词尾字构词纠错技术。它的分词速度 是5-10字秽,切分精度约为l_625。 ABWS是山西大学计算机系研制的自动分词系统,系统使用 ‘俩次扫描联想-回溯劣法,运用了较多的词法、句法等知识。其切 分正确率为98.似不包括非常用、未登录的专用名词,运行速度 为48词/分钟。 CASS是北京航空航天大学于1988年实现的分词系统。它使 用正向增字最大匹配,运用知识库来处理歧义字段。其机械分词 速度为200字渺以上,知识库分词速度150字砂(没有完全实现)。 书面汉语自动分词专家系统是由北京师范大学现代教育研 究所于1991前后研制实现的,它首次把专家系统方法完整地引 入到分词技术中。 1.2.2 SEG分词系统和SE(m蟾系统 清华大学先后研制开发了bEG分词系统和SI巯AG系统,前者提 供了带回溯的正向、反向、双向最大匹配法和全协—评价切分算 法,可由用户来选择合适的切分算法。系统首次提出了全切分 的概念,即找出输入字串的所有可能的字串,在从所有可能的 字串中选出最佳字串序列作为分词结果。实验表明,该系统的切 分精度基本上可达到99%。 SEGTAG系统着眼于把各种各类的信息进行综合,以便最大限 度地利用这些信息提高切分精度。系统使用有向图来集成各种 硕士学位论文 各样的信息。通过实验,该系统的切分精度基本上可达到99%2兰 右,能够处理未登录词比较密集的文本,切分速度约为30字/秒。 1.2.3复旦分词系统 复旦大学研制的复旦分词系统由四个模块构成:预处理模块 (利用隐性标记将文本分割成较短的汉字串); 歧义识别模块 (正向最小匹配和逆向最大匹配进行双向扫描);歧义字段处理 模块(利用构词规则和词频统计信息来消除歧义);未登录词识 别模块(解决未登录词造成的分词错误),该系统对中文姓氏的 自动辨别达到了70%。对中文文本中的地名和一些领域的专有 词汇也能进行—定识别。 1.2.4哈尔滨工业大学统计分词系统 这个系统能够利用上下文识别大部分生词,解决一部分切分 歧义。经过测试,这个系统的分词错误率为1.5%,速度为236字/秒。 1.2.5 Microsoft Research汉语句法分析器中的自动分词 Microsoft Research汉语句法分析器中的自动分词。微软研究 院在他们研制的一个通用型的多国语言处理平台NLPWin的语法 Parsing,使用了语法规则 分析部分使用的是一种双向的Chart 并以概率模型做导向,并且把语法和分析器独立开。该系统中 文分析是把词的切分同句法分析融合起来,是一种“切词—句 法分析一体化”的方法:在它切词匹配阶段保留所有可能的切 分结果(包括歧义切分),然后在句法分析阶段使用汉语的句法 规则判断切分的合理性,如果对句子的某种切分能够成功地建 。稳性小词表+专业小词库。的自动分词技术研究 立起完全的句法树,则表示该切分结果是正确的。对于有上下 文歧义和其它歧义的切分字段,系统将生成两棵以上的分析 树来分析。实验表明,该系统可以正确处理85%的歧义切分字段, 在Pentium200PC上的速度平均为600—900字/秒。 1.2.6北大计算语言所分词系统 该系统具有分词和词性标注的功能。由于把分词和词性标 注结合起来,系统可利用词类信息对分词决策提供帮助,并且在 标注过程中又反过来对分词结果进行检验。系统的处理包括自 动切分和初始词性标注、切分歧义字段识别、组词和标注预处理、 词性标记排歧、切分和词性标注后处理等过程。算法综合了多 种数据结构和搜索算法,实现了高速匹配和查找,同时采用了 当代计算语言学的统计方法,运用隐马尔可夫过程进行词类标注 和排歧。系统强调了通用性,把最稳定、最常用的4万6千余条现 代汉语基本词汇及其有关属性组织成为基本词典,可识别出大 词以上,在PentiumII/B4舾内存机器上速度可达到每秒5千词。 127罗海清的“生成性隐性小词表”汉语自动分词系统 吴蔚天、田鹤卿在《情报学报》1998,第七期发表了‘实现汉字 科技文献自动标引的字典法》,提出了算法简单、速度快、占用计 算机空间小的自动分词方法(吴蔚天、罗建彬1994)。罗海清也 早就发明了类似的技术,作为罗海清主持研究的计算语言学 专利成果中一项重要的技术发明,也是本文要重要研究的对 象,该分词方法我们在后面会作具体的介绍。 硕士学位论文 13主要的自动分词算法 现有的分词算法主要可分为三大类:基于字符串匹配的分 词方法、基于理解的分词方法和基于统计的分词方法。 1.3.1基于字符串匹配的分词方法 这种方法又叫做机械分词方法,它是按照一定的策略把待 分析的汉字串与—个“充分大的”机器词典中的词条进行匹 配,若在词典中找到某个字符串,则匹配成功(识别出—个词)。 按照扫描方向的不同,字符串匹配分词方法可以分为正向匹配 和逆向匹配:按照不同长度优先匹配的情况,可以分为最大(最 长)匹配和最小(最短)匹配:按照是否与词性标注过程相结合, 又可以分为单纯分词方法和分词与标注相结合的一体化方 法。常用的几种机械分词方法如下; 正向最大匹配 逆向最大匹配 最少切分(使每一句中切出的词数最小) 还可以把上述各种方法相互组合,例如,可以把正向最大匹 配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉 语单字成词的特点,正向最小匹配和逆向最小匹配—般很少 使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的 歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错 误率为1/169。单纯使用逆向最大匹配的错误率为1/245。但这种精 度还远远不能满足实际的需要。由于分词是—个智能决策过 程,机械分词方法无法解决分词阶段的两大基本问题:歧义切 分问题和未登录词识别问题。实际使用的分词系统,都是把机 械分词作为—种初分手段,还需通过利用各种其它的语言信息 来进—步提高切分的准确率。 。隐性小词表+专业小词库”的自动分词技术研究 一种方法是改进扫描方式,称为特征扫描或标志切分,优先 在待分析字符串中识别和切分出一些带有明显特征的词,以 这些词作为断点,可把原字符串分为较小的串再来进行机械 分词,从而减少匹配的错误率。 另—种方法是把分词和词类标注结合起来,利用丰富的词 类信息对分词决策提供帮助,并且在标注过程中又反过来对 分词结果进行检验、调整,从而极大地提高切分的准确率。 对于机械分词方法,可以建立—个—般的模型,形式地表示 为ASM(d,a,m),即Alff.r}li碰c蛳Modd。其中, d.匹配方向,+l表示正向,.1表示逆向; a:每次匹配失败后增加碱少字串长度(字符数),+l为增字, ·l为减字. m:最力最小匹配标志,+l为最大匹配,.1为最小匹配。 例如,A瓯虚(+,.’+)就是正向减字最大匹配法(即MM方法), 代汉语来说,只有I玎斗1是实用的方法。用这种模型可以对各种 方法的复杂度进行比较,假设在词典的匹配过程都使用顺序查 找和相同的记首字索引查找方法,则在不记首字索引查找次 下,对于典型的词频分布,减字匹配ASI呱d,-,m)的复杂度约为12..3 次.增字匹配As^墙(d,十脚的复杂度约为10.6。 1.3.2基于理解的分词方法 通常的分析系统,都力图在分词阶段消除所有歧义切分现 象。而有些系统则在后续过程中来处理歧义切分问题,其分词 过程只是整个语言理解过程的一小部分。其基本思想就是在 分词的同时进行句法、语义分析,利用句法信息和语义信息来处 理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、 硕士学位论文 总控部分。在总控部分的协调下,分词子系统可以获得有关词、 句子等的句法和语义信息来对分词歧义进行判断,即它模拟 了人对句子的理解过程。这种分词方法需要使用大量的语言 知识和信息。由于汉语语言知识的笼统、复杂性,难以把各种语 言信息组织成机器可以直接读取的形式,因此目前基于理解的 分词系统还处在试验阶段。 1.3.3基于统计的分词方法 从形式上看,词是稳定的字的组合,因此在上下文中,相 邻的字同时出现的次数越多,就越有可能构成—个词。因此字 与字相邻共现的频率或概率能够较好的反映成词的可信度。 可以对语料中相邻共现的各个字的组合的频度进行统计,计 算剖门的互现信息。定义两个字的互现信息,计算汉字X、Y的相 邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。 当紧密程度高于某—个阈值时,便可认为这个字组可能构成 了—个词。这种方法只需要对语料中的字组频度进行统计,不 需要切分词典,因而又叫做无词典分词法或统计取词方法。但这 种方法也有一定的局限性,会经常抽出—些共现频度高、但并 不是词的常用字组,例如“这一■“之一■“有的”、“我的■“许多的” 等,并且对常用词的识别精度差,时空开销大。实际应用的统计 分词系统都要使用一部基本的分词词典(常用词词典)进行串匹 配分词,同时使用统计方法识别一些新的词,就是把串频统计 和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特 点,又利用了无词典分词结合上下文识别生词、自动消除歧义的 优点。 到底哪种分词算法的准确度更高,目前并没有定论。对于任 何一个成熟的分词系统来说,不可能单独依靠某一种算法来 实现,都需要综合不同的算法。据我们了解,海量科技的分词算 。隐性小词表+专业小词库4的自动分词技术研究 法就采用“复方分词法”,所谓复方,相当于用中药中的复方概念, 即用不同的药材综合起来去医治疾病,同样,对于中文词的识 别,需要多种算法来处理不同的问题。 1.4研究方法和资料来源 本文主要依托罗海清“生成性隐性小词表”分词技术,对fiN方 法进行详细的介绍,纵向和横向的同国内的几种分词技术进 行比较,在实验比较的基础上提出—些改进的方法和建议,通 过建立专业小词库来提高分词的识别率和分词的正确率。 在小词库的建立方面,我们由于时间和精力的限制,不可 能在短时间内把这个小词库做得尽善尽美,所以只能在一定 的分类标准之下。选择一个相对比较小、好操作的领域入手,通 过向导师请教和商量,基本上确定了把语言学理论方面的著作 作为研究的对象,并建立了—个以专家的论著和用词为对象 的小词库样本。 2 “生成性隐性小词表分词系统 2.1 “生成性隐性小词表”概述 在罗海清主持研究的计算语言学专利成果中,有—个就是 “生成性隐性小词表汉语自动分词”技术成果。这项技术和吴蔚 天、田鹤卿(吴蔚天、田鹤卿,1998)在1998年提出的算法简单、 速度快、占用计算机空间小的自动分词方法有着非常类似的 地方,但是略早于二位专家。ig1成果虽然产生多年,却—直无 法与外界沟通。因为是使用机器汇编语言编写的程序,方法和 硕i学位论文 技术捆绑在—起,从专利技术保护的角度来说,不方便公开。 但是为了促进语言学和计算语言学的学者一起来思考和发 展,让这种简便又高效的自动分词技术应用到计算机网络中, 为了推动汉语信息处理和汉语书写改革,让汉语走向世界,罗 海清公开了他的这一技术,我f门才能得以深入研究他的这一 分词技术。 2.I.I “生成性隐性小词表”的基本原理 这个技术的基本原理是利用非汉字符号和汉字中的“词界 字”,这个界定有的专家认为应该定义为词界词,本文沿用“词界 字”的说法(彭泽润,2005)作为词的界限识别标准把大部分的 词分开来。这些文字符号具有词的边界性质。 非汉字符号包括:(1)标点符号:(2)阿拉伯数字;(3)外语字; (4)其它非汉字符号。 “词界字”包括:(1)汉字数字;(2)用来识别词的边界的其它 字。 关键是选择这些“非数目字”。他们必须要符合以下条件才能 高效率地解决问题:(1)使用频率高,无论单独还是合作记录一 个词;(2)这些字的数量控制在500个左右。 然后利用这500个“词界字”创建—个有生成机制的隐性词表: (1)建立—个l字记录的单音节词和由2字字组记录的双 音节词的词表。 (2)每个字构成的字组不超过30个,无论这个字在词或者 字组的前面还是后面。 (3)每个2字词只在—个“词界字”下面出现~次,不重复出 现,例如“报到”出现在“报”下面,在“到”下面就不出现了。 (4)有的字不做“词界字”,它构成的字组按照跟它搭配的 字归属。例如“安”不是“词界字”,“安排”出现在“排”下面,“保安” 。隐性小词表+专业小。词库’的自动分词技术研究 出现在“保”下面。 (5)以上是内部词库的构造方法。内部词库装载不了的频 率相对低的2字词就放到外部词库。外部词库频率和内部词库 的词可以根据频率调动位置。内部词库是杨D成员,是频率高 的词语。 (6)先用外部词库过滤有歧义的结构和一些频率相对低 的词,然后通过内部词库进行检验,例如“他的确去了北京”检 查“的”后面有“确0就把“的确”确认成为—个词的整体,不再 认为“的”是—个词。不再在“的”的后面留下词的边界。剩余的 部分自动分离。如果仍然不理想、处理不正确,就再进行人工处 理。 2.1.2分词程序 罗海清的生成性隐性小词表分词软件的具体分词程序是: (1)先通过非汉字符号分离它前后的部分。 (2)然后通过数目汉字分离它前后的部分。 (3)然后通过由4字字组、3字字组和2字字组纪录的外部 词语库预先筛选。外部词语库是预先设定的词的分离格式,可 以通过它分离内部的词和外部的前后部分,例如“总而言之■ “体制改革气“”、“曹操■也包括有表层歧义的结构,例 如“从马上(不是从马上)■ (4)然后用用词界字纪录的l字词分离它前后的部分。 (5)再利用2字词内部词库,先用500个词界字检验它往左 边搭配的可能。如果能够搭配成记录—个词的字组,就确认。 。 (6)否则。就往右边检验。 (7)否则。就自然孤立。 (8)孤立的可能是—个词,例如“庆祝葡萄丰收”中的“葡 萄”被“庆祝”和“丰收”孤立下来。 硕士学位论文一 (9)也可能不是—个词,例如“欢迎彭山江回来”中的“彭山 江”。 (10)也可能是—个歧义字组造成不正确分离,例如“我从小 学语文教材”中的“从小学”应该是“从小学匕 (11)剩余的问题只好人工处理。 用这样数量相对少的500个词界字通过单独或者合作记录 词的可能,可以在工作中自动生成大约15000个词,形成内部核 心隐性词库。在内部词库计算机只需要储存词界字和搭配规则 等基本信息,不需要对它构成的所有词的信息进行整体记录。 在这个词库不够的情况下,再增加外部显性词库。外部词库理 论上可以无限扩展,词的信息是整体记录。但是由于不是高频 率的词,外部词库的实际数量和作用小。内部隐性词库能够分 离出大部分的词。这样可以大大减少词表的总数量,可以大大提 高分词的速度和效率,因为—般的自动分词软件只有我们这种 外部显性词库,没有我们的隐性词库。因此,生成性隐性词库是我 们的自动分词系统的关键技术。 2.1.3基本算法 2.1.3.1PPA语言 罗海清的生成性隐性小词表分词技术的内核程序使用的 是汇编语言,但是在语言的表达方面,用的是PPA语首。PPA以《汉 语拼音方案》为基础,把汉语普通话的+声韵调信息结合起来, 设计成二十四音图;二十四音图把拉丁字母表中除了Y和Z之外的 二十四个字母排列成a段,e段,i段,0段,U段和m段,把声调融 入到韵母之中,有效的缩短了汉语拼音的音节符号长度。 ‘PPA系罗海清的国家级发明专利,名称:电子计算机汉语,专乖j号:ZL90105411.9 专利权授予时问:1993.4.2. 。硷性小词表+专业‘小词摩“的自动分词技术研究 PPA还引进了字型特征信息,设计了21种“类部首码”和“字型 结构码”,有效的分化了多音字和同音字,做到了7600个通用汉字 个,PPA超出的部分分别表示其中的多音字),便于把汉字准确地 转换成PPA拼式;又可反过来把PPA拼式转换为汉字。 PPA是汉字和拉丁字母之间——对应的中介物,可由它支撑 汉字信息逾越信息传输与语词处理的两大障碍。 表2--1PP^声母与汉语拼音声母对应表 PP^声母 b p m f d t n l 汉语拼音声母 b p m f d t n l 吼声母 g k h V W X 汉语拼音声母 J q X zh ch 曲 嗍声母 r Z C S 汉语拼音声母 r Z C S 表2--2PP^韵母表 a(aO 砚(an亩 ai(ai) ao(ao) an(an) e(e) ei(ei) ee(ong) er(er) an(on) i(i) ia(ia) ie(ie)ii(ing) iu(11) in(in) ja(ian) jo(iao) jn(Jan) 0(o) on(uan)oe(ue) oo(ong)on(on)on(on) qo(ioo-iong)qu(ion) U(u) ua(uan) ui(ui) uo(uo) 哪(LⅡ1) UU(ueng) ya(ma-uang) yi(uai) yn(uan) 表中()内的是与PPA韵母相对应的《汉语拼音方案》中的韵 硕士学位论文 表2--3PPA声调表 单韵/复韵尾 阴平 阳平 上声 去声 a a b C d f h e e g ● ● 1 1 J k 1 0∽ 0 r p q U U V ■ X n m n S t 我们以“中华人民共和国”七个字为范例,表示如下: 汉字 Pf)A 声母 韵母段 二十四音图 声调(位) 由 v00 V 00 矿’叩 o(1) 堡 hub h ub 8_{,_州 b(2) ● 觚 m11—n 人 ren r n(2) ● ● 民 mln m ln mlr竹 n(2) 共 got g 0r 矿巾弋rr r(4) 和 hf h f e_f刊l f(2) 国 gup g up 口巾_1rr p(2) 声调(位)中的数字,分别对应的是《汉语拼音方案》声调表 中的阴平、阳平、上声、去声。 2.1.3.2自动分词程序流程 隐性小词表分词技术的内核程序用汇编语言写成,程序代 码共计1112余行,因为篇幅和技术保护等原因,这里不方便一 赘述这些算法程序,只能把程序在处理分词任务时的流程介绍 如下: (1)初始化 。隐性小词表+专业小词库?的自动分词技术研究 把它关闭 (3)打开源文件(zlun)(即需要分词的文件),如果打开文件出 crle) 错则报错(jc (4)测试源文件的大小 (5)给指针定初始位置,从头开始读文件 (6)读入一个有效段,有效段是指:a.段的大小不大于 8192个字节;b.以英文句点或中文句号结束 (7)开辟两个存储空间,其中a.段缓用来存储读入的文 本数据;b.中缓用来存储分词后的文本数据 (8)存入10t(个空格到缓冲中 (9)进行是否继续进行分词分析的判断,这个判断由计数 (glxx)来决定 (10)进入分词分析的循环 (11)进行完一段源文分词分析后把结果存入转文(vysun) 中 (12)判断源文是否全部被分析完毕,如果没有全部分析完 则接着往下分析,如果已分析完毕则关闭文件并退出 自动分词程序的流程图如下: 硕士学位论文 图2.1基于词界字自动分词程序流程图 16 。隐性小词表+专业小词库-.韵自动分词技术研究 2.2 “生成性隐性小词表”的优势和局限 2.2.1 “生成性隐性小词表”分词系统的优势 (1)占用空间小,设备要求不高 隐性小词表分词软件用汇编语言写成,所占空间很小,包 作.系统下面,这仅仅是—个普通的WORD文档的大小。相比较国 内的其它_些分词系统,虽然我们没有找到具体的相关资料信 息,但是从算法和运算的速率方面判断。几乎都不是这个级别 的。如此小的空间占有,使它的进—步发展和市场的拓展具有 了天然的优势.可以随意地拷贝到任何的文件目录或者文件夹, 也可以使用生活中很普通的存储工具进行存储,传播(目前市 面上的喇存储工具的容量都是M级别的,甚至更加大);该 软件在486的机器上面就可以达到l万韵秒的速度,对处理器的 要求也不大。传统的分词技术,使得便携式分词工具的研究一 直受到处理器设备和储存空间的大小的瓶颈制约,隐性小词表 分词技术有望打破这个瓶颈,为便携式分词工具的研发开辟一 片新的天地。 (2)隐l生小词表 国内很多的分词软件都是基于词典语料库的分词方法,包括 北京大学语言研究所的分词系统也是主要采用建立一个最稳 定、最常用的4万6千余条现代汉语基本词汇及其有关属性组 成的基本词典的方法;而隐性小词表分词技术用数量相对少 的500个词界字通过单独或者合作记录词的可能,在工作中可 以,自动生成大约15000个词,形成内部杨心隐性词库.在内部词库 计算机只需要储存词界字和搭配规则等基本信息,不需要对它 构成的所有词的信息进行整体记录。虽然在这个词库不够的 字节的英文是BYTE,缩写为B,1E=1024B,1M1024[,1G=1024M. 17 硕士学位论文 情况下,可以增加外部显性词库,整体记录词的信息。但是由于 不是高频率的词,外部词库的实际数量和作用小。内部隐性词 库能够分离出大部分的词。这样可以大大减少词表的总数量, 可以大大提高分词的速度和效率。一般其它的自动分词软件只 有这种外部显性词库,而没有隐性词库。 我们在下面给出一个构词表(隐性词库)的部份内容,简单介 绍—下词表的构成。 构词表(60X00)(部分) 啊02呀哟 挨09打边次个户家肩近门 爱DH博宠慈恩割敬酷恋溺亲热心友巢称戴抚国好河护情怜恋慕人惜小心重 按0F动键扣理例脉摩捺钮期时说压语照 吧33咔喀酒嗒唧女 八3B腊丘王成方哥股卦角节路旗仙字 把8K靠门车火拖刀枪刹柄场持舵风关家角酒揽牢脉门势手守玩稳握戏 罢0I笔工官教考课了论免赛市手讼诉休演战职 半2P夜折百璧边大岛道点疯价截径空拉路票晌生世死天途休夜音圆 办G9备采查惩筹创督仿缓买民试襄严置主案差法稿公理事学置 帮5M菜船匪客鞋办补村厨凑冬工会教口忙派腔手套贴同用凶佣主助 包AK背承挎面皮钱书糖提腰办庇藏场袱于裹含涵括揽罗皮票容头围厢扎装 保3R担劳准安镖藏持存单管护价健举留密命姆全守送卫温险修养育障证重 抱6E拱怀环搂偎拥病负憾恨愧慊屈拳厦团窝养冤怨 报60登画汇警情预案偿呈表仇酬答单导到道德恩复告刊考名批社时喜销纸 倍16百道加率式数增 被3F花棉植袋单动服覆告里面难褥套头窝卧罩 奔3N飞私投波驰窜放赴劳流忙命跑丧驶逝述腾突袭泻涌逐走命头 本AK版抄读范稿工基剧蓝治地分行科来领名末能钱人色身事位文性意职质 甭∞ 比3N类伦捧方分画较价较例邻率美拟年配热如赛试武翼喻照值重 笔CR粉代附钢毛墨铅亲润执主答法锋耕画会迹记名墨试顺算谈挺误译者直 彼02岸此 必17势得定然修须需要 18 。隐性小词表+专业小词库”的自动分词技术研究 编9L长改汇扩收缩整摘主导订号辑校结码目捧审外写选译造者织制著组篡 便3R粪省稳步餐当道饭服函笺览利了帽门秘溺盆桥士条鞋血宴衣宜于中装 变8M改急巨剧叛演质转调动革更化幻价脸卖色声态味相心形型形样异质种 遍34传普周布地及野 标a风浮航锦目商头袖音指治坐榜本尺的点定号记价明牌签题语志识致准 表9L姑华解课水填仪姨钟白册达格功决露面明皮情示述率态现象演扬语彰 别M4辨差辞级鉴类判区识职称处管号家离论名人是墅提针致字史传 并3H火兼吞存发肩进举力立联列拢茂捧且吞行用重 不2S毫岂必但断妨够顾管过仅久堪可利良料论满免然如少是行幸要用止足 部GD北东队腹干南声师所团臀细胸腰阴营队分件类落门酋属署头委位下 裁4I独剪制仲兵并撒处答定断夺度缝减剪决军判汰员酌 才CE辩干捷屈天歪雄异英庸奴秀分干刚华力略能气情识思学艺智 参7N单党海苦人沙玄拜半订观合加见校军看考量谋赛验议与阅赞展战照政 层FSI村断盖基夹阶矿煤皮涂土岩盐油云次叠临峦面 差8B落逆容色视岁温象别错额价距可失误异劲生 产GE财房丰海减矿临六盛水田头土脱遗祖地儿房妇科量品权生物销业院值 场06登靶菜操茶车赌工广剧考冷林牧农捧捧球市收舞现战渔次地合景面所 常4Q纲惯寻异备常规轨衡会客理例量年情人任设识事数态套委温务性言住 朝2F皇王拜代服纲贡见山圣廷鲜向阳野政珠 趁07便机钱墒势手早 称9L泛诡美声统宣职著尊霸便病臣大道号贺呼快奇赏述说颂叹谓谢扬誉赞 成BJ促构速酿提现形赞造责组倍本才分功果绩见交就立品全熟效语员长为 乘IH搭便除法方机积警客凉时势务隙兴虚员坐 承3L师仰轴办包担当继建接揽蒙诺情认受袭想印运载重租做 吃IN口饭喝货紧劲惊苦亏力粮青请食水素透香相斋重准嘴罪 充5K扑混扩冒填畅斥磁当电分公饥军满沛任塞实数血溢盈裕足 愁6B衰悲犯穷乡忧肠城楚怀苦眉闷容思绪云 初叮版步创春等冬犯稿会婚级交恋期秋赛审试探夏小学旬夜愿月战诊中 出町辈超付杰输提退脱戏演展版差产动发口来路卖品去入色身生售席现租 除IC拔拆铲废刹革剪解扣捧切清驱扫删消摘整弊尘法非根开了名却外夕夜 穿6D拆戳贯击揭耐插刺戴孔廊梭堂线孝行越凿着 此Ol岸地后间刻前生外 次m班敝车迭航架景旅屡伦目途席印造主座等第货贫品日生数序要韵 从CF服盲仆屈侍顺随胁信依自遵此犯简军来前容事属优征政众而小 19 硕士学位论文 催0E办逼产促肥化眠命奶迫情生收讨 撮04合箕弄要 错30改攻盘爱案车处待讹愕怪过会金觉开漏乱落谬时位误银杂字综 达B8畅传抵洞哈豁雷练腾贤转标成旦到观官意因 答4H滴酬解赠理碴腔言应案拜辩词对复线N鞭捶攻拷殴武责败扮成出倒动断击架开骂破扫算听通下印仗针着字烊 大7M广巨夸扩庞盛伟都胆方概会家局量脑批赛肆体小写型学意于约致众 代9L传古近绝末亲取世现办笔表步称词电沟号价金课劳理码数替为谢序用 担18负保待当负架名心忧 单9L菜传床存订孤凭清帐薄产车纯词单调独方个价间据列身数位项一元字 但13岂凡是书 当3R叮典勾班差场初代道地归即家街今局空口面年前权然日时心选政中众 倒CI倾拜驳颠昏拉潦倾推卧压栽把班扳闭毙车戈换卖霉爷手塌台腾替头运 到7E迟独精签收遇周案场处达底点顶家来了手头位职 道Ic霰岔车赤改轨航河黑街近坑跑频绕柔铁远别德地家教具理路破喜谢义 得60博获乐取心赢便病逞宠当到法分劲救空了力胜失势手数体闲宜以志罪 的33似鹄日线G超恒均劣优坐差次待到第份号候级价式同外闲于等 底EG班彻兜功海揭井亮露谜摸铺天心版本册层稿价牌盘片气数土细下线座 每个词条第一个字表示—个成词语素;中间的数字/字母符号 表示的是数量,是一种类似于十六进制的计数方式:1,2,3,4, R等等,表示构词排列的顺序和数量,前面的表示逆构词数量, 后面的表示顺构词数量。后面的表示与成词语素共同构成词的 语素。比如:“穿6D拆戳贯击揭耐插刺戴孔廊梭堂线孝行越凿着”表示的 就是“拆穿、戳穿、贯穿、击穿、揭穿、耐穿、穿插、穿刺、穿戴、穿孔、 穿廊、穿梭、穿堂、穿线、穿孝、穿行、穿越、穿凿、穿着匕 下面我们提供—个构词语素的总表,共521个: 啊陀 把掰( 保3R 太AK 编9L 别M4 参7N 朝2F 挨09 罢m 抱砸 甭∞ 便3R 并3H 层B 趁07 爱DH 半2P 报60 比3N 变8M 不2s 差蛆 称9L 按孵 办(39 倍16 笔僳 遍34 部∞ 产伍 成町 吧33 帮5M 被3F 彼02 标a 裁舡 场∞ 乘lH 八3B 包AK 奔3N 必17 表9L 才伍 常4Q 承3L 。隐性小词表+专业小词库”的自动分词技术研究 吃lN 躲26 惯2E 交AK 力L9 跑5K 少丑 特3R 充5K 而07 光AJ 教a 联9L 赔2A 社2A 体AK 愁6B 儿Al 规8C 较叮 连60 配7N 设AC 替46 初叮 二师 归IT 叫3P 两2J 批4G 审5I( 条lc 出脚 发征 国a 节EG 了2c 偏1T 甚13 听7N 除lc 法9L 果阴 界AB 临8M 片.IB 生” 停2S 穿∞ 番叮 过蝴 借3R 零5L 品FF 省3A 挺19 此憾 翻4Q 好5P 紧3c 另供 平DH 剩12 通DH 次m 反7N 号踞 进FF 留9L 凭0E 失Ⅳ 同9L 从a 方AK 和饵 尽5A 六咂 评4Q 十仿 头Bn 催砸 仿瓮 何丑 经a 路5P 破60 时5P 透H 撮甜 放^K 合伍 竟14 录璎 ’期D9 什∞ 突5c 错30 非诬 很00 净3B 轮征 七17 实a 图a 达Bs 费踞 恨位 究科 论a 其17 使阳 托FF 答4H 分卯 后FF 九惦 马∞ 奇刀 始14 外9L 打7N 份ll 忽强 救DG 嘛IO 起蹦 示c8 玩5D 大7M 丰0L 互0A 就50 吗lI 企lS 事fF 完0L 代9L 封7N 化伍 居∞ 满剑 气KA 是36 万lT 担13 否0I 线F 往lB 单兑 副咂 坏19 举DG 么∞ 前7N 手9L 忘移 但13 该仿 欢U 据野 没9L 强5P 首9L 危5D 当弧 赶lG 还班 具N7 每∞ 轻lT 受60 唯Ol 伪Q 感阡 慌35 觉F. 们柏 请脚 书60 为0c 到7E 敢∞ 回DH 决AG 免锕 求N 术B 未oG 道lc 刚lG 会既 开7N 面4Q 去lE 敷” 位巧 得60 高5P 活7N 看60 明9L 权FF 双0K 文Al( 的剪 搞n 或3I 科AE 名a 全卯 谁oI 问DH 等6G 告Ⅳ 机4Q 可lT 莫嘶 却铂 顺60 我Ol 底阱 格79 极FF 肯OI 某Ol 群5D 说DH 无lT 地脚 个3A 集m 口踟 拿3A 然Ⅸ 死7N 五0s 第2l 各∞ 及% 哭37 哪循 让% 四叮 物脚l 点a 给巧 即lF 块a 那墙 人FF 送AC 务L9 电9L 根阴 几LA 快4P 难^K 任师 诉77 误AD 掉鲳 跟瓮 计8A 宽lT 呢12 认5Il 算Ⅷ 喜7J 顶7N 更Ⅱ 既13 况Bl 内3R 仍12 虽佗 系R 定咐 供6G 继19 亏3F 能∞ 日删 随卵 下AK 丢∞ 公0lJ 家4Q 来卯 你01 容EG 损% 先7M 动}D 够16 加5P 懒” 年Ⅸ 如7M 所铂 嫌56 都73 故踟 假AK 老5P 您∞ 入EG 他衢 显lO 度J5 顾砸 架巧 乐DA 宁铝 三2E 它OI 相4Q 端矾 固5A 坚lH 离B, 弄Ⅸ 杀^c 挖m 想L9 段砬 怪^B 简lT 理脚 努位 伤岫 台眦 项34 堆57 关卵 见伍 里Bc 偶缱 上9L 太lH 向AD 对9L 官9L 渐∞ 历既 怕3I 尚43 倘弭 象06 顿酯 管阡 将7H 例队 派钉 稍04 趟Ol 小町 多4M 馆8l 讲3Q 立蹦 旁3c 烧8A 套a 效BG 2l 硕士学位论文 些15 压5P 影Ic 愿D3 增烈 支5P 著86 走3R 写09 呀20 永lA 约EG 曾0B 知60 住2F 最05 新9L 沿4C 用EG 越BD 占9B 之18 注a 左0C 信9L 眼9L 尤24 月9K 张DE 直9L 抓lC 做n, 兴9I( 样EA 由46 阅96 照4Q 值A9 专叫 作7N 行EG 要9L 有AK 云a 者70 指60 装9L 後FF 醒85 也02 又Ol 杂8M 这07 止∞ 准7I 於~B 幸9C 业N7 于L3 再0H 线 依2M 与34 咱0l 争” 中5P 子艰 许67 己∞ 语8M 遭18 正DH 终lM 自5P 续66 以2H 愈∞ 旦4Q 政AK 种Ic 字8M 选5P 因5B 原4Q 则5I 证田 重a 总3R 学5P 应5P 员q 怎∞ 技B7 逐47 纵3H (3)分词速度快 隐性小词表占的空间小,处理的速度却是相当的快,对20万字 的一本小说进行分词处理,在486机上,也只需要10秒钟。相比较国 内同时期的其它分词软件,在相同的条件下,CASS知识库分词速度是 150字/秒,哈工大统计分词系统利用上下文识别的分词速度为236与掣 秒,MicrosoR 仅运行了2秒钟,它的高速度可嗍。 (4)汇编语言的编写 汇编语言是计算机的底层语言,相对于现在的一些高级语言,更 加接近机器指令,因而运行速度非常快;另外,因为是底层语言,所以 操作系统上运行。 。隐性小词表+专业小词库。的自动分词技术研究 2.2.2 “生成-陛隐性小词表”分词系统需要完善的问题 虽然隐性小词表分词技术拥有体积小,处理速度快的优势,但是, 很明显,即使这样,它跟其它任何现存的自动分词技术一样,由于旧 的汉语书写习惯造成的先天不可避免的原因和自身的缺陷(比如歧 义的处理),所以无法区分_些词的界限。 另外,目前学术界关于“词”的界定还是有争议,特别是人用的词 和机器处理使用的词分词标准之间的分歧,直接体现在国家标准《汉 语拼音正词法基本规则》1和《信息处理用现代汉语分词规范》2之间的 冲突(彭泽润、林思佳,2006),这样,专家们在设计分词软件的时候, 往往依托的是《信息处理用现代汉语分词规范》,处理过后,在人工判 定分词正误和人工修改的时候,又受到《汉语拼音正词法基本规则》 的干预和影响,因此,分词软件分词分出来的词跟《汉语拼音正词法 基本规则》中的词会产生一定的距离,精确度—直都停留在8∞猫-右, 远没有达到实际应用的程度。 2.3改进的方面和潜力 根据前人的研究成果比较,我们觉得“生成性隐性小词表”分词技 术是比较先进的自动分词软件,可以广泛地得到应用,但是也还存 在很多的问题,比如歧义的区分,人名的识别,未登陆词的识别等等。 彭泽润曾经以周纯梅的论文(20世纪90年代以来的现代汉语量词研 究综述》(周纯梅,2003)为例子进行过具体的分析比较研究,得出了 —些有意义的结论,提出了—些改进的想法。 隐性小词表分词技术的分词正确率不是很高,基本上略高于85%, 而在信息处理界一般的认为都是,分词的过程中如果出现1%的错误 率,那么在应用的过程中会产生20%的错误,甚至更加高。这也就是为 1 l汉语拼音正词法基本规则》。中华人民共和国国家标准(GB/T16159—1996) 1 l信患处理用现代汉语分词规范》.中华人民共和国国家标准‘6813715) 23 硕士学位论支 什么分词软件在目前的发展状态还基本上没有太大的实际应用 价值。我们在改进该分词程序的时候,因为程序本身,不管是汇编语 言的选择还是程序流程设置,都是比较完善的’所以我们攻关的主要 方向是如何通过词库的建设来提高分词成功率和正确率。 3 文本的预处理和专业小词库 3.1预处理的原理及其模式 3.1.1预处理的原理 分词是自然语言处理的第一步,而分词词典则是实现准确分词 的基础(刘颖,2002)。对于特定的自然语言处理技术的应用系统如信 息检索、网络答疑等等,为了实现准确分词,往往需要构建两个词典, —个是通用词典,另一个是领域词典。通用词典因其基础性和通用性, 已经得到建立并在实际中得到广泛应用。目前较为常用的通用词典 有:由人民日报》标注语料库统计得到的带词频信息的词典和《现代 汉语语法信息词典》等(傅兴岭,1987)。而领域词典则是根据应用系 统所处理的领域不同,由人工建立。 隐性小词表分词技术里面的构词表,可以看作是一种通用词典 (但是不同于其它分词软件中的通用词库,因为它不是一个固定的 词库,而是—个带有生成性的词库,在空间上和反应速度匕都要优于 其它的软件),根据的是《倒序现代汉语词典》1内的词条来构建的。 在作为内部隐性词表的构词表之外,还存有_I竖外词表,f电f门包括二 字词表,三字词表和四字词表等。分别存有2607个二字词,827个三字词, 338个四字词。外部词库作为—个活动的词库部分,记录的是一些在使 用频率上低于内部构词表的词,按照字数的差别分别放在不同的词 库中,方便分词过程中调用,并且可以根据需要增加或者减少词的构 成量。 ‘《倒序现代汉语词典》【M】.北京:商务印书馆,1957. 24 。隐性小词表+专业个词摩。的‘自动分词技术研究 3.1,2 “预虫嘴业小词库”的分词模式 我们尝试通过构建一种蔓Ji-I预处理和建立专业小词库的分词模 式来提高隐性小词表分词软件的分词精确度。 首先,我们要提到预处理和专业小词库之间的关系。从时间上来 看,预处理在先,专业小词表的调用在后,有先后关系;但是,它们之 间又是—种相辅相成的关系。我们进行预处理的时候,目的是把要处 理的文本进行—个j-j,-类,然后在分词的时候,计算机自动调用出相应 的专业小词库。这个预处理的分类标准和专业小词库的建立的标准 是一致的,可以说预处理是为了调用相应的专业小词库,而专业小词 表的构建又是按照预处理的分类标准来建立。 其次,我们要解释—下我们所谓的专业小词库,主要是分析一下 专业

  ·18-23个月儿童普通话的语音发展(上海地区)-文学专业毕业论文.pdf

  ·《EquilibriumStatisticalPhysics》教材评介4.doc

  ·《上海博物馆藏战国楚竹书(四)》研究概况与文字整理-文学专业毕业论文.pdf

  ·《世说新语》叙事特点研究——以与刘《注》比较为视角-文学专业毕业论文.pdf

  “原创力文档”前称为“文档投稿赚钱网”,本网站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有【成交的100%(原创)】

http://femi-speaks.com/zhuanyeciku/137.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有