
2020-05-12
197
上传者:管理员
摘要:针对信息领域的术语识别平台的设计和开发是对该领域术语资源进行更有效利用的重要手段之一。文章阐述了信息领域的哈萨克语术语识别平台的设计,该平台采用条件随机场和人工修改的方法,基于信息领域术语本身的特点分析了该领域术语的构成规则及相关术语识别方法。
一、前言
随着中文各语言信息处理应用领域的不断扩展,对于不同语言不同领域术语的检索需求也越显迫切。其中以计算机作为工具的哈萨克语信息技术领域术语识别平台的构建对哈萨克语自然语言信息处理、哈萨克语语言学研究、信息安全检索、机器翻译、语料库建设、IT领域术语库等民族语言信息化建设的作用日显重要[1]。术语是代表特定学科领域基本概念的语言单元,是该领域核心知识的体现,方便人们快速获取专业知识,如何自动获取术语自然也成为相关专业人员的研究热点。术语自动抽取是信息处理领域中一项重要的研究任务,在词典编纂、本体构建、机器翻译等领域都有重要应用。术语抽取技术是大规模本体工程自动或半自动构建、扩充的关键技术之一。近年来,人们已经认识到了术语抽取方法的重要性并进行了大量研究,而目前广泛采用的术语提取思想主要分为基于统计学、基于机器学习、基于语言学和多种思想结合的混合方法。本文阐述的系统设计为结合语言学规则,并采用条件随机场和人工修改的方法。望通过信息领域哈萨克语术语识别系统的设计实现,对民族文化的挖掘、传承、创新及民族科技教育工作和社会安全、稳定与繁荣发展尽一份力。
本系统是基于各类哈萨克文网站及中小学信息技术教材中获取的各种文本的电子版语料,通过目前多语种信息技术实验室使用的各种语言语料工具进行原始语料的词法分析后获得的已经完成单词提取、词缀提取和词性标注的熟语料。在输入基于规则的哈萨克语信息技术领域术语抽取系统中的熟语料后,通过领域术语词典和术语聚类规则库进一步过滤得到最终的术语生成候选术语和候选术语标注语料[2,3,4]。再通过修改将候选术语标注语料生成为训练语料。系统具体流程如图1所示。
图1工作流程
二、系统功能模块
从系统功能角度出发,以随机场的方法为处理哈萨克信息技术术语抽取问题的提取条件,将哈萨克语信息技术领域术语识别看作一个序列词性标注问题,将哈萨克语信息技术领域术语分布的特征量化作为系统的训练的特征,利用条件随机场(CRF)的工具包训练出哈萨克语信息技术领域术语特征模板。整个系统可分为术语标注语料库和CRF模式识别两个子系统,术语标注语料库子系统还包括预处理部分、生成训练语料部分、术语识别部分、术语抽取部分、定界规则部分等,另一个CRF模式子系统还包括模型参数部分、特征选择部分、特征模板选取部分等。系统功能模块如图2所示。
图2系统功能模块
三、系统主界面
整个系统由术语抽取、生成训练语料、术语识别、退出系统等四个部分组成。术语抽取部分可以进行术语的打开、抽取、保存、退出等操作步骤,生成训练语料、术语识别部分进入后也有各自不同的操作界面。系统主界面如图3所示。
图3主界面
1.术语抽取
因存在单词术语、多词术语等区别,不同的语言中术语组成形式也不同,例如名词+名词、形容词+名词、名词+动词等,故术语抽取将根据语言特点及术语的组成结构来界定抽取规则。该模块主要为相关的资料中的术语抽取,进入页面后分左右两个界面,左侧可以进行文件打开、抽取、保存、退出、术语统计等操作,右侧显示已抽取的术语及抽取个数等信息。系统的术语抽取架构图详细操作界面如图4所示。
图4术语自动抽取架构
2.生成训练语料
IT术语语料库中存放的语言材料均在语言的实际使用中真实出现过,是以电子计算机为载体承载语言知识的基础资源,真实语料需经过加工才能成为有用资源。以系统中的熟语料作为输入,依语言学规则自给定文档中抽取术语,再经过进一步修改过程后生成训练语料。术语本身可以是词也可以是词组,哈萨克语IT领域术语结构多种多样,有些术语由一个词或两个词连接组成,也有些术语由不同的附加成分或者嵌套组成,构成形式有名词+名词、形容词+名词、名词+动词等。生成训练语料部分包括打开XML文件、打开术语文件、XML文件中标注术语、保存标注文件等模块,可根据需要进一步进行相关操作,如打开术语库文件进行XML标注等[5,6,7,8]。界面上也包括上一个、下一个或者上一段、下一段等选项,每个选项都有不同的阶段性的操作步骤,生成训练语料模块详细操作界面如图5所示。
3.术语识别
该模块包括训练、测试、分析三个部分,不同的操作界面自不同部分进入。进入训练语料部分后,可见添加语料、特征抽取、模型训练等选项,每个选项中可继续进行相应操作。测试模块包括测试语料、术语识别、保存结果及快速测试等部分,分析模块中可显示正确识别的术语个数、错误识别的术语个数、系统标注为术语的个数、未判断的术语个数、准确率、召回率、F值等内容。术语识别方法都已先预选,即首先候选出候选术语,哈萨克语虽属于黏着语,但IT术语的词性具有一定的规律性,通过分析、观察,写出IT术语的词性规则表,再利用规则和已标注好词性的文本进行匹配,抽取相应的词或者词组作为候选术语。系统的术语识别训练语料操作界面如图6所示。
图5生成训练语料界面
图6术语识别训练界面
四、结语
术语识别平台的建设是一个周期长、数据需求量大的大型工程。而针对信息领域的术语仅完成了原始数据的收集工作与基本信息的整理工作,术语识别系统的构建还处于初始阶段,任重而道远。相关专业人员还需不懈努力,提升加工处理和分析语料工具的技术方法,不断完善该系统的建设,才能进一步满足哈萨克语语言学信息研究的多种需要。
参考文献:
[1]戴庆厦,赵小兵.中国少数民族语言文字信息处理研究与发展[M].北京:民族出版社,2010.
[2]木合亚提·尼亚孜别克,古力沙吾利·塔里甫,达吾勒·阿布都哈依尔.采用CRF模型的哈萨克语信息技术术语自动抽取技术研究[J].西北师范大学学报:自然科学版,2016,52(1):53-56.
[3]郑家恒,张虎,谭红叶,等.智能信息处理:汉语语料库加工技术及应用[M].北京:科学出版社,2010.
[4]木合亚提·尼亚孜别克,古力沙吾利·塔里甫.哈萨克语IT领域术语识别研究与实现[J].中文信息学报,2016,30(3):68-73.
[5]哈斯.蒙古语语料库语言资源管理平台的设计与实现[J].内蒙古师范大学学报:自然科学汉文版,2008,37(6):743-745.
[6]木合亚提·尼亚孜别克,古力沙吾利·塔里甫.哈萨克文信息处理现状中的若干问题探讨[J].智能计算机与应用,2011,1(4):45-46.
[7]刘剑,唐慧丰,刘伍颖.一种基于统计技术的中文术语抽取方法[J].中国科技术语,2014,16(5):10-14.
[8]张榕.面向术语识别的术语界定研究[J].中国科技术语,2014,16(4):5-8.
木合亚提·尼亚孜别克,古力沙吾利·塔里甫.一种IT领域术语识别系统的设计与实现[J].中国科技术语,2020,22(02):29-32.
分享:
降低建筑能耗对于减少温室气体排放和节约成本有着非常重要的现实意义。其中一些较为关键技术是对不稳定的未来建筑能耗进行预测,并选择理想的活动安排等,从而达到降低能耗的目标。能耗预测的研究已经有了许多成熟的方法,这些方法可以大致分为基于传统数学统计的方法和人工智能的方法。
2024-10-10FCU(Fan Coil Unit)系统因为其灵活的布置方式、调节方便以及成本较低,被广泛应用于商场或建筑的空气调节系统中。然而,随着人们对建筑环境的舒适体验度逐步增高,以及FCU市场竞争环境日趋激烈,对现有的FCU性能和成本有了更高的要求。FCU系统常通过调节风量、水量以及旁通风门等3种方法以满足建筑房间的负荷需求。
2024-08-26时滞系统广泛存在于工业领域和化学实践中,如化工精馏、生物发酵、炉温控制系统、轧机速度控制系统、中央空调控制系统等方面[1]。为解决双容时滞系统带来的问题,科研人员做了大量研究。1992年项国波等提出了对稳定时滞系统的二次优化控制,同时开发了三套“大时滞串级系统多重优化控制”应用软件,并将其应用于空调、皮带秤和稠油热采锅炉蒸汽干度控制系统中。
2023-08-24单片机是一种高度集成的电路芯片,被广泛应用到工业控制领域。近年来,将其应用在嵌入式系统软件中,发挥核心作用。文章对其发展情况展开论述,并研究单片机技术的应用范围以及工作原理。目的在于提高单片机的工作性能,促进单片机嵌入系统的整体发展。
2020-11-03GAMS语言更适合解决大规模的、比较复杂的数学规划问题,这是和其他语言的区别。GAMS有很强的灵活性和通用性,通过以上几个算例也发现,GAMS在运行效率方面也优先于其他软件,节省了开发者的时间,并且由算例(3)可知,GAMS可对实际问题进行建模,并且能够很好的解决复杂的实际问题,做出合理的决策。
2020-10-27目前PLC控制器主要应用于工业控制系统中,相对于单片机控制器,PLC的可靠性、通用性、扩展能力以及处理能力都要优于单片机控制器。在较复杂的交通灯控制系统中,如果要把整个城市的交通灯系统全部接入交通控制指挥中心,单片机做底层控制系统的控制器没什么问题,不过如果需要把信号采集到远端中控室服务器还是需要PLC。
2020-10-21本文设计的PLC智能控制立体停车库可以直接访问第二层、第三层停车场和停车场1层。使用梯形图语言的控制软件。可以肯定,加载载荷的地板链,依靠吊点的地板上悬挂支架,在静态负载(安全)钩住的楼层。设计技术在不同层次的汽车应用使用“并行分支和融合”,指的是并行分支指的分支可以进行,与此同时,对其他程序的运行,根据动作状态做出相应的运行。
2020-10-21本文首先采用MATLAB软件对Arneodo混沌系统进行建模和仿真,显示状态变量的三维相图和二维相图。然后,设计单一的控制器进行Arneodo混沌系统的镇定控制,并进行了数值仿真。本文所设计的控制器能够实现Arneodo混沌系统的镇定控制,并具有结构简单和容易实现的优点。
2020-07-14我国地域辽阔,部分地区的地形地貌较为特殊,河流比较多,而且天然落差比较大,谁能资源较为丰富。水电的数量较为庞大,所涉及的数据也比较多,传统水资源管理的方法大部分都是通过表格与文本对数据进行存储,此和水利现代化管理需求不符合,所以就要将地理信息系统与计算机等现代化的管理技术到水电管理中使用。
2020-06-16单货叉堆垛机的应用目前已经比较成熟,国内外学者对其调度问题的研究已有诸多成果。例如文献[1,2,3,4,5]均针对单台单货叉堆垛机,采用遗传算法、模拟退火算法等优化算法来对堆垛机调度问题进行了优化,文献[6]针对多台单货叉堆垛机的调度方案提出了一种合理分配的调度策略等等。
2020-06-16人气:4760
人气:4359
人气:2557
人气:2152
人气:1880
我要评论
期刊名称:系统科学与数学
期刊人气:3480
主管单位:中国科学院
主办单位:中国科学院数学与系统科学研究院
出版地方:北京
专业分类:科学
国际刊号:1000-0577
国内刊号:11-2019/O1
邮发代号:2-563
创刊时间:1981年
发行周期:月刊
期刊开本:16开
见刊时间:一年半以上
影响因子:1.570
影响因子:0.691
影响因子:1.594
影响因子:2.114
影响因子:1.228
400-069-1609
您的论文已提交,我们会尽快联系您,请耐心等待!
你的密码已发送到您的邮箱,请查看!