|  客服中心  |  合作联系
搜刊网
论文下载
您当前位置
首页 > 论文下载 > 教育科学 > 汉语同义词的模糊聚类分析刍议
汉语同义词的模糊聚类分析刍议
来源:互联网 qikanw | 贾 璐
【分  类】 教育科学
【关 键 词】 汉语;同义词;模糊聚类分析
【来  源】 互联网
【收  录】 中文学术期刊网
正文:

  [摘要] 模糊聚类分析法是应用模糊数学的观点和理论,通过建立模糊相似关系而后将客观事物予以分类的一种数学方法。由于语言中的文字信息不同于自然学科中的数据信息,所以在对汉语同义词进行模糊聚类分析时,需要想办法将语言信息数量化。本文将相似性科学中关于系统要素数量的相似度计算方法引入到同义词的相似性研究中,以现代语义学提出的义素分析法作为量化语言信息的桥梁,不仅很好地体现了不同学科的结合,而且使我们对词语的同义现象有了一个全新的认识。

  [关键词] 汉语;同义词;模糊聚类分析

  引 言

  所谓聚类分析,就是用数学的方法对事物按一定的要求进行分类。[1]在模糊数学产生之前,聚类分析已是数理统计多元分析的一个分支,有着广泛的实际应用。模糊理论,又称模糊学,是诞生于20世纪60年代的一门新兴的科学理论,由美国系统控制科学家札德(L.A.Zadeh)于1965年首次提出,其基础是模糊集合论,它的核心思想为研究对象所构成的类中的成员向非成员的过渡是逐渐的,而非一刀切的。聚类的实质就是把具有相似性质的事物区分开来,然而在现实中,事物彼此之间的相似关系往往伴有模糊性,这导致一个事物是否属于某一类,并不是泾渭分明的,因此,模糊聚类分析就应运而生了。应用模糊数学的理论和方法所进行的聚类分析,称为模糊聚类分析,用模糊聚类分析得到的分类结果,往往更符合实际。[2]

  迄今为止,模糊聚类分析法已在自然科学的多个领域得到了成功应用,原因就在于自然科学中样本的特征是以数据形式给出的,计算它们彼此之间的相似系数有很多种数学方法可供选择。而我们此处作为模糊聚类分析样本的是语言中的同义词,它们的基本信息是用文字表达的,要想通过确定同义词彼此之间的相似系数来实现对它们的模糊聚类分析,就需要另辟蹊径,想办法将用文字表达的语言信息数量化。本文尝试着使用了不同学科的理论观点和操作方法,对汉语中的同义词作了模糊聚类分析。

  一、词语同义关系的模糊性及其矩阵表示

  模糊关系体现的是关系外延的不确定性,语言中词语的同义关系就具有这样的特征。词语的同义关系是靠同义词来体现的,同义词指意义相同或相近的词。但是,怎样才算意义相同或相近,意义究竟相近到什么程度才能叫做同义词,这些都是不确定的,换句话说,词语的同义关系具有模糊性。一般而言,同义词的词义是同中有异的。同义词的“同”是它们得以聚为一类的前提,同义词的“异”则是对它们进行相对分类的基础。词语同义关系本身的模糊性为同义词的模糊聚类分析提供了可能。

  我们把具有同义关系的词语所形成的集合称为同义聚合体,如果两个词语彼此之间毫无关系,那它们就被排除在同义聚合体之外,其余所有的进入同义聚合体中的词语相互之间的关系都应有一种程度上的不同,我们把这种不同的程度视为词语对同义关系的隶属度,取值为单位区间[0,1]。因为该隶属度体现的是同义词之间的相似程度,所以我们把它称为同义词间的相似系数,用r来表示。若两个词语之间完全没有同义关系,则r=0;若两个词语完全同义,是意义相互之间的一致程度达到百分之百的等义词,则r=1。大多数同义词是同中有异的,它们之间的相似系数应该介于0和1之间。

“在有限论域中,给定一个模糊关系,就惟一确定一个模糊矩阵;反之,给定一个模糊矩阵,也惟一确定一个模糊关系。即模糊关系与模糊矩阵建立了一一对应的关系。”[3]因此,在以下的讨论中,我们将对模糊关系与模糊矩阵不加区别,均以来表示。

  词语的同义关系是一种模糊关系,故可以用模糊矩阵来予以形式化的描述。由于同义关系具有自反性和对称性,即词语自身与自身完全相似且词语间的相似程度不因词语相互顺序的改变而改变,故而词语的同义关系是一种模糊相似关系,这样势必要求描述它的矩阵是一个主对角线为1且行数与列数相等的方阵,即为模糊相似矩阵:

=

  描述同义关系的模糊相似矩阵中的元素就是同义词之间的相似系数,为了能够对同义词进行模糊聚类分析,我们需要先来确定同义词之间的相似系数。

  二、同义词间相似系数的确定方法

  语言中的词语不是孤立存在的,它们往往要通过自身所具备的语音、词汇或语法等方面的某些共同特点,而产生各种不同的类聚。同义聚合体就是词汇意义相同或相近的同义词语的聚合。在这个聚合体中,并不是每个成员都能同时出现在不同组合关系的同一位置上,这是因为同义词语之间存在着差异,正是这差异规定着词语在组合当中可以相互替换的程度。因此,对同义词进行研究,考察词语相互之间的差异很重要:差异大的,词语在组合中可替换的程度就低;差异小的,词语在组合中可替换的程度就高,这差异实际上反映的是同义词之间的相似程度。由于模糊聚类分析需要这个相似程度的数量表示,因此我们引入相似性科学中的有关方法来进行分析。

  相似性科学是“以相似性和相似系统为研究对象,主要研究自然界、人类社会、工程技术和认知思维中的相似性规律及其应用的科学。”[4]在实际应用中,我们不仅需要用语言来描述事物间客观存在的相似特性,而且需要通过系统间的共有要素数量及其特征值的差别来分析和度量相似性。系统相似性程度的数值大小可以用相似度来表示,记为Q,相似度Q的值域为0≤Q≤1。Q=1表示系统间组成要素的数量及特性完全相同,是相同系统;Q=0表示系统间组成要素的数量及特性完全不同,是相异系统。大多数系统间存在着或多或少的相似性,只是相似程度的大小不同而已,因此,系统间组成要素和特性部分相同的相似系统的相似度取值为0

  系统相似度的数值度量包括组成要素的数量相似度量和特性相似度量两方面。实现对相似系统要素特性的数值度量,需要获取每一个特性的特征值,相似系统间对应要素特性的特征值的比例系数就反映了系统要素特性的相似程度。[6]由于语言的特性都是用文字来描述的,不能像物理量那样具体测量它的特征值,所以很难进行相似系统要素特性的定量分析。这里我们仅从相似系统组成要素的数量分析入手,着重介绍数量相似度的计算方法,这也是鉴于语言的特殊性而在方法上作出的选择。

相关推荐
热门期刊
四川省情《四川省情》
《四川省情》杂志,于2002年经国家新闻出版总署批准正式创刊,CN:51-1620/D,本刊在国内外有广泛的覆盖面,题材新颖,信息量大、时效性强的特点,其中主要栏目有:经济研究、...
金山企业管理《金山企业管理》
《金山企业管理》是由中华人民共和国新闻出版总署、正式批准公开发行的期刊。自创刊以来,以新观点、新方法、新材料为主题,坚持"期期精彩、篇篇可读"的理念。金山...
小学生天地《小学生天地》
《小学生天地》杂志,旬刊,于1984年经国家新闻出版总署批准正式创刊,由长江出版传媒股份有限公司主管,湖北长江报刊传媒(集团)有限公司主办的学术性刊物,本刊在国内外有...
水力采煤与管道运输《水力采煤与管道运输》
《水力采煤与管道运输》杂志,于1974年经国家新闻出版总署批准正式创刊,CN:13-1185/TN,本刊在国内外有广泛的覆盖面,题材新颖,信息量大、时效性强的特点,其中主要栏目有...
实用肿瘤学《实用肿瘤学》
《实用肿瘤学杂志》1986年创刊,杂志由哈尔滨医科大学主管,黑龙江省肿瘤医院主办的肿瘤专业性学术期刊。 《实用肿瘤学杂志》的办刊宗旨和方针是:贯彻党和国家的卫生...
信息工程大学学报《信息工程大学学报》
《信息工程大学学报》(双月刊)创刊于2000年,是由解放军信息工程大学主办的公开发行的以基础理论、应用科学和工程技术为主的理工科综合性学术刊物,本刊的主要任务是...
友情链接
中教杯 国家新闻出版总署 中国知网 万方数据 维普网 中国科学院 中国国家图书馆 央视英文版 中国留学网 中青网 中国国家人才网 中国经济网 中国日报网 中国新闻网 中国学术期刊网
关于我们
平台简介
诚聘英才
企业文化
竞争优势
版权信息
服务条款
客服承诺
常见问题
版权声明
合作加盟
期刊加盟
广告服务
联系我们
网站导航
期刊大全
论文下载
课题申报
学术会议
微信公众
编辑联络
2007-2021
中文学术期刊检索机构
bianjibu360@qq.com
联系我们

版权所有©2007- 2021 搜刊数据(sookan.cn) All Rights Reserved 琼ICP备2020005474号
本站若有版权侵犯,请及时与本站取得联系,联系信箱: bianjibu360@qq.com    
中国学术期刊网