科学信息的词频分布规律.ppt
《科学信息的词频分布规律.ppt》由会员分享,可在线阅读,更多相关《科学信息的词频分布规律.ppt(29页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、信息计量学主讲老师:王倩飞济宁医学院信息工程学院第七章 科学信息的词频分布规律信息计量学v第一节 齐普夫定律的形成背景齐普夫定律的形成背景v第二节 齐普夫定律的基本表达齐普夫定律的基本表达v第三节 齐普夫定律的修正与发展齐普夫定律的修正与发展v第四节 齐普夫定律的应用领域齐普夫定律的应用领域 词词频频(nr):自自然然语语言言中中某某一一个个单单词词在在文文献献中中或或讲讲话话中中出出现现的的次次数数(频频次次)。不不同同的的词词汇汇在在同同一一篇篇文文献献中中出出现现频频次次的的分布是不均匀的。分布是不均匀的。词词汇汇数数(N):文文献献中中出出现现的的不不同同词词的的数数量量。即即:文文献
2、献中中作作者使用了多少个不同的词。者使用了多少个不同的词。词词次次数数(N):文文献献的的长长度度,总总词词量量,包包括括同同一一词词重重复复出出现的次数。现的次数。几个基本概念几个基本概念科科学学 信信息息 是是 由由 符符号号 尤尤其其 是是 文文字字 有有 规规则则 排排列列 而而 形形成成 的的,这种这种 规则规则 来自来自 思维思维 逻辑逻辑 与与 语言语言 逻辑逻辑 两两 方面。方面。信息计量学第一节第一节 齐普夫定律的形成背景齐普夫定律的形成背景一、词频统计的产生和发展一、词频统计的产生和发展n18981898年年,德德国国学学者者凯凯丁丁编编写写了了世世界界上上第第一一部部频频
3、率率词词典典-德德语语频率词典频率词典。n美美国国教教育育学学家家桑桑代代克克编编写写了了教教师师两两万万词词词词书书(1921)(1921)和和教教师师三万词词书三万词词书(1944)(1944)。对英语词汇做了大量的频率统计工作。对英语词汇做了大量的频率统计工作。n我我国国近近代代教教育育家家陈陈鹤鹤琴琴(1892(18921982)1982)主主持持编编辑辑了了第第一一部部汉汉语语频频率率字字典典语语体体文文应应用用字字汇汇(1928)(1928),从从554478554478个个汉汉字字中中析析出出42614261个单字。个单字。第七章 科学信息的词频分布规律频频率率词词典典(freq
4、uency dictionaries)按按词词出出现现频频率率的的高低而编排的词典。高低而编排的词典。北北京京语语言言学学院院语语言言教教学学研研究究所所采采用用人人工工与与计计算算机机相相结结合合的的办办法法,对对近近200200万万字字的的汉汉语语语语料料进进行行词词频频统统计计,编编制制了了现现代代汉汉语语频频率率词词典典,收收词词3115931159条条,这这是是中中国国正正式出版的第一部汉语频率词典。式出版的第一部汉语频率词典。第一节第一节 齐普夫定律的形成背景齐普夫定律的形成背景一、词频统计的产生和发展一、词频统计的产生和发展第七章 科学信息的词频分布规律信息计量学二、语言学研究及
5、启示 1916年年,法法国国速速记记专专家家艾艾思思杜杜在在其其从从事事的的速速记记文文字字体体系系的的改改善研究工作中,观察到如下事实:善研究工作中,观察到如下事实:假假定定有有一一个个包包括括N个个词词汇汇的的文文献献集集(N充充分分大大)。按按照照这这些些词词汇汇在在文文献献集集中中出出现现的的频频次次高高低低递递减减地地加加以以排排列列,以以频频次次最最高高的的词词,其其顺顺序序定定为为自自然然数数1,频频次次第第二二的的词词,其其顺顺序序定定为为2,依依次次类推,频次最低的词为类推,频次最低的词为 。这样就得到一个词频表:。这样就得到一个词频表:词的顺序词的顺序12r词频词频n1n2
6、nrnl艾思杜发现艾思杜发现词频与词序之积大致为一常数词频与词序之积大致为一常数k,即,即nr *r=k。第一节第一节 齐普夫定律的形成背景齐普夫定律的形成背景第七章 科学信息的词频分布规律信息计量学 1928年年,美美国国贝贝尔尔电电话话公公司司的的物物理理学学家家贡贡东东发发现现如如下下公公式式:他他根根据据前前人人关关于于词词频频的的统统计计资资料料,以以横横坐坐标标表表示示词词的的序序号号的的对对数数lgr,纵纵坐坐标标表表示示词词的的绝绝对对频频率率的的对对数数lgn,描描绘绘了了下下图图。贡贡东东发发现现,lgr和和lgn的的分分布布关关系系接接近近于于一一条条直线直线AB。C是否
7、为一个常数?是否为一个常数?直直线线AB与与横横坐坐标标的的夹夹角角为为,经多次试验经多次试验=45度。度。二、语言学研究及启示第一节第一节 齐普夫定律的形成背景齐普夫定律的形成背景第七章 科学信息的词频分布规律信息计量学三、词频分布的机制验证了贡东公式的正确性C的取值人类行为与最省力法则-人类生态学引论第一节第一节 齐普夫定律的形成背景齐普夫定律的形成背景第七章 科学信息的词频分布规律信息计量学 每每一一个个人人的的运运动动,不不管管属属于于哪哪种种类类型型,都都是是在在一一定定道道路路上上进进行行的的,而而且且都都将将受受一一个个简简单单的的基基本本法法则则的的制制约约,千千方方百百计计地
8、地选选择择一一条条最最省省力力的的途途径径。在在各各种种运运动动中中,人人们们也也都都有有意意无无意意地地按按照照这这个个法法则则行行事事。齐齐普普夫夫把把这这样样一一个个他他认认为为普普遍遍存存在在的的法法则则称称为为“最最省省力力法法则则”(the”(the Principle Principle of of least effort)least effort)。三、词频分布的机制第一节第一节 齐普夫定律的形成背景齐普夫定律的形成背景第七章 科学信息的词频分布规律最省力法则最省力法则信息计量学 在语言词汇的选取上,表现为选择他最熟悉最能表在语言词汇的选取上,表现为选择他最熟悉最能表达意思的
9、词汇。齐普夫把词汇的选择过程,归结为达意思的词汇。齐普夫把词汇的选择过程,归结为“力力”的作用结果,即选择词汇时,由于的作用结果,即选择词汇时,由于“单一化的力单一化的力”的的作用,使我们总希望用熟悉的词汇去表达所有的概念,作用,使我们总希望用熟悉的词汇去表达所有的概念,但是事物概念的多样性,产生但是事物概念的多样性,产生“多样化的力多样化的力”,总要求,总要求词义的专指性。词义的专指性。“单一化的力单一化的力”使词频增加,使词频增加,“多样化多样化的力的力”使词种增加,这两种力的平衡,使词频等级呈使词种增加,这两种力的平衡,使词频等级呈双双曲线关系。曲线关系。三、词频分布的机制第一节第一节
10、齐普夫定律的形成背景齐普夫定律的形成背景第七章 科学信息的词频分布规律最省力法则最省力法则信息计量学 任任何何一一种种语语言言,词词汇汇出出现现的的频频率率是是有有规规律律的的。其其总总词词汇汇量量可可能能很很大大,但但通通常常使使用用的的词词汇汇却却占占其其中中较较少少一一部部分分,即即“常常用用词词”。这这些些词词出出现现频频繁繁,表表意意能能力力强强。相相应应的的,一一些些很很少少被被利利用用的的词词成成为为“冷冷僻僻词词”。齐齐普普夫夫定定律律就就是是研研究究文文献献词词频频规规律律的的最重要的成果。最重要的成果。三、词频分布的机制第一节第一节 齐普夫定律的形成背景齐普夫定律的形成背景
11、第七章 科学信息的词频分布规律最省力法则最省力法则信息计量学一、齐普夫定律的早期研究成果第二节第二节 齐普夫定律的基本表达齐普夫定律的基本表达第七章 科学信息的词频分布规律 C不是一个常数,而是一个参变数,在区间(0,0.1)间变动。其取值的大小与语种、样本量大小、词频水平均有关。信息计量学 如如果果把把一一篇篇较较长长文文献献(5000字字以以上上)中中每每个个词词出出现现的的频频次次进进行行统统计计,按按照照高高频频词词在在前前,低低频频词词在在后后的的递递减减顺顺序序,并并用用自自然然数数给给这这些些词词编编上上序序号号即即编编秩秩,频频次次最最高高的的词词秩秩为为1,其其次次的的秩秩为
12、为2,频频次次最最小小的的词词秩秩为为。若若用用Fr表表示示秩秩为为r的的词词出出现现的的频频次次,r表表示示词词汇汇的的秩秩即即序序号,则有:号,则有:Fr*r=C另一种表达:另一种表达:fr*r=c二、齐普夫定律的文字描述及数学模型第二节第二节 齐普夫定律的基本表达齐普夫定律的基本表达第七章 科学信息的词频分布规律Pr*r=c式中式中C为参变数为参变数,0C0.1。信息计量学三、齐普夫定律的图像描述横横坐坐标标表表示示词词的的等等级级序序号号r r,纵坐标表示相应的频次纵坐标表示相应的频次F Fr r。第二节第二节 齐普夫定律的基本表达齐普夫定律的基本表达第七章 科学信息的词频分布规律齐普
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 科学 信息 词频 分布 规律
限制150内