直接部件.ppt
《直接部件.ppt》由会员分享,可在线阅读,更多相关《直接部件.ppt(130页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、漢字構形資料庫的研發與應用 2009年7月中研院資訊所文獻處理實驗室鄧賢瑛 ying0419iis.sinica.edu.tw1漢字構形資料庫的研發與應用第1章 漢字構形資料庫的研發概要第2章 漢字構形資料庫的部件拆分第3章 漢字構形資料庫的構形編碼第4章 漢字構形資料庫的應用第5章 漢字構形資料庫的展望2第1章漢字構形資料庫的研發概要 1.1字形結構分析與部件檢字1.2構字式與缺字問題1.3異體字表1.4銜接古今文字1.5增收甲骨文、金文及楚系簡帛文字1.6古漢字重文與風格碼1.7漢字構形資料庫的版本沿革(略)1.8漢字構形資料庫的架構及特色3前言漢字構形資料庫,是一個記錄漢字形體知識的資料
2、庫 1998年8月推出第一個正式版本研發至今已有超過10年的時間,至2009年6月份為止,所推出的版本已更新至2.53版,收錄古今文字119,195個及異體字12,208組41.1字形結構分析與部件檢字 1998年8月推出漢字構形資料庫1.0版這是漢字構形資料庫最早的正式版本,收錄五大碼13,051個字形 因義構形是漢字的特點,當對漢字進行構形分析時,可將字形依層次拆分為各級部件各級部件都可用來檢索字形5各級部件 二級部件一級部件三級部件三級部件四級部件醫字的各級部件6部件檢字舉例圖1.2:以矢進行部件檢字的結果圖1.3:以矢和殳進行部件檢字的結果圖1.4:以矢和酉進行部件檢字的結果71.2構
3、字式與缺字問題 1999年1月20日推出1.1版 擴充漢字構形資料庫1.0版的字形。除了原已收錄的五大字集以外,收錄漢語大字典的單字,使漢字構形資料庫所收錄的字數擴充至將近5萬字在這5萬字當中,有許多是電腦的缺字,因此需要在計算機中制式表達這些缺字 8構字式文獻處理實驗室將漢字部件的組合方式,簡化為橫連、直連與包含三種組合方式,分別以、三種連接符號表示使用連接符號連接部件的字形結構表達方式稱作構字式 可利用有限的部件表示無窮的漢字 9構字式舉例的構字式可寫作殳醫的構字式可寫作酉医的構字式可寫作矢 10缺字預覽巨集2000年10月18日推出的1.2版中,加入了Word缺字預覽巨集使用者可以在Wo
4、rd文件中先輸入缺字字形的構字式,再透過Word缺字預覽,顯示文件中的缺字字形11缺字預覽舉例Word缺字預覽巨集原始文件Word缺字預覽結果缺字預覽文件正坐之間,忽然前一道黑氣天,須臾不見天日,晡時雖散,仍乃不大明朗。包公心甚疑,其必有枉。是夜左右點起燭,包公困倦,伏几而臥。缺字預覽正坐之間,忽然土皆一道黑氣中天,須臾不見天日,晡時雖散,仍乃不大明朗。包公心甚疑,其必有兔枉。是夜左右點起火丁燭,包公困倦,伏几而臥。121.3異體字表 2001年1月19日推出1.3版在中文缺字中有大部分是屬於異體字,這和漢字一字多形的特點息息相關增添了異體字表的功能,一共收入漢語大字典異體字表12,208組1
5、3射字的異體字表主體字射字的異體字主體字榭字的異體字在漢字中,主體字與異體字的關係有時候是相對的某個字可能本身是主體字,同時又是其他字形的異體字例如當射字作主體字時,它的異體字有7個但射字同時又是另一個主體字榭字的異體字141.4銜接古今文字2002年7月2日發佈 2.0版漢字構形資料庫2.0版開始收錄古漢字,開始著手收錄說文解字詁林中9,831個小篆字形 2003年3月17日推出的2.1版時,已完整收齊說文解字詁林中的小篆及重文字形一共11,100個 151.4銜接古今文字(續)小篆可以說是研究古文字與今文字的過渡橋樑,說文中的小篆不但保存古漢字演變的線索,也是現今漢字尋求字源的重要參考依據
6、在漢字構形資料庫中,檢索小篆字形同樣也是利用部件檢字的方式,並且依小篆的字形進行字形結構分析 161.4銜接古今文字(續)醫字的小篆字形結構以矢進行小篆部件檢字的結果先利用醫的部件矢字檢索而得到醫字 再點選醫字後,即可看見它的字形結構 171.4銜接古今文字(續)射字的小篆異體字表射字的小篆字形現今楷書的射字在說文小篆中是 字的或體,在漢字構形資料庫的小篆異體字表中,即將射 字列在 字底下,並在字形演變視窗中顯示小篆射字為說文或體 181.5增收甲骨文、金文及楚系簡帛文字 2004年12月6日推出的2.2版,開始收錄金文編的金文字形2005年8月3日推出的2.3版,則開始收錄楚系簡帛文字編的楚
7、系簡帛文字 2006年8月2日推出的2.4版,開始收錄殷墟甲骨刻辭類纂的甲骨文字形 射字的字形演變甲骨文金文楚系簡帛文字小篆19甲骨文射字字形結構甲骨文弓甲骨文矢金文射字字形結構金文弓金文矢金文又楚系簡帛文字射字字形結構楚系簡帛文字弓楚系簡帛文字矢小篆射字字形結構小篆身小篆寸現代楷書看來是同一字,但在古漢字卻可能有不同的字形結構 在對古漢字進行部件檢字時,也需要依照不同的字形結構,選擇適合的部件 201.5增收甲骨文、金文及楚系簡帛文字(續)以 甲 骨 文弓進行部件檢字甲骨文射字以弓進行甲骨文部件檢字以金文矢進行部件檢字金文射字以矢進行金文部件檢字以矢進行楚系簡帛文字部件檢字以楚系簡帛文字矢進
8、行部件檢字楚系簡帛文字射字以身進行小篆部件檢字以小篆身進行部件檢字小篆射字211.6古漢字重文與風格碼2007年8月9日推出2.5版 大量增收古漢字,並且開始利用風格碼進行古漢字的編碼工作 新增出處檢字功能新增了自動貼圖至Microsoft Office Word的功能22古漢字字型過去在解決古漢字的顯示問題時,通常是先製作古漢字字型,再透過字型切換的方式顯示標楷體北師大說文小篆利用切換字型的方式,顯示小篆字形23古漢字的編碼工作但形體不同的重文。如果要運用切換字型的方式顯示這些具有大量異體字的古漢字時,就會面臨難以抉擇的困擾有鑑於此,於是漢字構形資料庫2.5版開始採用古漢字本身的源流資訊進行
9、編碼,與楷書運用構字式的編碼方式有所區分 24金文射字的異寫字點選展開古漢字的編碼工作(續)金文射字的異體字表射集成2803射集成4273射集成9455射集成2784風格碼:25新增出處檢字功能毛公鼎中的字形毛公鼎在殷周金文集成中器號為2841利用出處檢字檢索毛公鼎上的字形例如,使用者若想檢索毛公鼎(殷周金文集成器號2841)上的所有字形,即可利用毛公鼎的器號在出處檢字上進行檢索可提供檢索的條件:甲骨文編號、金文器號,或楚系簡帛文字的簡號26新增了自動貼圖至Microsoft Office Word的功能Ctrl與 W鍵Ctrl與 W鍵在Microsoft Office Word中貼入字形圖片
10、271.8漢字構形資料庫的架構及特色 漢字構形資料庫的組成甲骨文電腦字型異體字表字集部件集金文小篆楷書電腦字型異體字表字集部件集楚系文字電腦字型異體字表字集部件集電腦字型異體字表字集部件集電腦字型異體字表字集部件集基礎部件集基礎部件集基礎部件集基礎部件集基礎部件集281.8漢字構形資料庫的架構及特色(續)銜接古今文字以反映字形源流演變收錄不同歷史時期的異體字表,以表達不同漢字在各個歷史層面的使用關係記錄不同歷史時期的文字結構,以呈現漢字因義構形的特點使用構字式及風格碼來解決古今漢字的編碼問題29第2章漢字構形資料庫的部件拆分2.1名詞釋義2.2基礎部件的規範2.3部件拆分的一些問題2.4五大字
11、集部件表2.5簡化字集部件表 302.1名詞釋義部件:由筆畫組成具有組配漢字功能之構字單位,當一個形體被用來構造其他的字,成為所構字的一部分時,是為所構字的部件例如、酉、殳皆為醫的部件312.1名詞釋義(續)成字部件:可以獨立成字的部件稱成字部件,當它不作為其他字的部件時,本身就是一個完整的字例如醫字的部件、酉、殳、矢、大、又皆可獨立成字,是為成字部件322.1名詞釋義(續)非(成)字部件:不能獨立成字的部件稱非字部件,非字部件不能獨立存在,必需依附於其他部件之上例如醫字的部件無法獨立成字,是為非字部件332.1名詞釋義(續)基礎部件:最小的不再拆分的部件稱基礎部件例如醫字的基礎部件有、大、又
12、、酉,這些部件都無法再繼續往下拆分 342.1名詞釋義(續)合成部件:由兩個以上的基礎部件組成的部件稱合成部件例如醫字的合成部件有:、殳、矢,這些部件都是由兩個以上的基礎部件所組成,可以繼續往下拆分至基礎部件為止 352.1名詞釋義(續)漢字結構:部件構成漢字的方式和規則 結構理據:根據字源或參考字源,從漢字的部件組合分析出的造字意圖,稱結構理據例如醫字,根據說文:,病聲。酉,所以治病也。可見醫字的造字意圖是由與酉而來。根據字源解釋醫字造字意圖,即為醫字的結構理據362.1名詞釋義(續)部件拆分:將漢字拆分為部件稱部件拆分有理據拆分:根據結構理據所進行部件拆分,稱有理據拆分例如醫字,根據說文:
13、,病聲。酉,所以治病也。因此醫字可以拆分為與酉 372.1名詞釋義(續)無理據拆分:當無法分析理據或理據與字形發生矛盾時,依照字形所進行的部件拆分,稱無理據拆分例如矢往下拆分為、大卻沒有任何字源解釋,因此在醫的部件當中,矢的拆法為無理據拆分382.1名詞釋義(續)部件的層級:依層次拆分的漢字中,部件是有層級的。以醫字為例,含有以下四個層級的部件:一級部件:、酉二級部件:、殳三級部件:、矢、又四級部件:、大直接部件直接部件39三級部件三級部件四級部件二級部件一級部件醫字的各級部件402.2基礎部件的規範現行中文楷書的拆分原則,可參考兩份中文字的基礎部件標準中文字基礎部件及部件屬性(編號CNS 1
14、1643-2,以下簡稱CNS 11643-2)GB 13000.1字符集漢字部件規範(編號GF3001-1997,以下簡稱GF3001)41GF3001 於1997年發佈是對GB13000.1信息技術通用多八位編碼字符集(UCS)第一部分:體繫結構與基本多文種平面中的20,902個中文字進行拆分後得出的基礎部件表以及使用原則GF3001有560個基礎部件 42CNS 11643-2於2007年發佈 是對CNS11643中文標準交換碼第1及第2字面的13,051個中文字進行拆分後得出的基礎部件表及使用原則CNS 11643-2共有517個基礎部件 43漢字構形資料庫的基礎部件漢字構形資料庫在制定
15、基礎部件時,主要是依據CNS 11643-2,兼以GF3001為輔助參考其與CNS 11643-2相異處為:採取GF3001的認同使用原則 44何謂認同使用當部件因為在字中所處的部位不同而產生了筆畫變形或比例變化,例如土當作字形偏旁時,經常寫作提土旁,若將與土視為相同的部件,是為認同使用 CNS 11643-2中將這類變化後的部件稱為附部件,視為與主部件不同的部件,是採取不認同使用45採取GF3001的認同使用原則附部件的存在會增加檢索之困難,例如部件木,分出位置在字形左半邊的附部件和位置在字形下半邊的附部件 漢字構形資料庫採取了GF3001的認同使用原則462.3部件拆分的一些問題漢字構形資
16、料庫主要根據字形理據來進行部件拆分。當字形符合理據的,進行有理據拆分;無法分析理據或理據與字形矛盾的,依字形進行無理據拆分472.3部件拆分的一些問題(續)對多部件的漢字進行拆分時,應先依漢字組合層次做有理據拆分,直至不能進行有理據拆分而仍需拆分時,再做無理據拆分48有理據拆分與無理據拆分有理據拆分根據字源l絕大多數楷書字形拆分後的部件都和小篆相同l例如醫字拆成、酉 49有理據拆分與無理據拆分(續)有理據拆分參考字源 l楷書和小篆的部件差異不只是變形,而是由另一個部件所替代 l例如小篆 (奠)拆成 (酋)、(丌),楷書奠字拆成酋、大,丌為大所替代 50有理據拆分與無理據拆分(續)無理據拆分 l
17、無法分析理據或理據與字形矛盾時採用l例如小篆 (易)為象形字,不再拆分,楷書易字則依CNS11643-2拆分成日、勿51非字部件在上述有理據拆分參考字源的字形中,部分楷書的部件已由另一個部件所替代,這些替代的部件有些為非字部件 例如小篆 (唐)拆成 (庚)、(口),楷書唐字中替代部件庚的,即為非字部件 52非字基礎部件與非字合成部件非字部件由於不是字,電腦的中文字集不會收錄在漢字構形資料庫中,基礎部件是不可或缺的,因此非字基礎部件絕對要收錄;至於非字合成部件,由於數量較多,基於構字的需要,則可適量收錄53非字合成部件收錄原則目前只要是具有特定構意的非字合成部件,若在漢語大字典有兩個(含)以上的
18、單字用到,漢字構形資料庫即予收錄例如徽的非字合成部件,構意為微聲,並可構成黴、鰴等字,因此可收錄;至於唐的非字合成部件,構意為庚聲,但僅構成唐字,可予取消 54無理據拆分的原則 在不增加部件的情況下,使用最少的部件來拆分例如兵拆分成丘、八;易拆分成日、勿 552.4五大字集部件表五大字集:其中含常用字5,401個,次常用字7,652個,合計13,053個字,其中有2個字重複編碼,因此實際收錄13,051個中文字,即本文所稱之五大字集依照漢字構形資料庫的部件拆分原則,五大字集拆分後的部件總數為2,297個,其中基礎部件為441個,合成部件為1,856個562.4五大字集部件表(續)五大字集基礎部
19、件表,共441個(見報告p.33-39)五大字集基礎部件組字頻率表(見報告p.40-47)五大字集合成部件表,共1,856個(見報告p.48-71)572.5簡化字集部件表 簡化字集指的是簡化字總表收錄的2,235個簡化字依照漢字構形資料庫的部件拆分原則,簡化字集拆分後的部件總數為1,122個,其中基礎部件為367個,合成部件為755個582.5簡化字集部件表(續)簡化字集基礎部件表,共367個,扣除和五大字集基礎部件重複的326個外,共有41個(見報告p.72-73)簡化字集合成部件表:共有755個,扣除和五大字集合成部件重複的530個外,共有225個(見報告p.74-78)59第3章 漢字
20、構形資料庫的構形編碼3.1部件的組合及識別3.2構字式的制定及使用3.3構字式的處理技巧 3.4風格碼的制定及使用603.1部件的組合及識別原則漢字是由有限的部件所組成,除了不同的部件可組成不同的漢字外,相同的部件也可利用相對位置或部件的個數來組成不同的漢字 613.1部件的組合及識別原則(續)以五大字集的13,501個字形為例,其中有12,817個字使用的部件均不相同,部件相同但相對位置不同的字共有115組,234個字l例如架、枷、柺三個字均由部件力、口、木所組成,不同的是部件的相對位置 623.1部件的組合及識別原則(續)五大字集還有67個字僅由單一部件重複組合而成,例如多、朋、林、炎 綜
21、合上述,絕大多數的漢字皆可由其組成的部件來識別,少數字形則須再描述部件的相對位置 633.1部件的組合及識別原則(續)1.漢字係由一或多個部件依層次逐級組合而成,絕大多數字形可透過各級部件的組合來識別,例如謝字的各級部件組合言射、言身寸都可用來識別謝字 2.少數漢字的差異僅在於部件的相對位置不同,要識別此類字形,除部件本身外,還須描述部件的相對位置,例如暉、暈 643.1部件的組合及識別原則(續)3.少數漢字是由單一部件重複組合而成,此類部件的組合方式通常為由左至右,由上至下,或呈三角狀、四角狀排列。l例如林字由單一部件木由左至右排列,棗字由單一部件朿由上至下排列,轟字由單一部件車呈三角狀排列
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 直接 部件
限制150内