第十八章经由观察而学习精品课件.ppt
《第十八章经由观察而学习精品课件.ppt》由会员分享,可在线阅读,更多相关《第十八章经由观察而学习精品课件.ppt(54页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、第十八章第十八章經由觀察而學習經由觀察而學習18.1學習性代理人的通用模型18.2歸納學習法18.3決策樹的學習18.4使用資訊理論18.5學習通用的邏輯表述18.6為何學習可行:計算學習理論18.1學習性代理人的通用模型學習性代理人的通用模型一個具有學習特性的代理人,在概念上可分解為如圖18.1所示的四項元件。其中最重要的是區分負責改善內部效能的學習元素學習元素,和負責選擇外在行動的效能元素效能元素。之前被當成是完整代理人的部份即是一個效能元素;它能取得認知並決定行動。學習元素的設計受到四項主要關鍵問題的影響:效能元素的哪一個元件需要改善。效能元素的哪一個元件需要改善。這些元件使用什麼描述方
2、法。這些元件使用什麼描述方法。能得到哪些回饋。能得到哪些回饋。能得到哪些先驗資訊。能得到哪些先驗資訊。元件的表示方法元件的表示方法 這些元件中的任何一種都可以用本書介紹的表示法表示。已有許多個例子:決定性敘述法,例如競局程式中效能函數的線性加權多項式,和邏輯代理人各元件的比例項(proportional)與一階邏輯敘述;以及機率描述,例如用於決策理論代理人推論元件的信念網路。有用的回饋(有用的回饋(availablefeedback)對一些例如預測行動結果的元件而言,有用的回饋通常能告知代理人何者是正確的結果。亦即,代理人預測特定行動(煞車)將有特定的結果(在10呎內停住),而環境立刻提供一個
3、描述實際正確結果的認知(在15呎內停止)。任何可察覺元件輸出與輸入情況的環境就稱為監督式學習(supervisedlearning)。先驗知識先驗知識 大部分AI、計算機科學、以及心裡學中的學習研究,都曾研究過這樣的例子:代理人從不具有任何它想學習的知識開始,只具有由經驗獲得其所呈現之例子的方法。雖然這是重要的特例,對一般情況而言卻不一定如此。大部分的人類學習都發生在有充足背景知識的情況下。總結總結效能元素的七個元件,任一個都可以用數學方法描述成一個函數:例如,相關於環境進化方法的資訊可被描述為從一個環境狀態(目前狀態)到另一個環境狀態(下一個或多個狀態)的函數;一個目標可被描述為從一個狀態到
4、一個布林值(0或1),表示該狀態是否滿足目標的函數。重點是,所有的學習都可被視為學習一個函數的表示法。18.2歸納學習法歸納學習法 在控制學習之中,學習元素被給定對應於特定輸入的函數正確(或幾近正確)值,並嘗試改變函數的表示法以符合回饋所提供的資訊。更正式的說法為,一個範例是一組(x,f(x)),其中x是輸入,而f(x)是套用x時該函數的輸出。在圖18.2(c)則有一個更複雜的h函數。兩個函數的範例點一致,但若給予其他x作為輸入,則兩者的y值不同。在(d)之中有一個函數故意忽略範例點中的一個,但用簡單函數就可以符合其他的點。因為不知道真正的f,因此對h有很多選擇,但也因為沒有進一步的知識,就沒
5、有理由偏好(b),(c),或(d)。任何對於一項假說的偏好超越了與範例的一致性,就稱為一項偏見偏見(bias)。回到關於代理人的討論,假設有一個被教師教導的反射代理人。圖18.3的例子顯示出REFLEX-LEARNING-ELEMENT會更新擁有一序對(percept,action)的全域變數。該項認知可能是棋盤上的位置,而動作可能是由圍棋高手所決定的最佳棋步。本章討論兩種邏輯敘述句的學習方法:決策樹決策樹法(decisiontree)使用專為學習而明確設計的有限制邏輯敘述句表示法;版本空間版本空間法(version-space)較為普遍,但經常很缺乏效率。第19章將討論類神經網路類神經網路(
6、neuralnetworks),是非線性數值函數的一般表示法。競局評估函數所使用的線性加權多項式是類神經網路的一項特例。18.3決策樹的學習決策樹的學習 決策樹歸納法是最簡單,也是最成功的學習演算法形式之一。不僅是進入歸納式學習法領域一項很好的介紹,同時也易於實行。本節首先談論效能元素,然後說明如何學習它。以決策樹作為效能元素以決策樹作為效能元素 一個決策樹的輸入是一個由屬性的集合所描述的物件或狀態,輸出則是一個”是”或”不是”的決策。因此決策樹是一個布林函數。雖然決策樹也可以描述輸出範圍較大的函數,但為了簡化,通常只注意布林的狀況。決策樹的表示法 若決策樹對應於關聯敘述句的集合,一個基本的問
7、題是:決策樹能否表現任何集合。答案是否,因為決策樹隱然受到無法敘述單一物件的限制。也就是說,決策樹的語言基本上是命題式的,其中每個屬性的測試都是一個命題。我們無法使用決策樹表達用到兩個以上不同物件的測試,例如,r2Nearby(r2,r)Price(r,p)Price(r2,p2)Cheaper(p2,p)由範例歸納決策樹由範例歸納決策樹 範例範例(example)是由屬性的值和目的述詞所描述。目的述詞的值被稱為該範例的類別類別(classification)。若目的述詞對某些範例成立,則稱這是一個正範例正範例(positive);否則稱為負負範例範例(negative)。一個餐廳領域的範例集
8、合X1,X12展示於圖18.5。正範例是目的WillWait的值(X1,X3,)為真,而負範例則是(X2,X5,)為偽。完整的範例集合被稱為訓練集合訓練集合(trainingset)。找尋一個與訓練集合一致的決策樹似乎有點困難,實際上卻存在一個簡單解。可以單純地建立一棵決策樹,對於每個範例都有一條到達葉節點的路徑與之對應,該路徑依序測試每個屬性,並遵循該範例的值,而葉節點擁有該範例的類別。當再次被給予同樣的範例,決策樹將可給出正確的類別。圖18.6表示該演算法如何開始。已知12個訓練範例,被分類為正副兩個集合。接著決定使用哪個屬性作為決策樹的第一項測試。圖18.6(a)表現出Patrons是很
9、重要的屬性,因為若Patrons的值為None或Some,則需要處理能被確定回答的範例集合(分別是No和Yes)。(若值為Full,就需要額外的測試。)繼續套用DECISION-TREE-LEARNING演算法(圖18.7),直到獲得圖18.8的樹。這棵樹與原來顯示於圖18.4的樹很明顯不同,儘管實際上那些資料確實都是由使用原來那棵樹的代理人所產生。評估學習演算法的效能評估學習演算法的效能 若一項學習演算法所產生的假說在預測不可見範例(unseenexample)的分類表現良好,則稱其為良好的演算法。第18.6節將可看到如何預估學習演算法做預測的品質。現在將檢視一項在事實發生後評估預測品質的方
10、法。若使用所有可得的範例作訓練,則必須再取得更多的範例以作測試,因此通常採用下列方法會更方便:1.收集一個大量範例的集合。2.將該集合分割為沒有交集的兩個集合:訓訓練練集集合合和測試集合測試集合。3.使用學習演算法和訓練集合作為範例以產生一個假說。4.量測測試集合中能被正確分類的範例比例。5.對不同大小的訓練集合,以及隨機選擇的各種大小的訓練集合重複步驟到。決策樹學習法實務決策樹學習法實務 決策樹為成比例的知識提供一個簡單的表示法,可用於作決策,並將物件分類。雖然決策樹學習法因為其表述方式的限制而不能產生有趣的科學理論,卻已被廣泛地應用於各方面。鑽油平台設備之設計鑽油平台設備之設計 1986年
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第十八 经由 观察 学习 精品 课件
限制150内