国产内射大片99,欧美丰满熟妇xxxx,bt天堂在线www中文,男人扒开女人的腿做爽爽视频,亚洲av影院一区二区三区

知名百科  > 所屬分類  >  科技百科    百科詞條   

機器學(xué)習(xí)

機器學(xué)習(xí)(MachineLearning,ML)是一門多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門學(xué)科。專門研究計算機怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能。

機器學(xué)習(xí)機器學(xué)習(xí)

它是人工智能的核心,是使計算機具有智能的根本途徑,其應(yīng)用遍及人工智能的各個領(lǐng)域,它主要使用歸納、綜合而不是演繹。 

目錄

概念定義 編輯本段

機器學(xué)習(xí)是一門多學(xué)科交叉專業(yè),涵蓋概率論知識,統(tǒng)計學(xué)知識,近似理論知識和復(fù)雜算法知識,使用計算機作為工具并致力于真實實時的模擬人類學(xué)習(xí)方式,并將現(xiàn)有內(nèi)容進行知識結(jié)構(gòu)劃分來有效提高學(xué)習(xí)效率。

機器學(xué)習(xí)有下面幾種定義:

(1)機器學(xué)習(xí)是一門人工智能的科學(xué),該領(lǐng)域的主要研究對象是人工智能,特別是如何在經(jīng)驗學(xué)習(xí)中改善具體算法的性能。

(2)機器學(xué)習(xí)是對能通過經(jīng)驗自動改進的計算機算法的研究。

(3)機器學(xué)習(xí)是用數(shù)據(jù)或以往的經(jīng)驗,以此優(yōu)化計算機程序的性能標(biāo)準(zhǔn)。

發(fā)展歷程 編輯本段

機器學(xué)習(xí)實際上已經(jīng)存在了幾十年或者也可以認為存在了幾個世紀(jì)。追溯到17世紀(jì),貝葉斯、拉普拉斯關(guān)于最小二乘法的推導(dǎo)和馬爾可夫鏈,這些構(gòu)成了機器學(xué)習(xí)廣泛使用的工具和基礎(chǔ)。1950年(艾倫.圖靈提議建立一個學(xué)習(xí)機器)到2000年初(有深度學(xué)習(xí)的實際應(yīng)用以及最近的進展,比如2012年的AlexNet),機器學(xué)習(xí)有了很大的進展。

從20世紀(jì)50年代研究機器學(xué)習(xí)以來,不同時期的研究途徑和目標(biāo)并不相同,可以劃分為四個階段。

第一階段是20世紀(jì)50年代中葉到60年代中葉,這個時期主要研究“有無知識的學(xué)習(xí)”。這類方法主要是研究系統(tǒng)的執(zhí)行能力。這個時期,主要通過對機器的環(huán)境及其相應(yīng)性能參數(shù)的改變來檢測系統(tǒng)所反饋的數(shù)據(jù),就好比給系統(tǒng)一個程序,通過改變它們的自由空間作用,系統(tǒng)將會受到程序的影響而改變自身的組織,最后這個系統(tǒng)將會選擇一個最優(yōu)的環(huán)境生存。在這個時期最具有代表性的研究就是Samuet的下棋程序。但這種機器學(xué)習(xí)的方法還遠遠不能滿足人類的需要。

第二階段從20世紀(jì)60年代中葉到70年代中葉,這個時期主要研究將各個領(lǐng)域的知識植入到系統(tǒng)里,在本階段的目的是通過機器模擬人類學(xué)習(xí)的過程。同時還采用了圖結(jié)構(gòu)及其邏輯結(jié)構(gòu)方面的知識進行系統(tǒng)描述,在這一研究階段,主要是用各種符號來表示機器語言,研究人員在進行實驗時意識到學(xué)習(xí)是一個長期的過程,從這種系統(tǒng)環(huán)境中無法學(xué)到更加深入的知識,因此研究人員將各專家學(xué)者的知識加入到系統(tǒng)里,經(jīng)過實踐證明這種方法取得了一定的成效。在這一階段具有代表性的工作有Hayes-Roth和Winson的對結(jié)構(gòu)學(xué)習(xí)系統(tǒng)方法。

第三階段從20世紀(jì)70年代中葉到80年代中葉,稱為復(fù)興時期。在此期間,人們從學(xué)習(xí)單個概念擴展到學(xué)習(xí)多個概念,探索不同的學(xué)習(xí)策略和學(xué)習(xí)方法,且在本階段已開始把學(xué)習(xí)系統(tǒng)與各種應(yīng)用結(jié)合起來,并取得很大的成功。同時,專家系統(tǒng)在知識獲取方面的需求也極大地刺激了機器學(xué)習(xí)的研究和發(fā)展。在出現(xiàn)第一個專家學(xué)習(xí)系統(tǒng)之后,示例歸納學(xué)習(xí)系統(tǒng)成為研究的主流,自動知識獲取成為機器學(xué)習(xí)應(yīng)用的研究目標(biāo)。1980年,在美國的卡內(nèi)基梅?。?span title="CMU" data-id="1107179" contenteditable="false" class="bk-color-link" data-type="innerLink" data-href="#" data-wiki-doc-id="6381236669146625644" data-source="1" data-content="[{"type":"text","text":"CMU"}]">CMU)召開了第一屆機器學(xué)習(xí)國際研討會,標(biāo)志著機器學(xué)習(xí)研究已在全世界興起。此后,機器學(xué)習(xí)開始得到了大量的應(yīng)用。1984年,Simon等20多位人工智能專家共同撰文編寫的MachineLearning文集第二卷出版,國際性雜志Machine Learning創(chuàng)刊,更加顯示出機器學(xué)習(xí)突飛猛進的發(fā)展趨勢。這一階段代表性的工作有Mostow的指導(dǎo)式學(xué)習(xí)、Lenat的數(shù)學(xué)概念發(fā)現(xiàn)程序、Langley的BACON程序及其改進程序。

第四階段20世紀(jì)80年代中葉,是機器學(xué)習(xí)的最新階段。這個時期的機器學(xué)習(xí)具有如下特點:

(1)機器學(xué)習(xí)已成為新的學(xué)科,它綜合應(yīng)用了心理學(xué)、生物學(xué)、神經(jīng)生理學(xué)、數(shù)學(xué)、自動化和計算機科學(xué)等形成了機器學(xué)習(xí)理論基礎(chǔ)。

(2)融合了各種學(xué)習(xí)方法,且形式多樣的集成學(xué)習(xí)系統(tǒng)研究正在興起。

(3)機器學(xué)習(xí)與人工智能各種基礎(chǔ)問題的統(tǒng)一性觀點正在形成。

(4)各種學(xué)習(xí)方法的應(yīng)用范圍不斷擴大,部分應(yīng)用研究成果已轉(zhuǎn)化為產(chǎn)品。

(5)與機器學(xué)習(xí)有關(guān)的學(xué)術(shù)活動空前活躍。

研究現(xiàn)狀 編輯本段

機器學(xué)習(xí)是人工智能及模式識別領(lǐng)域的共同研究熱點,其理論和方法已被廣泛應(yīng)用于解決工程應(yīng)用和科學(xué)領(lǐng)域的復(fù)雜問題。2010年的圖靈獎獲得者為哈佛大學(xué)的Leslie vlliant教授,其獲獎工作之一是建立了概率近似正確(Probably Approximate Correct,PAC)學(xué)習(xí)理論;2011年的圖靈獎獲得者為加州大學(xué)洛杉磯分校的Judea Pearll教授,其主要貢獻為建立了以概率統(tǒng)計為理論基礎(chǔ)的人工智能方法。這些研究成果都促進了機器學(xué)習(xí)的發(fā)展和繁榮。

機器學(xué)習(xí)是研究怎樣使用計算機模擬或?qū)崿F(xiàn)人類學(xué)習(xí)活動的科學(xué),是人工智能中最具智能特征,最前沿的研究領(lǐng)域之一。自20世紀(jì)80年代以來,機器學(xué)習(xí)作為實現(xiàn)人工智能的途徑,在人工智能界引起了廣泛的興趣,特別是近十幾年來,機器學(xué)習(xí)領(lǐng)域的研究工作發(fā)展很快,它已成為人工智能的重要課題之一。機器學(xué)習(xí)不僅在基于知識的系統(tǒng)中得到應(yīng)用,而且在自然語言理解、非單調(diào)推理、機器視覺、模式識別等許多領(lǐng)域也得到了廣泛應(yīng)用。一個系統(tǒng)是否具有學(xué)習(xí)能力已成為是否具有“智能”的一個標(biāo)志。機器學(xué)習(xí)的研究主要分為兩類研究方向:第一類是傳統(tǒng)機器學(xué)習(xí)的研究,該類研究主要是研究學(xué)習(xí)機制,注重探索模擬人的學(xué)習(xí)機制;第二類是大數(shù)據(jù)環(huán)境下機器學(xué)習(xí)的研究,該類研究主要是研究如何有效利用信息,注重從巨量數(shù)據(jù)中獲取隱藏的、有效的、可理解的知識。

機器學(xué)習(xí)歷經(jīng)70年的曲折發(fā)展,以深度學(xué)習(xí)為代表借鑒人腦的多分層結(jié)構(gòu)、神經(jīng)元的連接交互信息的逐層分析處理機制,自適應(yīng)、自學(xué)習(xí)的強大并行信息處理能力,在很多方面收獲了突破性進展,其中最有代表性的是圖像識別領(lǐng)域。

傳統(tǒng)機器學(xué)習(xí)的研究現(xiàn)狀

機器學(xué)習(xí)機器學(xué)習(xí)

傳統(tǒng)機器學(xué)習(xí)的研究方向主要包括決策樹、隨機森林、人工神經(jīng)網(wǎng)絡(luò)、貝葉斯學(xué)習(xí)等方面的研究。

決策樹是機器學(xué)習(xí)常見的一種方法。20世紀(jì)末期,機器學(xué)習(xí)研究者J.Ross Quinlan將Shannon的信息論引入到了決策樹算法中,提出了ID3算法。1984年I.Kononenko、E.Roskar和I.Bratko在ID3算法的基礎(chǔ)上提出了AS-SISTANTAlgorithm,這種算法允許類別的取值之間有交集。同年,A.Hart提出了Chi-Squa統(tǒng)計算法,該算法采用了一種基于屬性與類別關(guān)聯(lián)程度的統(tǒng)計量。1984年L.Breiman、C.Ttone、R.Olshen和J.Freidman提出了決策樹剪枝概念,極大地改善了決策樹的性能。1993年,Quinlan在ID3算法的基礎(chǔ)上提出了一種改進算法,即C4.5算法。C4.5算法克服了ID3算法屬性偏向的問題增加了對連續(xù)屬性的處理通過剪枝,在一定程度上避免了“過度適合”現(xiàn)象。但是該算法將連續(xù)屬性離散化時,需要遍歷該屬性的所有值,降低了效率,并且要求訓(xùn)練樣本集駐留在內(nèi)存,不適合處理大規(guī)模數(shù)據(jù)集。2010年Xie提出一種CART算法,該算法是描述給定預(yù)測向量X條件分布變量Y的一個靈活方法,已經(jīng)在許多領(lǐng)域得到了應(yīng)用。CART算法可以處理無序的數(shù)據(jù),采用基尼系數(shù)作為測試屬性的選擇標(biāo)準(zhǔn)。CART算法生成的決策樹精確度較高,但是當(dāng)其生成的決策樹復(fù)雜度超過一定程度后,隨著復(fù)雜度的提高,分類精確度會降低,所以該算法建立的決策樹不宜太復(fù)雜。2007年房祥飛表述了一種叫SLIQ(決策樹分類)算法,這種算法的分類精度與其他決策樹算法不相上下,但其執(zhí)行的速度比其他決策樹算法快,它對訓(xùn)練樣本集的樣本數(shù)量以及屬性的數(shù)量沒有限制。SLIQ算法能夠處理大規(guī)模的訓(xùn)練樣本集,具有較好的伸縮性;執(zhí)行速度快而且能生成較小的二叉決策樹。SLIQ算法允許多個處理器同時處理屬性表,從而實現(xiàn)了并行性。但是SLIQ算法依然不能擺脫主存容量的限制。2000年RajeevRaSto等提出了PUBLIC算法,該算法是對尚未完全生成的決策樹進行剪枝,因而提高了效率。近幾年模糊決策樹也得到了蓬勃發(fā)展。研究者考慮到屬性間的相關(guān)性提出了分層回歸算法、約束分層歸納算法和功能樹算法,這三種算法都是基于多分類器組合的決策樹算法,它們對屬性間可能存在的相關(guān)性進行了部分實驗和研究,但是這些研究并沒有從總體上闡述屬性間的相關(guān)性是如何影響決策樹性能。此外,還有很多其他的算法,如Zhang.J于2014年提出的一種基于粗糙集的優(yōu)化算法、Wang.R在2015年提出的基于極端學(xué)習(xí)樹的算法模型等。

隨機森林(RF)作為機器學(xué)習(xí)重要算法之一,是一種利用多個樹分類器進行分類和預(yù)測的方法。近年來,隨機森林算法研究的發(fā)展十分迅速,已經(jīng)在生物信息學(xué)、生態(tài)學(xué)、醫(yī)學(xué)、遺傳學(xué)、遙感地理學(xué)等多領(lǐng)域開展的應(yīng)用性研究。

人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANN)是一種具有非線性適應(yīng)性信息處理能力的算法,可克服傳統(tǒng)人工智能方法對于直覺,如模式、語音識別、非結(jié)構(gòu)化信息處理方面的缺陷。早在20世紀(jì)40年代人工神經(jīng)網(wǎng)絡(luò)已經(jīng)受到關(guān)注,并隨后得到迅速發(fā)展。

貝葉斯學(xué)習(xí)是機器學(xué)習(xí)較早的研究方向,其方法最早起源于英國數(shù)學(xué)家托馬斯,貝葉斯在1763年所證明的一個關(guān)于貝葉斯定理的一個特例。經(jīng)過多位統(tǒng)計學(xué)家的共同努力,貝葉斯統(tǒng)計在20世紀(jì)50年代之后逐步建立起來,成為統(tǒng)計學(xué)中一個重要的組成部分。

大數(shù)據(jù)環(huán)境下機器學(xué)習(xí)的研究現(xiàn)狀

大數(shù)據(jù)的價值體現(xiàn)主要集中在數(shù)據(jù)的轉(zhuǎn)向以及數(shù)據(jù)的信息處理能力等等。在產(chǎn)業(yè)發(fā)展的今天,大數(shù)據(jù)時代的到來,對數(shù)據(jù)的轉(zhuǎn)換,數(shù)據(jù)的處理數(shù)據(jù)的存儲等帶來了更好的技術(shù)支持,產(chǎn)業(yè)升級和新產(chǎn)業(yè)誕生形成了一種推動力量,讓大數(shù)據(jù)能夠針對可發(fā)現(xiàn)事物的程序進行自動規(guī)劃,實現(xiàn)人類用戶以計算機信息之間的協(xié)調(diào)。另外現(xiàn)有的許多機器學(xué)習(xí)方法是建立在內(nèi)存理論基礎(chǔ)上的。大數(shù)據(jù)還無法裝載進計算機內(nèi)存的情況下,是無法進行諸多算法的處理的,因此應(yīng)提出新的機器學(xué)習(xí)算法,以適應(yīng)大數(shù)據(jù)處理的需要。大數(shù)據(jù)環(huán)境下的機器學(xué)習(xí)算法,依據(jù)一定的性能標(biāo)準(zhǔn),對學(xué)習(xí)結(jié)果的重要程度可以予以忽視。采用分布式和并行計算的方式進行分治策略的實施,可以規(guī)避掉噪音數(shù)據(jù)和冗余帶來的干擾,降低存儲耗費,同時提高學(xué)習(xí)算法的運行效率。

隨著大數(shù)據(jù)時代各行業(yè)對數(shù)據(jù)分析需求的持續(xù)增加,通過機器學(xué)習(xí)高效地獲取知識,已逐漸成為當(dāng)今機器學(xué)習(xí)技術(shù)發(fā)展的主要推動力。大數(shù)據(jù)時代的機器學(xué)習(xí)更強調(diào)“學(xué)習(xí)本身是手段"機器學(xué)習(xí)成為一種支持和服務(wù)技術(shù)。如何基于機器學(xué)習(xí)對復(fù)雜多樣的數(shù)據(jù)進行深層次的分析,更高效地利用信息成為當(dāng)前大數(shù)據(jù)環(huán)境下機器學(xué)習(xí)研究的主要方向。所以,機器學(xué)習(xí)越來越朝著智能數(shù)據(jù)分析的方向發(fā)展,并已成為智能數(shù)據(jù)分析技術(shù)的一個重要源泉。另外,在大數(shù)據(jù)時代,隨著數(shù)據(jù)產(chǎn)生速度的持續(xù)加快,數(shù)據(jù)的體量有了前所未有的增長,而需要分析的新的數(shù)據(jù)種類也在不斷涌現(xiàn),如文本的理解、文本情感的分析、圖像的檢索和理解、圖形和網(wǎng)絡(luò)數(shù)據(jù)的分析等。使得大數(shù)據(jù)機器學(xué)習(xí)和數(shù)據(jù)挖掘等智能計算技術(shù)在大數(shù)據(jù)智能化分析處理應(yīng)用中具有極其重要的作用。在2014年12月中國計算機學(xué)會(CCF)大數(shù)據(jù)專家委員會上通過數(shù)百位大數(shù)據(jù)相關(guān)領(lǐng)域?qū)W者和技術(shù)專家投票推選出的“2015年大數(shù)據(jù)十大熱點技術(shù)與發(fā)展趨勢”中,結(jié)合機器學(xué)習(xí)等智能計算技術(shù)的大數(shù)據(jù)分析技術(shù)被推選為大數(shù)據(jù)領(lǐng)域第一大研究熱點和發(fā)展趨勢。

機器分類 編輯本段

幾十年來,研究發(fā)表的機器學(xué)習(xí)的方法種類很多,根據(jù)強調(diào)側(cè)面的不同可以有多種分類方法。

基于學(xué)習(xí)策略的分類

(1)模擬人腦的機器學(xué)習(xí)

符號學(xué)習(xí):模擬人腦的宏現(xiàn)心理級學(xué)習(xí)過程,以認知心理學(xué)原理為基礎(chǔ),以符號數(shù)據(jù)為輸入,以符號運算為方法,用推理過程在圖或狀態(tài)空間中搜索,學(xué)習(xí)的目標(biāo)為概念或規(guī)則等。符號學(xué)習(xí)的典型方法有記憶學(xué)習(xí)、示例學(xué)習(xí)、演繹學(xué)習(xí).類比學(xué)習(xí)、解釋學(xué)習(xí)等。

神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)(或連接學(xué)習(xí)):模擬人腦的微觀生理級學(xué)習(xí)過程,以腦和神經(jīng)科學(xué)原理為基礎(chǔ),以人工神經(jīng)網(wǎng)絡(luò)為函數(shù)結(jié)構(gòu)模型,以數(shù)值數(shù)據(jù)為輸人,以數(shù)值運算為方法,用迭代過程在系數(shù)向量空間中搜索,學(xué)習(xí)的目標(biāo)為函數(shù)。典型的連接學(xué)習(xí)有權(quán)值修正學(xué)習(xí)、拓撲結(jié)構(gòu)學(xué)習(xí)。

(2)直接采用數(shù)學(xué)方法的機器學(xué)習(xí)

主要有統(tǒng)計機器學(xué)習(xí)。

統(tǒng)計機器學(xué)習(xí)是基于對數(shù)據(jù)的初步認識以及學(xué)習(xí)目的的分析,選擇合適的數(shù)學(xué)模型,擬定超參數(shù),并輸入樣本數(shù)據(jù),依據(jù)一定的策略,運用合適的學(xué)習(xí)算法對模型進行訓(xùn)練,最后運用訓(xùn)練好的模型對數(shù)據(jù)進行分析預(yù)測。

統(tǒng)計機器學(xué)習(xí)三個要素:

模型(model):模型在未進行訓(xùn)練前,其可能的參數(shù)是多個甚至無窮的,故可能的模型也是多個甚至無窮的,這些模型構(gòu)成的集合就是假設(shè)空間。

策略(strategy):即從假設(shè)空間中挑選出參數(shù)最優(yōu)的模型的準(zhǔn)則。模型的分類或預(yù)測結(jié)果與實際情況的誤差(損失函數(shù))越小,模型就越好。那么策略就是誤差最小。

算法(algorithm):即從假設(shè)空間中挑選模型的方法(等同于求解最佳的模型參數(shù))。機器學(xué)習(xí)的參數(shù)求解通常都會轉(zhuǎn)化為最優(yōu)化問題,故學(xué)習(xí)算法通常是最優(yōu)化算法,例如最速梯度下降法、牛頓法以及擬牛頓法等。

基于學(xué)習(xí)方法的分類

(1)歸納學(xué)習(xí)

符號歸納學(xué)習(xí):典型的符號歸納學(xué)習(xí)有示例學(xué)習(xí)、決策樹學(xué)習(xí)。

函數(shù)歸納學(xué)習(xí)(發(fā)現(xiàn)學(xué)習(xí)):典型的函數(shù)歸納學(xué)習(xí)有神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)、示例學(xué)習(xí)、發(fā)現(xiàn)學(xué)習(xí)、統(tǒng)計學(xué)習(xí)。

(2)演繹學(xué)習(xí)

(3)類比學(xué)習(xí):典型的類比學(xué)習(xí)有案例(范例)學(xué)習(xí)。

(4)分析學(xué)習(xí):典型的分析學(xué)習(xí)有解釋學(xué)習(xí)、宏操作學(xué)習(xí)。

基于學(xué)習(xí)方式的分類

(1)監(jiān)督學(xué)習(xí)(有導(dǎo)師學(xué)習(xí)):輸入數(shù)據(jù)中有導(dǎo)師信號,以概率函數(shù)、代數(shù)函數(shù)或人工神經(jīng)網(wǎng)絡(luò)為基函數(shù)模型,采用迭代計算方法,學(xué)習(xí)結(jié)果為函數(shù)。

(2)無監(jiān)督學(xué)習(xí)(無導(dǎo)師學(xué)習(xí)):輸入數(shù)據(jù)中無導(dǎo)師信號,采用聚類方法,學(xué)習(xí)結(jié)果為類別。典型的無導(dǎo)師學(xué)習(xí)有發(fā)現(xiàn)學(xué)習(xí)、聚類、競爭學(xué)習(xí)等。

(3)強化學(xué)習(xí)(增強學(xué)習(xí)):以環(huán)境反饋(獎/懲信號)作為輸入,以統(tǒng)計和動態(tài)規(guī)劃技術(shù)為指導(dǎo)的一種學(xué)習(xí)方法。

基于數(shù)據(jù)形式的分類

(1)結(jié)構(gòu)化學(xué)習(xí):以結(jié)構(gòu)化數(shù)據(jù)為輸人,以數(shù)值計算或符號推演為方法。典型的結(jié)構(gòu)化學(xué)習(xí)有神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)、統(tǒng)計學(xué)習(xí)、決策樹學(xué)習(xí)、規(guī)則學(xué)習(xí)。

(2)非結(jié)構(gòu)化學(xué)習(xí):以非結(jié)構(gòu)化數(shù)據(jù)為輸人,典型的非結(jié)構(gòu)化學(xué)習(xí)有類比學(xué)習(xí)案例學(xué)習(xí)、解釋學(xué)習(xí)、文本挖掘、圖像挖掘、Web挖掘等。

基于學(xué)習(xí)目標(biāo)的分類

(1)概念學(xué)習(xí):學(xué)習(xí)的目標(biāo)和結(jié)果為概念,或者說是為了獲得概念的學(xué)習(xí)。典型的概念學(xué)習(xí)主要有示例學(xué)習(xí)。

(2)規(guī)則學(xué)習(xí):學(xué)習(xí)的目標(biāo)和結(jié)果為規(guī)則,或者為了獲得規(guī)則的學(xué)習(xí)。典型規(guī)則學(xué)習(xí)主要有決策樹學(xué)習(xí)。

(3)函數(shù)學(xué)習(xí):學(xué)習(xí)的目標(biāo)和結(jié)果為函數(shù),或者說是為了獲得函數(shù)的學(xué)習(xí)。典型函數(shù)學(xué)習(xí)主要有神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)。

(4)類別學(xué)習(xí):學(xué)習(xí)的目標(biāo)和結(jié)果為對象類,或者說是為了獲得類別的學(xué)習(xí)。典型類別學(xué)習(xí)主要有聚類分析。

(5)貝葉斯網(wǎng)絡(luò)學(xué)習(xí):學(xué)習(xí)的目標(biāo)和結(jié)果是貝葉斯網(wǎng)絡(luò),或者說是為了獲得貝葉斯網(wǎng)絡(luò)的一種學(xué)習(xí)。其又可分為結(jié)構(gòu)學(xué)習(xí)和多數(shù)學(xué)習(xí)。

常見算法 編輯本段

決策樹算法

決策樹及其變種是一類將輸入空間分成不同的區(qū)域,每個區(qū)域有獨立參數(shù)的算法。決策樹算法充分利用了樹形模型,根節(jié)點到一個葉子節(jié)點是一條分類的路徑規(guī)則,每個葉子節(jié)點象征一個判斷類別。先將樣本分成不同的子集,再進行分割遞推,直至每個子集得到同類型的樣本,從根節(jié)點開始測試,到子樹再到葉子節(jié)點,即可得出預(yù)測類別。此方法的特點是結(jié)構(gòu)簡單、處理數(shù)據(jù)效率較高。

樸素貝葉斯算法

樸素貝葉斯算法是一種分類算法。它不是單一算法,而是一系列算法,它們都有一個共同的原則,即被分類的每個特征都與任何其他特征的值無關(guān)。樸素貝葉斯分類器認為這些“特征”中的每一個都獨立地貢獻概率,而不管特征之間的任何相關(guān)性。然而,特征并不總是獨立的,這通常被視為樸素貝葉斯算法的缺點。簡而言之,樸素貝葉斯算法允許我們使用概率給出一組特征來預(yù)測一個類。與其他常見的分類方法相比,樸素貝葉斯算法需要的訓(xùn)練很少。在進行預(yù)測之前必須完成的唯一工作是找到特征的個體概率分布的參數(shù),這通常可以快速且確定地完成。這意味著即使對于高維數(shù)據(jù)點或大量數(shù)據(jù)點,樸素貝葉斯分類器也可以表現(xiàn)良好。

支持向量機算法

基本思想可概括如下:首先,要利用一種變換將空間高維化,當(dāng)然這種變換是非線性的,然后,在新的復(fù)雜空間取最優(yōu)線性分類表面[8]。由此種方式獲得的分類函數(shù)在形式上類似于神經(jīng)網(wǎng)絡(luò)算法。支持向量機是統(tǒng)計學(xué)習(xí)領(lǐng)域中一個代表性算法,但它與傳統(tǒng)方式的思維方法很不同,輸入空間、提高維度從而將問題簡短化,使問題歸結(jié)為線性可分的經(jīng)典解問題。支持向量機應(yīng)用于垃圾郵件識別,人臉識別等多種分類問題。

隨機森林算法

控制數(shù)據(jù)樹生成的方式有多種,根據(jù)前人的經(jīng)驗,大多數(shù)時候更傾向選擇分裂屬性和剪枝,但這并不能解決所有問題,偶爾會遇到噪聲或分裂屬性過多的問題。基于這種情況,總結(jié)每次的結(jié)果可以得到袋外數(shù)據(jù)的估計誤差,將它和測試樣本的估計誤差相結(jié)合可以評估組合樹學(xué)習(xí)器的擬合及預(yù)測精度。此方法的優(yōu)點有很多,可以產(chǎn)生高精度的分類器,并能夠處理大量的變數(shù),也可以平衡分類資料集之間的誤差。

人工神經(jīng)網(wǎng)絡(luò)算法

人工神經(jīng)網(wǎng)絡(luò)與神經(jīng)元組成的異常復(fù)雜的網(wǎng)絡(luò)此大體相似,是個體單元互相連接而成,每個單元有數(shù)值量的輸入和輸出,形式可以為實數(shù)或線性組合函數(shù)。它先要以一種學(xué)習(xí)準(zhǔn)則去學(xué)習(xí),然后才能進行工作。當(dāng)網(wǎng)絡(luò)判斷錯誤時,通過學(xué)習(xí)使其減少犯同樣錯誤的可能性。此方法有很強的泛化能力和非線性映射能力,可以對信息量少的系統(tǒng)進行模型處理。從功能模擬角度看具有并行性,且傳遞信息速度極快。

Boosting與Bagging算法

Boosting是種通用的增強基礎(chǔ)算法性能的回歸分析算法。不需構(gòu)造一個高精度的回歸分析,只需一個粗糙的基礎(chǔ)算法即可,再反復(fù)調(diào)整基礎(chǔ)算法就可以得到較好的組合回歸模型。它可以將弱學(xué)習(xí)算法提高為強學(xué)習(xí)算法,可以應(yīng)用到其它基礎(chǔ)回歸算法,如線性回歸、神經(jīng)網(wǎng)絡(luò)等,來提高精度。Bagging和前一種算法大體相似但又略有差別,主要想法是給出已知的弱學(xué)習(xí)算法和訓(xùn)練集,它需要經(jīng)過多輪的計算,才可以得到預(yù)測函數(shù)列,最后采用投票方式對示例進行判別。

關(guān)聯(lián)規(guī)則算法

關(guān)聯(lián)規(guī)則是用規(guī)則去描述兩個變量或多個變量之間的關(guān)系,是客觀反映數(shù)據(jù)本身性質(zhì)的方法。它是機器學(xué)習(xí)的一大類任務(wù),可分為兩個階段,先從資料集中找到高頻項目組,再去研究它們的關(guān)聯(lián)規(guī)則。其得到的分析結(jié)果即是對變量間規(guī)律的總結(jié)。

EM(期望最大化)算法

在進行機器學(xué)習(xí)的過程中需要用到極大似然估計等參數(shù)估計方法,在有潛在變量的情況下,通常選擇EM算法,不是直接對函數(shù)對象進行極大估計,而是添加一些數(shù)據(jù)進行簡化計算,再進行極大化模擬。它是對本身受限制或比較難直接處理的數(shù)據(jù)的極大似然估計算法。

深度學(xué)習(xí)

深度學(xué)習(xí)(DL,Deep Learning)是機器學(xué)習(xí)(ML,Machine Learning)領(lǐng)域中一個新的研究方向,它被引入機器學(xué)習(xí)使其更接近于最初的目標(biāo)——人工智能(AI,Artificial Intelligence)。

深度學(xué)習(xí)是學(xué)習(xí)樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次,這些學(xué)習(xí)過程中獲得的信息對諸如文字,圖像和聲音等數(shù)據(jù)的解釋有很大的幫助。它的最終目標(biāo)是讓機器能夠像人一樣具有分析學(xué)習(xí)能力,能夠識別文字、圖像和聲音等數(shù)據(jù)。深度學(xué)習(xí)是一個復(fù)雜的機器學(xué)習(xí)算法,在語音和圖像識別方面取得的效果,遠遠超過先前相關(guān)技術(shù)。

深度學(xué)習(xí)在搜索技術(shù)、數(shù)據(jù)挖掘、機器學(xué)習(xí)、機器翻譯、自然語言處理、多媒體學(xué)習(xí)、語音、推薦和個性化技術(shù),以及其他相關(guān)領(lǐng)域都取得了很多成果。深度學(xué)習(xí)使機器模仿視聽和思考等人類的活動,解決了很多復(fù)雜的模式識別難題,使得人工智能相關(guān)技術(shù)取得了很大進步。

應(yīng)用范圍 編輯本段

機器學(xué)習(xí)應(yīng)用廣泛,無論是在軍事領(lǐng)域還是民用領(lǐng)域,都有機器學(xué)習(xí)算法施展的機會,主要包括以下幾個方面。

數(shù)據(jù)分析與挖掘

“數(shù)據(jù)挖掘”和"數(shù)據(jù)分析”通常被相提并論,并在許多場合被認為是可以相互替代的術(shù)語。關(guān)于數(shù)據(jù)挖掘,已有多種文字不同但含義接近的定義,例如“識別出巨量數(shù)據(jù)中有效的.新穎的、潛在有用的最終可理解的模式的非平凡過程”,無論是數(shù)據(jù)分析還是數(shù)據(jù)挖掘,都是幫助人們收集、分析數(shù)據(jù),使之成為信息,并做出判斷,因此可以將這兩項合稱為數(shù)據(jù)分析與挖掘。

數(shù)據(jù)分析與挖掘技術(shù)是機器學(xué)習(xí)算法和數(shù)據(jù)存取技術(shù)的結(jié)合,利用機器學(xué)習(xí)提供的統(tǒng)計分析、知識發(fā)現(xiàn)等手段分析海量數(shù)據(jù),同時利用數(shù)據(jù)存取機制實現(xiàn)數(shù)據(jù)的高效讀寫。機器學(xué)習(xí)在數(shù)據(jù)分析與挖掘領(lǐng)域中擁有無可取代的地位,2012年Hadoop進軍機器學(xué)習(xí)領(lǐng)域就是一個很好的例子。

模式識別

模式識別起源于工程領(lǐng)域,而機器學(xué)習(xí)起源于計算機科學(xué),這兩個不同學(xué)科的結(jié)合帶來了模式識別領(lǐng)域的調(diào)整和發(fā)展。模式識別研究主要集中在兩個方面。

(1)研究生物體(包括人)是如何感知對象的,屬于認識科學(xué)的范疇。

(2)在給定的任務(wù)下,如何用計算機實現(xiàn)模式識別的理論和方法,這些是機器學(xué)習(xí)的長項,也是機器學(xué)習(xí)研究的內(nèi)容之一。

模式識別的應(yīng)用領(lǐng)域廣泛,包括計算機視覺、醫(yī)學(xué)圖像分析、光學(xué)文字識別、自然語言處理、語音識別、手寫識別、生物特征識別、文件分類、搜索引擎等,而這些領(lǐng)域也正是機器學(xué)習(xí)大展身手的舞臺,因此模式識別與機器學(xué)習(xí)的關(guān)系越來越密切。

在生物信息學(xué)上的應(yīng)用

隨著基因組和其他測序項目的不斷發(fā)展,生物信息學(xué)研究的重點正逐步從積累數(shù)據(jù)轉(zhuǎn)移到如何解釋這些數(shù)據(jù)。在未來,生物學(xué)的新發(fā)現(xiàn)將極大地依賴于我們在多個維度和不同尺度下對多樣化的數(shù)據(jù)進行組合和關(guān)聯(lián)的分析能力,而不再僅僅依賴于對傳統(tǒng)領(lǐng)域的繼續(xù)關(guān)注。序列數(shù)據(jù)將與結(jié)構(gòu)和功能數(shù)據(jù)基因表達數(shù)據(jù)、生化反應(yīng)通路數(shù)據(jù)表現(xiàn)型和臨床數(shù)據(jù)等一系列數(shù)據(jù)相互集成。如此大量的數(shù)據(jù),在生物信息的存儲、獲取、處理、瀏覽及可視化等方面,都對理論算法和軟件的發(fā)展提出了迫切的需求。另外,由于基因組數(shù)據(jù)本身的復(fù)雜性也對理論算法和軟件的發(fā)展提出了迫切的需求。而機器學(xué)習(xí)方法例如神經(jīng)網(wǎng)絡(luò)、遺傳算法、決策樹和支持向量機等正適合于處理這種數(shù)據(jù)量大、含有噪聲并且缺乏統(tǒng)一理論的領(lǐng)域。

更廣闊的領(lǐng)域

國外的IT巨頭正在深入研究和應(yīng)用機器學(xué)習(xí),他們把目標(biāo)定位于全面模仿人類大腦,試圖創(chuàng)造出擁有人類智慧的機器大腦。

2012年Google在人工智能領(lǐng)域發(fā)布了一個劃時代的產(chǎn)品一人腦模擬軟件,這個軟件具備自我學(xué)習(xí)功能。模擬腦細胞的相互交流,可以通過看YouTube視頻學(xué)習(xí)識別貓、人以及其他事物。當(dāng)有數(shù)據(jù)被送達這個神經(jīng)網(wǎng)絡(luò)的時候,不同神經(jīng)元之間的關(guān)系就會發(fā)生改變。而這也使得神經(jīng)網(wǎng)絡(luò)能夠得到對某些特定數(shù)據(jù)的反應(yīng)機制,據(jù)悉這個網(wǎng)絡(luò)已經(jīng)學(xué)到了一些東西,Google將有望在多個領(lǐng)域使用這一新技術(shù),最先獲益的可能是語音識別。

具體應(yīng)用

(1)虛擬助手。Siri,Alexa,Google?Now都是虛擬助手。顧名思義,當(dāng)使用語音發(fā)出指令后,它們會協(xié)助查找信息。對于回答,虛擬助手會查找信息,回憶我們的相關(guān)查詢,或向其他資源(如電話應(yīng)用程序)發(fā)送命令以收集信息。我們甚至可以指導(dǎo)助手執(zhí)行某些任務(wù),例如“設(shè)置7點的鬧鐘”等。

(2)交通預(yù)測。生活中我們經(jīng)常使用GPS導(dǎo)航服務(wù)。當(dāng)我們這樣做時,我們當(dāng)前的位置和速度被保存在中央服務(wù)器上來進行流量管理。之后使用這些數(shù)據(jù)用于構(gòu)建當(dāng)前流量的映射。通過機器學(xué)習(xí)可以解決配備GPS的汽車數(shù)量較少的問題,在這種情況下的機器學(xué)習(xí)有助于根據(jù)估計找到擁擠的區(qū)域。

(3)過濾垃圾郵件和惡意軟件。電子郵件客戶端使用了許多垃圾郵件過濾方法。為了確保這些垃圾郵件過濾器能夠不斷更新,它們使用了機器學(xué)習(xí)技術(shù)。多層感知器和決策樹歸納等是由機器學(xué)習(xí)提供支持的一些垃圾郵件過濾技術(shù)。每天檢測到超過325000個惡意軟件,每個代碼與之前版本的90%~98%相似。由機器學(xué)習(xí)驅(qū)動的系統(tǒng)安全程序理解編碼模式。因此,他們可以輕松檢測到2%~10%變異的新惡意軟件,并提供針對它們的保護。

研究意義 編輯本段

學(xué)習(xí)是人類具有的一種重要智能行為,但究竟什么是學(xué)習(xí),長期以來卻眾說紛紜。社會學(xué)家、邏輯學(xué)家和心理學(xué)家都各有其不同的看法。

比如,Langley(1996) 定義的機器學(xué)習(xí)是“機器學(xué)習(xí)是一門人工智能的科學(xué),該領(lǐng)域的主要研究對象是人工智能,特別是如何在經(jīng)驗學(xué)習(xí)中改善具體算法的性能”。(Machine learning is a science of the artificial. The field's main objects of study are artifacts, specifically algorithms that improve their performance with experience.')

Tom Mitchell的機器學(xué)習(xí)(1997)對信息論中的一些概念有詳細的解釋,其中定義機器學(xué)習(xí)時提到,“機器學(xué)習(xí)是對能通過經(jīng)驗自動改進的計算機算法的研究”。(Machine Learning is the study of computer algorithms that improve automatically through experience.)

Alpaydin(2004)同時提出自己對機器學(xué)習(xí)的定義,“機器學(xué)習(xí)是用數(shù)據(jù)或以往的經(jīng)驗,以此優(yōu)化計算機程序的性能標(biāo)準(zhǔn)?!保∕achine learning is programming computers to optimize a performance criterion using example data or past experience.)

盡管如此,為了便于進行討論和估計學(xué)科的進展,有必要對機器學(xué)習(xí)給出定義,即使這種定義是不完全的和不充分的。顧名思義,機器學(xué)習(xí)是研究如何使用機器來模擬人類學(xué)習(xí)活動的一門學(xué)科。稍為嚴(yán)格的提法是:機器學(xué)習(xí)是一門研究機器獲取新知識和新技能,并識別現(xiàn)有知識的學(xué)問。這里所說的“機器”,指的就是計算機,電子計算機,中子計算機、光子計算機或神經(jīng)計算機等等。

機器能否象人類一樣能具有學(xué)習(xí)能力呢?1959年美國的塞繆爾(Samuel)設(shè)計了一個下棋程序,這個程序具有學(xué)習(xí)能力,它可以在不斷的對弈中改善自己的棋藝。4年后,這個程序戰(zhàn)勝了設(shè)計者本人。又過了3年,這個程序戰(zhàn)勝了美國一個保持8年之久的常勝不敗的冠軍。這個程序向人們展示了機器學(xué)習(xí)的能力,提出了許多令人深思的社會問題與哲學(xué)問題。

機器的能力是否能超過人的,很多持否定意見的人的一個主要論據(jù)是:機器是人造的,其性能和動作完全是由設(shè)計者規(guī)定的,因此無論如何其能力也不會超過設(shè)計者本人。這種意見對不具備學(xué)習(xí)能力的機器來說的確是對的,可是對具備學(xué)習(xí)能力的機器就值得考慮了,因為這種機器的能力在應(yīng)用中不斷地提高,過一段時間之后,設(shè)計者本人也不知它的能力到了何種水平。

機器學(xué)習(xí)有下面幾種定義: “機器學(xué)習(xí)是一門人工智能的科學(xué),該領(lǐng)域的主要研究對象是人工智能,特別是如何在經(jīng)驗學(xué)習(xí)中改善具體算法的性能”。 “機器學(xué)習(xí)是對能通過經(jīng)驗自動改進的計算機算法的研究”。 “機器學(xué)習(xí)是用數(shù)據(jù)或以往的經(jīng)驗,以此優(yōu)化計算機程序的性能標(biāo)準(zhǔn)?!币环N經(jīng)常引用的英文定義是:A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.

機器學(xué)習(xí)已經(jīng)有了十分廣泛的應(yīng)用,例如:數(shù)據(jù)挖掘、計算機視覺、自然語言處理、生物特征識別、搜索引擎、醫(yī)學(xué)診斷、檢測信用卡欺詐、證券市場分析、DNA序列測序、語音和手寫識別、戰(zhàn)略游戲和機器人運用。

發(fā)展歷史 編輯本段

機器學(xué)習(xí)是人工智能研究較為年輕的分支,它的發(fā)展過程大體上可分為4個時期。

第一階段是在20世紀(jì)50年代中葉到60年代中葉,屬于熱烈時期。

第二階段是在20世紀(jì)60年代中葉至70年代中葉,被稱為機器學(xué)習(xí)的冷靜時期。

第三階段是從20世紀(jì)70年代中葉至80年代中葉,稱為復(fù)興時期。

機器學(xué)習(xí)的最新階段始于1986年。

機器學(xué)習(xí)進入新階段的重要表現(xiàn)在下列諸方面:

(1)機器學(xué)習(xí)已成為新的邊緣學(xué)科并在高校形成一門課程。它綜合應(yīng)用心理學(xué)、生物學(xué)和神經(jīng)生理學(xué)以及數(shù)學(xué)、自動化和計算機科學(xué)形成機器學(xué)習(xí)理論基礎(chǔ)。

(2)結(jié)合各種學(xué)習(xí)方法,取長補短的多種形式的集成學(xué)習(xí)系統(tǒng)研究正在興起。特別是連接學(xué)習(xí)符號學(xué)習(xí)的耦合可以更好地解決連續(xù)性信號處理中知識與技能的獲取與求精問題而受到重視。

(3)機器學(xué)習(xí)與人工智能各種基礎(chǔ)問題的統(tǒng)一性觀點正在形成。例如學(xué)習(xí)與問題求解結(jié)合進行、知識表達便于學(xué)習(xí)的觀點產(chǎn)生了通用智能系統(tǒng)SOAR的組塊學(xué)習(xí)。類比學(xué)習(xí)與問題求解結(jié)合的基于案例方法已成為經(jīng)驗學(xué)習(xí)的重要方向。

(4)各種學(xué)習(xí)方法的應(yīng)用范圍不斷擴大,一部分已形成商品。歸納學(xué)習(xí)的知識獲取工具已在診斷分類型專家系統(tǒng)中廣泛使用。連接學(xué)習(xí)在聲圖文識別中占優(yōu)勢。分析學(xué)習(xí)已用于設(shè)計綜合型專家系統(tǒng)。遺傳算法與強化學(xué)習(xí)在工程控制中有較好的應(yīng)用前景。與符號系統(tǒng)耦合的神經(jīng)網(wǎng)絡(luò)連接學(xué)習(xí)將在企業(yè)的智能管理與智能機器人運動規(guī)劃中發(fā)揮作用。

(5)與機器學(xué)習(xí)有關(guān)的學(xué)術(shù)活動空前活躍。國際上除每年一次的機器學(xué)習(xí)研討會外,還有計算機學(xué)習(xí)理論會議以及遺傳算法會議。

主要策略 編輯本段

學(xué)習(xí)是一項復(fù)雜的智能活動,學(xué)習(xí)過程與推理過程是緊密相連的,按照學(xué)習(xí)中使用推理的多少,機器學(xué)習(xí)所采用的策略大體上可分為4種——機械學(xué)習(xí)、通過傳授學(xué)習(xí)、類比學(xué)習(xí)和通過事例學(xué)習(xí)。學(xué)習(xí)中所用的推理越多,系統(tǒng)的能力越強。

基本結(jié)構(gòu) 編輯本段

表示學(xué)習(xí)系統(tǒng)的基本結(jié)構(gòu)。環(huán)境向系統(tǒng)的學(xué)習(xí)部分提供某些信息,學(xué)習(xí)部分利用這些信息修改知識庫,以增進系統(tǒng)執(zhí)行部分完成任務(wù)的效能,執(zhí)行部分根據(jù)知識庫完成任務(wù),同時把獲得的信息反饋給學(xué)習(xí)部分。在具體的應(yīng)用中,環(huán)境,知識庫和執(zhí)行部分決定了具體的工作內(nèi)容,學(xué)習(xí)部分所需要解決的問題完全由上述3部分確定。下面我們分別敘述這3部分對設(shè)計學(xué)習(xí)系統(tǒng)的影響。

影響學(xué)習(xí)系統(tǒng)設(shè)計的最重要的因素是環(huán)境向系統(tǒng)提供的信息?;蛘吒唧w地說是信息的質(zhì)量。知識庫里存放的是指導(dǎo)執(zhí)行部分動作的一般原則,但環(huán)境向?qū)W習(xí)系統(tǒng)提供的信息卻是各種各樣的。如果信息的質(zhì)量比較高,與一般原則的差別比較小,則學(xué)習(xí)部分比較容易處理。如果向?qū)W習(xí)系統(tǒng)提供的是雜亂無章的指導(dǎo)執(zhí)行具體動作的具體信息,則學(xué)習(xí)系統(tǒng)需要在獲得足夠數(shù)據(jù)之后,刪除不必要的細節(jié),進行總結(jié)推廣,形成指導(dǎo)動作的一般原則,放入知識庫,這樣學(xué)習(xí)部分的任務(wù)就比較繁重,設(shè)計起來也較為困難。

因為學(xué)習(xí)系統(tǒng)獲得的信息往往是不完全的,所以學(xué)習(xí)系統(tǒng)所進行的推理并不完全是可靠的,它總結(jié)出來的規(guī)則可能正確,也可能不正確。這要通過執(zhí)行效果加以檢驗。正確的規(guī)則能使系統(tǒng)的效能提高,應(yīng)予保留;不正確的規(guī)則應(yīng)予修改或從數(shù)據(jù)庫中刪除。

知識庫是影響學(xué)習(xí)系統(tǒng)設(shè)計的第二個因素。知識的表示有多種形式,比如特征向量、一階邏輯語句、產(chǎn)生式規(guī)則、語義網(wǎng)絡(luò)和框架等等。這些表示方式各有其特點,在選擇表示方式時要兼顧以下4個方面:

(1)表達能力強。

(2)易于推理。

(3)容易修改知識庫。

(4)知識表示易于擴展。

對于知識庫最后需要說明的一個問題是學(xué)習(xí)系統(tǒng)不能在全然沒有任何知識的情況下憑空獲取知識,每一個學(xué)習(xí)系統(tǒng)都要求具有某些知識理解環(huán)境提供的信息,分析比較,做出假設(shè),檢驗并修改這些假設(shè)。因此,更確切地說,學(xué)習(xí)系統(tǒng)是對現(xiàn)有知識的擴展和改進。

執(zhí)行部分是整個學(xué)習(xí)系統(tǒng)的核心,因為執(zhí)行部分的動作就是學(xué)習(xí)部分力求改進的動作。同執(zhí)行部分有關(guān)的問題有3個:復(fù)雜性、反饋和透明性。

代碼示例 編輯本段

本程序?qū)⒏鶕?jù)您的評價判斷執(zhí)行結(jié)果"1+1=2"

實際上僅用了最簡單的if else for語句

這就是一個機器學(xué)習(xí)的例子,通過環(huán)境影響來進行學(xué)習(xí)。

通過本例我們不難看出,在人工錯誤的引導(dǎo)下,機器會給出錯誤的答案1+1不等于2。

所以此類學(xué)習(xí)方法,一定要在正確引導(dǎo)下實踐,否則會得到最壞的結(jié)果。

學(xué)習(xí)完畢后,計算機會記錄本次學(xué)習(xí)結(jié)果,存入數(shù)據(jù)庫,下次執(zhí)行相應(yīng)任務(wù)時,再將結(jié)果調(diào)出執(zhí)行。

學(xué)習(xí)分類 編輯本段

基于學(xué)習(xí)策略的分類

學(xué)習(xí)策略是指學(xué)習(xí)過程中系統(tǒng)所采用的推理策略。一個學(xué)習(xí)系統(tǒng)總是由學(xué)習(xí)和環(huán)境兩部分組成。由環(huán)境(如書本或教師)提供信息,學(xué)習(xí)部分則實現(xiàn)信息轉(zhuǎn)換,用能夠理解的形式記憶下來,并從中獲取有用的信息。在學(xué)習(xí)過程中,學(xué)生(學(xué)習(xí)部分)使用的推理越少,他對教師(環(huán)境)的依賴就越大,教師的負擔(dān)也就越重。學(xué)習(xí)策略的分類標(biāo)準(zhǔn)就是根據(jù)學(xué)生實現(xiàn)信息轉(zhuǎn)換所需的推理多少和難易程度來分類的,依從簡單到復(fù)雜,從少到多的次序分為以下六種基本類型:

1)機械學(xué)習(xí) (Rote learning)

學(xué)習(xí)者無需任何推理或其它的知識轉(zhuǎn)換,直接吸取環(huán)境所提供的信息。如塞繆爾的跳棋程序,紐厄爾和西蒙的LT系統(tǒng)。這類學(xué)習(xí)系統(tǒng)主要考慮的是如何索引存貯的知識并加以利用。系統(tǒng)的學(xué)習(xí)方法是直接通過事先編好、構(gòu)造好的程序來學(xué)習(xí),學(xué)習(xí)者不作任何工作,或者是通過直接接收既定的事實和數(shù)據(jù)進行學(xué)習(xí),對輸入信息不作任何的推理。

2)示教學(xué)習(xí) (Learning from instruction或Learning by being told)

學(xué)生從環(huán)境(教師或其它信息源如教科書等)獲取信息,把知識轉(zhuǎn)換成內(nèi)部可使用的表示形式,并將新的知識和原有知識有機地結(jié)合為一體。所以要求學(xué)生有一定程度的推理能力,但環(huán)境仍要做大量的工作。教師以某種形式提出和組織知識,以使學(xué)生擁有的知識可以不斷地增加。這種學(xué)習(xí)方法和人類社會的學(xué)校教學(xué)方式相似,學(xué)習(xí)的任務(wù)就是建立一個系統(tǒng),使它能接受教導(dǎo)和建議,并有效地存貯和應(yīng)用學(xué)到的知識。不少專家系統(tǒng)在建立知識庫時使用這種方法去實現(xiàn)知識獲取。示教學(xué)習(xí)的一個典型應(yīng)用例是FOO程序。

3)演繹學(xué)習(xí) (Learning by deduction)

學(xué)生所用的推理形式為演繹推理。推理從公理出發(fā),經(jīng)過邏輯變換推導(dǎo)出結(jié)論。這種推理是"保真"變換和特化(specialization)的過程,使學(xué)生在推理過程中可以獲取有用的知識。這種學(xué)習(xí)方法包含宏操作(macro-operation)學(xué)習(xí)、知識編輯和組塊(Chunking)技術(shù)。演繹推理的逆過程是歸納推理。

4)類比學(xué)習(xí) (Learning by analogy)

利用二個不同領(lǐng)域(源域、目標(biāo)域)中的知識相似性,可以通過類比,從源域的知識(包括相似的特征和其它性質(zhì))推導(dǎo)出目標(biāo)域的相應(yīng)知識,從而實現(xiàn)學(xué)習(xí)。類比學(xué)習(xí)系統(tǒng)可以使一個已有的計算機應(yīng)用系統(tǒng)轉(zhuǎn)變?yōu)檫m應(yīng)于新的領(lǐng)域,來完成原先沒有設(shè)計的相類似的功能。

類比學(xué)習(xí)需要比上述三種學(xué)習(xí)方式更多的推理。它一般要求先從知識源(源域)中檢索出可用的知識,再將其轉(zhuǎn)換成新的形式,用到新的狀況(目標(biāo)域)中去。類比學(xué)習(xí)在人類科學(xué)技術(shù)發(fā)展史上起著重要作用,許多科學(xué)發(fā)現(xiàn)就是通過類比得到的。例如著名的盧瑟福類比就是通過將原子結(jié)構(gòu)(目標(biāo)域)同太陽系(源域)作類比,揭示了原子結(jié)構(gòu)的奧秘。

5)基于解釋的學(xué)習(xí) (Explanation-based learning, EBL)

學(xué)生根據(jù)教師提供的目標(biāo)概念、該概念的一個例子、領(lǐng)域理論及可操作準(zhǔn)則,首先構(gòu)造一個解釋來說明為什么該例子滿足目標(biāo)概念,然后將解釋推廣為目標(biāo)概念的一個滿足可操作準(zhǔn)則的充分條件。EBL已被廣泛應(yīng)用于知識庫求精和改善系統(tǒng)的性能。

著名的EBL系統(tǒng)有迪喬恩(G.DeJong)的GENESIS,米切爾(T.Mitchell)的LEXII和LEAP, 以及明頓(S.Minton)等的PRODIGY。

6)歸納學(xué)習(xí) (Learning from induction)

歸納學(xué)習(xí)是由教師或環(huán)境提供某概念的一些實例或反例,讓學(xué)生通過歸納推理得出該概念的一般描述。這種學(xué)習(xí)的推理工作量遠多于示教學(xué)習(xí)和演繹學(xué)習(xí),因為環(huán)境并不提供一般性概念描述(如公理)。從某種程度上說,歸納學(xué)習(xí)的推理量也比類比學(xué)習(xí)大,因為沒有一個類似的概念可以作為"源概念"加以取用。歸納學(xué)習(xí)是最基本的,發(fā)展也較為成熟的學(xué)習(xí)方法,在人工智能領(lǐng)域中已經(jīng)得到廣泛的研究和應(yīng)用。

基于所獲取知識的表示形式分類

學(xué)習(xí)系統(tǒng)獲取的知識可能有:行為規(guī)則、物理對象的描述、問題求解策略、各種分類及其它用于任務(wù)實現(xiàn)的知識類型

對于學(xué)習(xí)中獲取的知識,主要有以下一些表示形式:

1)代數(shù)表達式參數(shù)

學(xué)習(xí)的目標(biāo)是調(diào)節(jié)一個固定函數(shù)形式的代數(shù)表達式參數(shù)或系數(shù)來達到一個理想的性能。

2)決策樹

用決策樹來劃分物體的類屬,樹中每一內(nèi)部節(jié)點對應(yīng)一個物體屬性,而每一邊對應(yīng)于這些屬性的可選值,樹的葉節(jié)點則對應(yīng)于物體的每個基本分類。

3)形式文法

在識別一個特定語言的學(xué)習(xí)中,通過對該語言的一系列表達式進行歸納,形成該語言的形式文法。

4)產(chǎn)生式規(guī)則

產(chǎn)生式規(guī)則表示為條件—動作對,已被極為廣泛地使用。學(xué)習(xí)系統(tǒng)中的學(xué)習(xí)行為主要是:生成、泛化、特化(Specialization)或合成產(chǎn)生式規(guī)則。

5)形式邏輯表達式

形式邏輯表達式的基本成分是命題、謂詞、變量、約束變量范圍的語句,及嵌入的邏輯表達式。

6)圖和網(wǎng)絡(luò)

有的系統(tǒng)采用圖匹配和圖轉(zhuǎn)換方案來有效地比較和索引知識。

7)框架和模式(schema)

每個框架包含一組槽,用于描述事物(概念和個體)的各個方面。

8)計算機程序和其它的過程編碼

獲取這種形式的知識,目的在于取得一種能實現(xiàn)特定過程的能力,而不是為了推斷該過程的內(nèi)部結(jié)構(gòu)。

9)神經(jīng)網(wǎng)絡(luò)

這主要用在聯(lián)接學(xué)習(xí)中。學(xué)習(xí)所獲取的知識,最后歸納為一個神經(jīng)網(wǎng)絡(luò)。

10)多種表示形式的組合

有時一個學(xué)習(xí)系統(tǒng)中獲取的知識需要綜合應(yīng)用上述幾種知識表示形式。

根據(jù)表示的精細程度,可將知識表示形式分為兩大類:泛化程度高的粗粒度符號表示、??泛化程度低的精粒度亞符號(sub-symbolic)表示。像決策樹、形式文法、產(chǎn)生式規(guī)則、形式邏輯表達式、框架和模式等屬于符號表示類;而代數(shù)表達式參數(shù)、圖和網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)等則屬亞符號表示類。

按應(yīng)用領(lǐng)域分類

最主要的應(yīng)用領(lǐng)域有:專家系統(tǒng)、認知模擬、規(guī)劃和問題求解、數(shù)據(jù)挖掘、網(wǎng)絡(luò)信息服務(wù)、圖象識別、故障診斷、自然語言理解、機器人和博弈等領(lǐng)域。

從機器學(xué)習(xí)的執(zhí)行部分所反映的任務(wù)類型上看,大部分的應(yīng)用研究領(lǐng)域基本上集中于以下兩個范疇:分類和問題求解。

(1)分類任務(wù)要求系統(tǒng)依據(jù)已知的分類知識對輸入的未知模式(該模式的描述)作分析,以確定輸入模式的類屬。相應(yīng)的學(xué)習(xí)目標(biāo)就是學(xué)習(xí)用于分類的準(zhǔn)則(如分類規(guī)則)。

(2)問題求解任務(wù)要求對于給定的目標(biāo)狀態(tài),??尋找一個將當(dāng)前狀態(tài)轉(zhuǎn)換為目標(biāo)狀態(tài)的動作序列;機器學(xué)習(xí)在這一領(lǐng)域的研究工作大部分集中于通過學(xué)習(xí)來獲取能提高問題求解效率的知識(如搜索控制知識,啟發(fā)式知識等)。

綜合分類 編輯本段

綜合考慮各種學(xué)習(xí)方法出現(xiàn)的歷史淵源、知識表示、推理策略、結(jié)果評估的相似性、研究人員交流的相對集中性以及應(yīng)用領(lǐng)域等諸因素。將機器學(xué)習(xí)方法區(qū)分為以下六類:

1)經(jīng)驗性歸納學(xué)習(xí) (empirical inductive learning)

經(jīng)驗性歸納學(xué)習(xí)采用一些數(shù)據(jù)密集的經(jīng)驗方法(如版本空間法、ID3法,定律發(fā)現(xiàn)方法)對例子進行歸納學(xué)習(xí)。其例子和學(xué)習(xí)結(jié)果一般都采用屬性、謂詞、關(guān)系等符號表示。它相當(dāng)于基于學(xué)習(xí)策略分類中的歸納學(xué)習(xí),但扣除聯(lián)接學(xué)習(xí)、遺傳算法、加強學(xué)習(xí)的部分。

2)分析學(xué)習(xí)(analytic learning)

分析學(xué)習(xí)方法是從一個或少數(shù)幾個實例出發(fā),運用領(lǐng)域知識進行分析。其主要特征為:

·推理策略主要是演繹,而非歸納;

·使用過去的問題求解經(jīng)驗(實例)指導(dǎo)新的問題求解,或產(chǎn)生能更有效地運用領(lǐng)域知識的搜索控制規(guī)則。

分析學(xué)習(xí)的目標(biāo)是改善系統(tǒng)的性能,而不是新的概念描述。分析學(xué)習(xí)包括應(yīng)用解釋學(xué)習(xí)、演繹學(xué)習(xí)、多級結(jié)構(gòu)組塊以及宏操作學(xué)習(xí)等技術(shù)。

3)類比學(xué)習(xí)

它相當(dāng)于基于學(xué)習(xí)策略分類中的類比學(xué)習(xí)。在這一類型的學(xué)習(xí)中比較引人注目的研究是通過與過去經(jīng)歷的具體事例作類比來學(xué)習(xí),稱為基于范例的學(xué)習(xí)(case_based learning),或簡稱范例學(xué)習(xí)。

4)遺傳算法(genetic algorithm)

遺傳算法模擬生物繁殖的突變、交換和達爾文的自然選擇(在每一生態(tài)環(huán)境中適者生存)。它把問題可能的解編碼為一個向量,稱為個體,向量的每一個元素稱為基因,并利用目標(biāo)函數(shù)(相應(yīng)于自然選擇標(biāo)準(zhǔn))對群體(個體的集合)中的每一個個體進行評價,根據(jù)評價值(適應(yīng)度)對個體進行選擇、交換、變異等遺傳操作,從而得到新的群體。遺傳算法適用于非常復(fù)雜和困難的環(huán)境,比如,帶有大量噪聲和無關(guān)數(shù)據(jù)、事物不斷更新、問題目標(biāo)不能明顯和精確地定義,以及通過很長的執(zhí)行過程才能確定當(dāng)前行為的價值等。同神經(jīng)網(wǎng)絡(luò)一樣,遺傳算法的研究已經(jīng)發(fā)展為人工智能的一個獨立分支,其代表人物為霍勒德(J.H.Holland)。

5)聯(lián)接學(xué)習(xí)

典型的聯(lián)接模型實現(xiàn)為人工神經(jīng)網(wǎng)絡(luò),其由稱為神經(jīng)元的一些簡單計算單元以及單元間的加權(quán)聯(lián)接組成。

6)增強學(xué)習(xí)(reinforcement learning)

增強學(xué)習(xí)的特點是通過與環(huán)境的試探性(trial and error)交互來確定和優(yōu)化動作的選擇,以實現(xiàn)所謂的序列決策任務(wù)。在這種任務(wù)中,學(xué)習(xí)機制通過選擇并執(zhí)行動作,導(dǎo)致系統(tǒng)狀態(tài)的變化,并有可能得到某種強化信號(立即回報),從而實現(xiàn)與環(huán)境的交互。強化信號就是對系統(tǒng)行為的一種標(biāo)量化的獎懲。系統(tǒng)學(xué)習(xí)的目標(biāo)是尋找一個合適的動作選擇策略,即在任一給定的狀態(tài)下選擇哪種動作的方法,使產(chǎn)生的動作序列可獲得某種最優(yōu)的結(jié)果(如累計立即回報最大)。

在綜合分類中,經(jīng)驗歸納學(xué)習(xí)、遺傳算法、聯(lián)接學(xué)習(xí)和增強學(xué)習(xí)均屬于歸納學(xué)習(xí),其中經(jīng)驗歸納學(xué)習(xí)采用符號表示方式,而遺傳算法、聯(lián)接學(xué)習(xí)和加強學(xué)習(xí)則采用亞符號表示方式;分析學(xué)習(xí)屬于演繹學(xué)習(xí)。

實際上,類比策略可看成是歸納和演繹策略的綜合。因而最基本的學(xué)習(xí)策略只有歸納和演繹。

從學(xué)習(xí)內(nèi)容的角度看,采用歸納策略的學(xué)習(xí)由于是對輸入進行歸納,所學(xué)習(xí)的知識顯然超過原有系統(tǒng)知識庫所能蘊涵的范圍,所學(xué)結(jié)果改變了系統(tǒng)的知識演繹閉包, 因而這種類型的學(xué)習(xí)又可稱為知識級學(xué)習(xí);而采用演繹策略的學(xué)習(xí)盡管所學(xué)的知識能提高系統(tǒng)的效率,但仍能被原有系統(tǒng)的知識庫所蘊涵,即所學(xué)的知識未能改變系統(tǒng)的演繹閉包,因而這種類型的學(xué)習(xí)又被稱為符號級學(xué)習(xí)。

學(xué)習(xí)形式 編輯本段

1)監(jiān)督學(xué)習(xí)(supervised learning)

監(jiān)督學(xué)習(xí),即在機械學(xué)習(xí)過程中提供對錯指示。一般是在數(shù)據(jù)組中包含最終結(jié)果(0,1)。通過算法讓機器自我減少誤差。這一類學(xué)習(xí)主要應(yīng)用于分類和預(yù)測 (regression & classify)。監(jiān)督學(xué)習(xí)從給定的訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)出一個函數(shù),當(dāng)新的數(shù)據(jù)到來時,可以根據(jù)這個函數(shù)預(yù)測結(jié)果。監(jiān)督學(xué)習(xí)的訓(xùn)練集要求是包括輸入和輸出,也可以說是特征和目標(biāo)。訓(xùn)練集中的目標(biāo)是由人標(biāo)注的。常見的監(jiān)督學(xué)習(xí)算法包括回歸分析和統(tǒng)計分類。

2)非監(jiān)督學(xué)習(xí)(unsupervised learning)

非監(jiān)督學(xué)習(xí)又稱歸納性學(xué)習(xí)(clustering)利用K方式(Kmeans),建立中心(centriole),通過循環(huán)和遞減運算(iteration&descent)來減小誤差,達到分類的目的。

研究領(lǐng)域 編輯本段

機器學(xué)習(xí)領(lǐng)域的研究工作主要圍繞以下三個方面進行:

(1)面向任務(wù)的研究

研究和分析改進一組預(yù)定任務(wù)的執(zhí)行性能的學(xué)習(xí)系統(tǒng)。

(2)認知模型

研究人類學(xué)習(xí)過程并進行計算機模擬。

(3)理論分析

從理論上探索各種可能的學(xué)習(xí)方法和獨立于應(yīng)用領(lǐng)域的算法

機器學(xué)習(xí)是繼專家系統(tǒng)之后人工智能應(yīng)用的又一重要研究領(lǐng)域,也是人工智能和神經(jīng)計算的核心研究課題之一。現(xiàn)有的計算機系統(tǒng)和人工智能系統(tǒng)沒有什么學(xué)習(xí)能力,至多也只有非常有限的學(xué)習(xí)能力,因而不能滿足科技和生產(chǎn)提出的新要求。對機器學(xué)習(xí)的討論和機器學(xué)習(xí)研究的進展,必將促使人工智能和整個科學(xué)技術(shù)的進一步發(fā)展。

相關(guān)圖書 編輯本段

基本信息

作者:

(美)Tom Mitchell

語種:

簡體中文

ISBN:

7-111-10993-7

開本:

16開

定價:

35.00元

原書名:

Machine Learning

頁數(shù):

280

屬性分類:

教材

出版日期:

2003-01-01

所屬叢書:

計算機類叢書

譯者:

曾華軍 張銀奎 等

試用專業(yè):

計算機

圖書分類:

計算機>人工智能>綜合

包含CD:

原出版社:

出版社:

機械工業(yè)出版社

絕版:

內(nèi)容簡介 編輯本段

本書展示了機器學(xué)習(xí)中核心的算法和理論,并闡明了算法的運行過程。本書綜合了許多的研究成果,例如統(tǒng)計學(xué)、人工智能、哲學(xué)、信息論、生物學(xué)、認知科學(xué)、計算復(fù)雜性和控制論等,并以此來理解問題的背景、算法和其中的隱含假定。本書可作為計算機專業(yè)

本科生、研究生教材,也可作為相關(guān)領(lǐng)域研究人員、教師的參考書。

圖書特色 編輯本段

TOM M.Mitchell是卡內(nèi)基梅隆大學(xué)的教授,講授“機器(AAA)的主席:美國《Machine Learning》雜志、國際機器學(xué)習(xí)年度會議(ICML)的創(chuàng)始人:多種技術(shù)雜志的撰稿人,曾發(fā)表過許多文章,出版過多本專著,是機器學(xué)習(xí)領(lǐng)域的著名學(xué)者。

圖書前言 編輯本段

機器學(xué)習(xí)這門學(xué)科所關(guān)注的問題是:計算機程序如何隨著經(jīng)驗積累自動提高性能。機器學(xué)習(xí)已經(jīng)被成功地應(yīng)用于很多領(lǐng)域,從檢測信用卡交易欺詐的數(shù)據(jù)挖掘程序,到獲取戶閱讀興趣的信息過濾系統(tǒng),再到能在高速公路上自動行駛的汽車。同時,這個學(xué)科的基理論和算法也有了重大進展。

這本教材的目標(biāo)是展現(xiàn)機器學(xué)習(xí)中核心的算法和理論。機器學(xué)習(xí)從很多學(xué)科吸收了成果和概念,包括統(tǒng)計學(xué)、人工智能、哲學(xué)、信息論、生物學(xué)、認知科學(xué)、計算復(fù)雜性和控制等。筆者相信,研究機器學(xué)習(xí)的最佳途徑是從這些學(xué)科的觀點看待機器學(xué)習(xí),并且以此來理解問題的背景、算法以及其中隱含的假定。這些在以往很難做到,因為在這一領(lǐng)域缺少包容廣泛的原始資料,本書的主要目的就是提供這樣的一份資料。

由于素材的多學(xué)科性,本書不要求讀者具有相應(yīng)的知識背景,而是在必要時介紹其他一些學(xué)科的基本概念,如統(tǒng)計學(xué)、人工智能、信息論等。介紹的重點是與機器學(xué)習(xí)關(guān)系最密切甲那些概念。本書可以作為計算機科學(xué)與工程、統(tǒng)計學(xué)和社會科學(xué)等專業(yè)的大學(xué)生或研究生的教材,也可作為軟件研究人員或從業(yè)人員的參考資料。

指導(dǎo)本書寫作的兩條原則為:第一,它是在校大學(xué)生可以理解的;第二,它應(yīng)該包含我希望我自己的博士生在開始他們的器學(xué)習(xí)研究前要掌握的內(nèi)容。

指導(dǎo)本書寫作的第三條原則是:它應(yīng)該體現(xiàn)理論和實踐間的均衡。機器學(xué)習(xí)理論致力于回答這樣的問題“學(xué)習(xí)性能是怎樣隨著給定的訓(xùn)練樣例的數(shù)量而變化的?”和“對于各種同類型的學(xué)習(xí)任務(wù):哪個學(xué)習(xí)算法最適合?”利用來自統(tǒng)計學(xué)、計算復(fù)雜性和貝葉斯分析的理論成果,這本書討論了這一類理論問題。同時本書也涵蓋很多實踐方面的內(nèi)容:介紹了這一領(lǐng)域的主要算法,闡明了算法的運行過程。

其中一些算法的實現(xiàn)和數(shù)據(jù)可以在因特網(wǎng)上通過網(wǎng)址http://www.cs.cmu.edu/-tom/mlbook.html得到,包括用于人臉識別的神經(jīng)網(wǎng)絡(luò)的源代碼和數(shù)據(jù)、用于信貸分析的決策樹學(xué)習(xí)的源代碼和數(shù)據(jù)及分析文本文檔的貝葉分類器的源代碼和數(shù)據(jù)。我很感謝那些幫助我創(chuàng)建這些在線資源的同事,他們是:Jason Rennie、Paul Hsiung、Jeff Shufelt、Matt Glickman、Scott Davies、Joseph O’Sullivan、Ken Lang\Andrew McCallum和Thorsten Joachims。

作品目錄 編輯本段

第1章引言

1.1學(xué)習(xí)問題的標(biāo)準(zhǔn)描述

1.2設(shè)計-個學(xué)習(xí)系統(tǒng)

1.2.1選擇訓(xùn)練經(jīng)驗

1.2.2選擇目標(biāo)函數(shù)

1.2.3選擇目標(biāo)函數(shù)的表示

1. 2.4選擇函數(shù)逼近算法

1.2.5最終設(shè)計

1.3機器學(xué)習(xí)的一些觀點和問題

1.4如何閱讀本書

1.5小結(jié)和補充讀物

習(xí)題

第2章概念學(xué)習(xí)和一般到特殊序

2.1簡介

2.2概念學(xué)習(xí)任務(wù)

2.2.1術(shù)語定義

2.2.2歸納學(xué)習(xí)假設(shè)

2.3作為搜索的概念學(xué)習(xí)

2.4FIND-S:尋找極大特殊假設(shè)

2.5變型空間和候選消除算法

2.5.1表示

2.5.2列表后消除算法

2.5.3變型空間的更簡潔表示

2.5.4候選消除學(xué)習(xí)算法

2.5.5算法的舉例

2.6關(guān)于變型空間和候選消除的說明

2.6.1候選消除算法是否會收斂到正確的假設(shè)

2.6.2下一步需要什么樣的訓(xùn)練樣例

2.6.3怎樣使用不完全學(xué)習(xí)概念

2.7歸納偏置

2.7.1-個有偏的假設(shè)空間

2.7.2無偏的學(xué)習(xí)器

2.7.3無偏學(xué)習(xí)的無用性

2.8小始和補充讀物

習(xí)題

第3章決策樹學(xué)習(xí)

3.1簡介

3.2決策樹表示法

3.3決策樹學(xué)習(xí)的適用問題

3.4基本的決策樹學(xué)習(xí)算法

3.4.1哪個屬性是最佳的分類屬性

3.4.2舉例

3.5決策樹學(xué)習(xí)中的假設(shè)空間搜索

3.6決策樹學(xué)習(xí)的歸納偏置

3.6.1限定偏置和優(yōu)選偏置

3.6.2為什么短的假設(shè)優(yōu)先

3.7決策樹學(xué)習(xí)的常見問題

3.7.1避免過度擬合數(shù)據(jù)

3. 7.2合并連續(xù)值屬性

3.7.3屬性選擇的其他度量標(biāo)準(zhǔn)

3.7.4處理缺少屬性值的訓(xùn)練樣例

3.7.5處理不同代價的屬性

3.8小結(jié)和補充讀物

習(xí)題

第4章人工神經(jīng)網(wǎng)絡(luò)

4.1簡介

4.2神經(jīng)網(wǎng)絡(luò)表示

4.3適合神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的問題

4.4感知器

4.4.1感知器的表征能力

4. 4.2感知器訓(xùn)練法則

4.4.3梯度下降和delta法則

4.4.4小結(jié)

4.5多層網(wǎng)絡(luò)和反向傳播算法

4.5.1可微閾值單元

4.5.2反向傳播算法

4.5.3反向傳播法則的推導(dǎo)

4.6反向傳播算法的說明

4.6.1收斂性和局部極小值

4.6.2前饋網(wǎng)絡(luò)的表征能力

4.6.3假設(shè)空間搜索和歸納偏置

4.6.4隱藏層表示

4.6.5泛化、過度擬合和停止判據(jù)

4.7舉例:人臉識別

4.7.1任務(wù)

4.7.2設(shè)計要素

4.7.3學(xué)習(xí)到的隱藏層表示

4.8人工神經(jīng)網(wǎng)絡(luò)的高級課題

4.8.1其他可選的誤差函數(shù)

4.8.2其他可選的誤差最小化過程

4.8.3遞歸網(wǎng)絡(luò)

4.8.4動態(tài)修改網(wǎng)絡(luò)結(jié)構(gòu)

4.9小結(jié)和補充讀物

習(xí)題

第5章評估假設(shè)

5.1動機

5.2估計假設(shè)精度

5.2.1樣本錯誤率和真實錯誤率

5.2.2離散值假設(shè)的置信區(qū)間

5.3采樣理論基礎(chǔ)

5.3.1錯誤率估計和二項比例估計

5.3.2二項分布

5.3.3均值和方差

5.3.4估計量、偏差和方差

5.3.5置信區(qū)間

5.3.6雙側(cè)和單側(cè)邊界

5.4推導(dǎo)置信區(qū)間的一般方法

5.5兩個假設(shè)錯誤率間的差異

5.6學(xué)習(xí)算法比較

5.6. 1配對t測試

5.6.2實際考慮

5.7小結(jié)和補充讀物

習(xí)題

第6章貝葉斯學(xué)習(xí)

6.1簡介

6.2貝葉斯法則

6.3貝葉斯法則和概念學(xué)習(xí)

6.3.1BRUTE-FORCE貝葉斯概念學(xué)習(xí)

6.3.2MAP假設(shè)和一致學(xué)習(xí)器

6.4極大似然和最小誤差平方假設(shè)

6.5用于預(yù)測概率的極大似然假設(shè)

6.6最小描述長度準(zhǔn)則

6.7貝葉斯最優(yōu)分類器

6.8GIBBS算法

6.9樸素貝葉斯分類器

6.10舉例:學(xué)習(xí)分類文本

6.11貝葉斯信念網(wǎng)

6.11.1條件獨立性

6.11.2表示

6.11.3推理

6.11.4學(xué)習(xí)貝葉斯信念網(wǎng)

6.11.5貝葉斯網(wǎng)的梯度上升訓(xùn)練

6.11.6學(xué)習(xí)貝葉斯網(wǎng)的結(jié)構(gòu)

6.12EM算法

6.12.1估計k個高斯分布的均值

6.12.2EM算法的一般表述

6.12.3k均值算法的推導(dǎo)

6.13小結(jié)和補充讀物

習(xí)題

第7章計算學(xué)習(xí)理論

7.1簡介

7.2可能學(xué)習(xí)近似正確假設(shè)

7.2.1問題框架

7.2.2假設(shè)的錯誤率

7.2.3PAC可學(xué)習(xí)性

7.3有限假設(shè)空間的樣本復(fù)雜度

7.3.1不可知學(xué)習(xí)和不一致假設(shè)

7.3.2布爾文字的合取是PAC可學(xué)習(xí)的

7.3.3其他概念類別的PAC可學(xué)習(xí)性

7.4無限假設(shè)空間的樣本復(fù)雜度

7.4.1打散一個實例集合

7.4.2Vapnik-Chervonenkis維度

7.4.3樣本復(fù)雜度和VC維

7.4.4神經(jīng)網(wǎng)絡(luò)的VC維

7.5學(xué)習(xí)的出錯界限模型

7.5.1FIND-S算法的出錯界限

7.5.2HALVING算法的出錯界限

7.5.3最優(yōu)出錯界限

7.5.4加權(quán)多數(shù)算法

7.6小結(jié)和補充讀物

習(xí)題

第8章基于實例的學(xué)習(xí)

8.1簡介

8.2k-近鄰算法

8.2.1距離加權(quán)最近鄰算法

8.2.2對k-近鄰算法的說明

8.2.3術(shù)語注解

8.3局部加權(quán)回歸

8.3.1局部加權(quán)線性回歸

8.3.2局部加權(quán)回歸的說明

8.4徑向基函數(shù)

8.5基于案例的推理

8.6對消極學(xué)習(xí)和積極學(xué)習(xí)的評論

8.7小結(jié)和補充讀物

習(xí)題

第9章遺傳算法

9.1動機

9.2遺傳算法

9.2.1表示假設(shè)

9.2.2遺傳算子

9.2.3適應(yīng)度函數(shù)和假設(shè)選擇

9.3舉例

9.4假設(shè)空間搜索

9.5遺傳編程

9.5.1程序表示

9.5.2舉例

9.5.3遺傳編程說明

9.6進化和學(xué)習(xí)模型

9.6.1拉馬克進化

9.6.2鮑德溫效應(yīng)

9.7并行遺傳算法

9.8小結(jié)和補充讀物

習(xí)題

第10章學(xué)習(xí)規(guī)則集合

10.1簡介

10.2序列覆蓋算法

10.2.1一般到特殊的柱狀搜索

10.2.2幾種變型

10.3學(xué)習(xí)規(guī)則集:小結(jié)

10.4學(xué)習(xí)一階規(guī)則

10.4.1一階Horn子句

10.4.2術(shù)語

10.5學(xué)習(xí)一階規(guī)則集:FOIL

10.5.1FOIL中的候選特化式的生成

10.5.2引導(dǎo)FOIL的搜索

10.5.3學(xué)習(xí)遞歸規(guī)則集

10.5.4FOIL小結(jié)

10.6作為逆演繹的歸納

10.7逆歸納

10.7.1一階歸納

10.7.2逆歸納:一階情況

10.7.3逆歸納小結(jié)

10.7.4泛化、-包容和涵蘊

10.7.5PROGOL

10.8小結(jié)和補充讀物

習(xí)題

第11章分析學(xué)習(xí)

11.1簡介

11.2用完美的領(lǐng)域理論學(xué)習(xí):PROLOG-EBG

11.3對基于解釋的學(xué)習(xí)的說明

11.3.1發(fā)現(xiàn)新特征

11.3.2演繹學(xué)習(xí)

11.3.3基于解釋的學(xué)習(xí)的歸納偏置

11.3.4知識級的學(xué)習(xí)

11.4搜索控制知識的基于解釋的學(xué)習(xí)

11.5小結(jié)和補充讀物

習(xí)題

第12章歸納和分析學(xué)習(xí)的結(jié)合

12.1動機

12.2學(xué)習(xí)的歸納-分析途徑

12.2.1學(xué)習(xí)問題

12.2.2假設(shè)空間搜索

12.3使用先驗知識得到初始假設(shè)

12.3.1KBANN算法

12.3.2舉例

12.3.3說明

12.4使用先驗知識改變搜索目標(biāo)

12.4.1TANGENTPROP算法

12.4.2舉例

12.4.3說明

12.4.4EBNN算法

12.4.5說明

12.5使用先驗知識來擴展搜索算子

12.5.1FOCL算法

12.5.2說明

12.6研究現(xiàn)狀

12.7小結(jié)和補充讀物

習(xí)題

第13章增強學(xué)習(xí)

13.1簡介

13.2學(xué)習(xí)任務(wù)

13.3Q學(xué)習(xí)

13.3.1Q函數(shù)

13.3.2一個學(xué)習(xí)Q的算法

13.3.3舉例

13.3.4收斂性

13.3.5實驗策略

13.3.6更新序列

13.4非確定性回報和動作

13.5時間差分學(xué)習(xí)

13.6從樣例中泛化

13.7與動態(tài)規(guī)劃的聯(lián)樂

13.8小結(jié)和補充讀物

習(xí)題

附錄符號約定

相關(guān)圖書2

基本信息

原作名:Machine Learning for Hackers

作者:(美)Drew Conway/John Myles White

譯者:陳開江/劉逸哲/孟曉楠/羅森林 審校

出版社:機械工業(yè)出版社

頁數(shù):320

定價:69.00

ISBN:9787111417316

內(nèi)容簡介 編輯本段

這本書為機器學(xué)習(xí)技術(shù)提供了一些非常棒的案例研究。它并不想成為一本關(guān)于機器學(xué)習(xí)的工具書或者理論書籍,它注重的是一個學(xué)習(xí)的過程,因而對于任何有一些編程背景和定量思維的人來說,它都是不錯的選擇。

——Max Shron OkCupid

機器學(xué)習(xí)
機器學(xué)習(xí)是計算機科學(xué)和人工智能中非常重要的一個研究領(lǐng)域,機器學(xué)習(xí)不但在計算機科學(xué)的眾多領(lǐng)域中大顯身手,而且成為一些交叉學(xué)科的重要支撐技術(shù)。本書比較全面系統(tǒng)地介紹了機器學(xué)習(xí)的方法和技術(shù),不僅詳細闡述了許多經(jīng)典的學(xué)習(xí)方法,還討論了一些有生命力的新理論、新方法。全書案例既有分類問題,也有回歸問題;既包含監(jiān)督學(xué)習(xí),也涵蓋無監(jiān)督學(xué)習(xí)。本書討論的案例從分類講到回歸,然后討論了聚類、降維、最優(yōu)化問題等。這些案例包括分類:垃圾郵件識別,排序:智能收件箱,回歸模型:預(yù)測網(wǎng)頁訪問量,正則化:文本回歸,最優(yōu)化:密碼破解,無監(jiān)督學(xué)習(xí):構(gòu)建股票市場指數(shù),空間相似度:用投票記錄對美國參議員聚類,推薦系統(tǒng):給用戶推薦R語言包,社交網(wǎng)絡(luò)分析:在Twitter上感興趣的人,模型比較:給你的問題找到最佳算法。各章對原理的敘述力求概念清晰、表達準(zhǔn)確,突出理論聯(lián)系實際,富有啟發(fā)性,易于理解。在探索這些案例的過程中用到的基本工具就是R統(tǒng)計編程語言。R語言非常適合用于機器學(xué)習(xí)的案例研究,因為它是一種用于數(shù)據(jù)分析的高水平、功能性腳本語言。

本書主要內(nèi)容:

?開發(fā)一個樸素貝葉斯分類器,僅僅根據(jù)郵件的文本信息來判斷這封郵件是否是垃圾郵件;

?使用線性回歸來預(yù)測互聯(lián)網(wǎng)排名前1000網(wǎng)站的PV;

?利用文本回歸理解圖書中詞與詞之間的關(guān)系;

?通過嘗試破譯一個簡單的密碼來學(xué)習(xí)優(yōu)化技術(shù);

?利用無監(jiān)督學(xué)習(xí)構(gòu)建股票市場指數(shù),用于衡量整體市場行情的好壞;

?根據(jù)美國參議院的投票情況,從統(tǒng)計學(xué)的角度對美國參議員聚類;

?通過K近鄰算法構(gòu)建向用戶推薦R語言包;

?利用Twitter數(shù)據(jù)來構(gòu)建一個“你可能感興趣的人”的推薦系統(tǒng);

?模型比較:給你的問題找到最佳算法。

作者簡介 編輯本段

Drew Conway 機器學(xué)習(xí)專家,擁有豐富的數(shù)據(jù)分析與處理工作經(jīng)驗。主要利用數(shù)學(xué)、統(tǒng)計學(xué)和計算機技術(shù)研究國際關(guān)系、沖突和恐怖主義等。他曾作為研究員在美國情報和國防部門供職數(shù)年。他擁有紐約大學(xué)政治系博士學(xué)位,曾為多種雜志撰寫文章,是機器學(xué)習(xí)領(lǐng)域的著名學(xué)者。

John Myles White 機器學(xué)習(xí)專家,擁有豐富的數(shù)據(jù)分析與處理工作經(jīng)驗。主要從理論和實驗的角度來研究人類如何做出決定,同時還是幾個流行的R語言程序包的主要維護者,包括ProjectTemplate和log4r。他擁有普林斯頓大學(xué)哲學(xué)系博士學(xué)位,曾為多家技術(shù)雜志撰稿,發(fā)表過許多關(guān)于機器學(xué)習(xí)的論文,并在眾多國際會議上發(fā)表演講。

譯者簡介 編輯本段

羅森林

博士,教授,博導(dǎo)。現(xiàn)任北京理工大學(xué)信息系統(tǒng)及安全對抗實驗中心主任、專業(yè)責(zé)任教授。國防科技工業(yè)局科學(xué)技術(shù)委員會成員;《中國醫(yī)學(xué)影像技術(shù)雜志》、《中國介入影像與治療學(xué)》編委會委員;全國大學(xué)生信息安全技術(shù)專題邀請賽專家組副組長;中國人工智能學(xué)會智能信息安全專業(yè)委員會委員等。主要研究方向為信息安全、數(shù)據(jù)挖掘、媒體計算、中文信息處理等。負責(zé)或參加完成國家自然科學(xué)基金、國家科技支撐計劃、863計劃、國家242計劃等省部級以上項目40余項。已發(fā)表學(xué)術(shù)論文90余篇,出版著作8部,出版譯著1部,獲授權(quán)專利3項。

陳開江

新浪微博搜索部研發(fā)工程師,曾獨立負責(zé)微博內(nèi)容反垃圾系統(tǒng)、微博精選內(nèi)容挖掘算法、自助客服系統(tǒng)(包括自動回復(fù)、主動挖掘、輿情監(jiān)測)等項目,主要從事社交挖掘、推薦算法研究、機器學(xué)習(xí)、自然語言處理相關(guān)工作,研究興趣是社交網(wǎng)絡(luò)的個性化推薦。

劉逸哲

阿里巴巴,CBU基礎(chǔ)平臺部搜索與推薦團隊核心技術(shù)與query分析方向負責(zé)人,機器學(xué)習(xí)技術(shù)領(lǐng)域及圈子負責(zé)人。曾任中國雅虎相關(guān)性團隊、自然語言處理團隊算法工程師;AvePoint.inc開發(fā)工程師,從事企業(yè)級搜索引擎開發(fā)。研究興趣是機器學(xué)習(xí)、自然語言處理及個性化推薦等算法在大規(guī)模數(shù)據(jù)上的應(yīng)用。

孟曉楠

一淘廣告技術(shù),阿里非搜索廣告算法負責(zé)人,負責(zé)用戶行為分析、建模與細分,RTB競價算法,展示廣告CTR預(yù)估與SEM優(yōu)化。曾工作于網(wǎng)易杭州研究院,參與過分布式全文檢索系統(tǒng)網(wǎng)易博客產(chǎn)品的數(shù)據(jù)挖掘算法開發(fā)。研究興趣是計算廣告技術(shù)、機器學(xué)習(xí)、大數(shù)據(jù)技術(shù)、信息檢索等。

附件列表


0

詞條內(nèi)容僅供參考,如果您需要解決具體問題
(尤其在法律、醫(yī)學(xué)等領(lǐng)域),建議您咨詢相關(guān)領(lǐng)域?qū)I(yè)人士。

如果您認為本詞條還有待完善,請 編輯

上一篇 圖像識別    下一篇 計算機視覺

標(biāo)簽

同義詞

暫無同義詞