第一篇:在普開數(shù)據(jù)培訓(xùn)大數(shù)據(jù)課程之后的感受
在普開數(shù)據(jù)培訓(xùn)大數(shù)據(jù)課程之后的感受
來北京有一段時間了,感受真的挺多的,我是在普開數(shù)據(jù)公司學(xué)的大數(shù)據(jù),經(jīng)過這段時間的學(xué)習(xí),我不僅學(xué)習(xí)到了java的核心技術(shù),更是看到了計算機(jī)行業(yè)的發(fā)展?fàn)顩r,看到了社會的發(fā)展速度和大城市的生活工作節(jié)奏,這是在學(xué)校不可能看到的也是不可能體會到的,現(xiàn)在很是后悔在學(xué)校沒有把握好時間學(xué)習(xí),下面說說我的感想吧。
首先,這里有非常濃厚的學(xué)習(xí)氛圍。這里能夠感受到社會上工作的壓力,來這里學(xué)習(xí)的同學(xué)不全是大學(xué)剛畢業(yè)或者是還沒有畢業(yè)的大學(xué)生,有很多是在工作幾年之后又回來學(xué)習(xí)的,可能他們也感覺社會在快速發(fā)展,自己也應(yīng)該多學(xué)點有用的知識,以便更好地立足社會。俗話說“活到老學(xué)到老”,這話一點不假,跟他們交流,我學(xué)到了很多。從他們身上我能感覺到壓力,能感覺到自己的不足,讓我感覺自己學(xué)習(xí)不再只是為了一場考試,而是今后工作和生活的實力與能力。大家深知社會競爭激烈,都在拼命地學(xué)習(xí)。但是這并不影響我們之間相互討論和學(xué)習(xí),因為我們的對手不只是眼前的這些同學(xué),而是更多的你所不認(rèn)識的人,這也讓我看到了團(tuán)隊合作的重要性。所以說學(xué)習(xí)其實是很快樂的,雖然很累很累,但是大家都知道其意義所在。
我們每天的學(xué)習(xí)時間很長。早晨七點多起床,路遠(yuǎn)的同學(xué)要坐車去上課,從八點半到中午連續(xù)不斷地上課,中午休息一個多小時,下午上課到五點,然后上自習(xí)到七點,才去吃飯,大多數(shù)人晚飯后會回來一直學(xué)習(xí)到晚上九點多,這就是我們的一天,天天如此。所以我感覺我們是飛速前進(jìn)的,我們在堅持中前進(jìn)!
我們的學(xué)習(xí)是職業(yè)性的培訓(xùn)。老師告訴我們,我們的學(xué)習(xí)不再是teaching,而是貨真價實的training。是的,我們在不斷地訓(xùn)練,練習(xí)將來工作中真正能用的技術(shù)。都說現(xiàn)在找工作難,那是那些沒有真正技術(shù)的人給自己的借口和自我安慰。我們在這里學(xué)的很多很多,從技術(shù)上來說,我們學(xué)習(xí)java核心技術(shù)、linux操作系統(tǒng)、java web、java script等等;我們會使用集成框架等做出很多商業(yè)軟件,在學(xué)到這么多有用的知識之后,誰還會沒有信心找到工作呢!當(dāng)你在自己的簡歷上寫上你擁有如此多的技術(shù),曾經(jīng)做過項目,已經(jīng)有了相當(dāng)多的工作經(jīng)驗,有哪個公司會不錄用這樣的人才!但是有一個前提:在培訓(xùn)過程中,必須要堅持,因為不是一般的累,時刻告訴自己:加油!
由于時刻在學(xué)習(xí)中,所以對于學(xué)習(xí)有著說不完的話。下面再談一些生活上的感受吧。大家都知道,在北京住房是很大的問題,但是我卻從沒想過會有這么困難。剛來的那會兒非常不適應(yīng),在大學(xué)宿舍五百塊錢能住一年,但是在這里五百塊只能在地下室住一個月,面對這么大的壓力,誰會不努力學(xué)習(xí)呢!我們曾經(jīng)在電視上看見過早晨上班一族擠公交車和地鐵的場面,但是真的經(jīng)歷過了才能知道,這是多么的痛苦!也能體會到壓力。但是就是在競爭最激烈的地方才會煥發(fā)人的潛能,只要肯努力,就一定會有收獲的!
這是我來北京參加培訓(xùn)的一點點感受。對于選擇到北京普開數(shù)據(jù)來學(xué)習(xí),我認(rèn)為這是一個很正確的選擇,不是說出來培訓(xùn)就會找到好的工作,而是只要抱著一種上進(jìn)的學(xué)習(xí)的心態(tài),一直努力,找工作就像順藤摸瓜一樣,你的學(xué)習(xí)道路就是瓜藤,而學(xué)習(xí)的小盡頭也就是滿意的工作了。其實一份滿意的工作不只是為了拿薪水,而是實現(xiàn)自己的價值,自己用自己的知識在自己喜歡的崗位上做自己喜歡的工作,這難道不是一件很好的事情嗎?
IT行業(yè)是當(dāng)今社會的熱門行業(yè),說它熱門是因為它的發(fā)展?jié)摿κ菬o窮的,所以我們能進(jìn)入到這個行業(yè)是一種幸運??墒俏覀冊诖髮W(xué)里面甚至連半只腳都沒有邁進(jìn)IT的門檻,隨著知識的增多,隨著對專業(yè)技術(shù)由點到線,由線到面的了解,我對這個行業(yè)就有了很深入的認(rèn)識。這也是給大家的一個建議,永遠(yuǎn)不要想著知道全面的概況之后才去學(xué)每個點,而要從最小的點開始拓展開去,這樣才能取得進(jìn)步,所以在學(xué)校基礎(chǔ)知識的學(xué)習(xí)也非常重要!
最后送大家一句話:相信自己沒有選錯行業(yè),相信自己有立足的能力,為自己制定明確的目標(biāo),然后努力地去學(xué)習(xí)、體會、感悟、進(jìn)步!
第二篇:普開數(shù)據(jù)大數(shù)據(jù)課程培訓(xùn)學(xué)習(xí)心得:重點分享、交流經(jīng)驗
普開數(shù)據(jù)大數(shù)據(jù)課程培訓(xùn)學(xué)習(xí)心得:重點分享、交流經(jīng)驗
大家好!很高興給大家分享一些大數(shù)據(jù)知識,同時感謝普開數(shù)據(jù)能提供這么一個好的機(jī)會。謝謝!你們的好評是對我的鼓勵,請大家多多支持我,我會拿出自己的最大的精力來與大家分享我所學(xué)的。
J2EE本身是一個標(biāo)準(zhǔn),一個為企業(yè)分布式應(yīng)用的開發(fā)提供的標(biāo)準(zhǔn)平臺。J2EE也是一個框架,包括JDBC、JNDI、RMI、JMS、EJB、JTA等技術(shù)。java EE 的體系結(jié)構(gòu):
1、表示層(HTML、JavaScript、Ajax)
2、中間層(JSP、Servlet、JSTL、JavaBean)(Struts)
3、數(shù)據(jù)層(JDBC)(Hibernate)
三層體系結(jié)構(gòu)的優(yōu)點
1、耦合性低
2、擴(kuò)展性好
3、復(fù)用性好
4、便于分工
j2ee常用的設(shè)計模式:
Java中的23種設(shè)計模式:
Factory(工廠模式),Builder(建造模式),F(xiàn)actory Method(工廠方法模式),Prototype(原始模型模式),Singleton(單例模式),F(xiàn)acade(門面模式),Adapter(適配器模式),Bridge(橋梁模式),Composite(合成模式),Decorator(裝飾模式),F(xiàn)lyweight(享元模式),Proxy(代理模式),Command(命令模式),Interpreter(解釋器模式),Visitor(訪問者模式),Iterator(迭代子模式),Mediator(調(diào)停者模式),Memento(備忘錄模式),Observer(觀察者模式),State(狀態(tài)模式),Strategy(策略模式),Template Method(模板方法模式),Chain Of Responsibility(責(zé)任鏈模式)
工廠模式:工廠模式是一種經(jīng)常被使用到的模式,根據(jù)工廠模式實現(xiàn)的類可以根據(jù)提供的數(shù)據(jù)生成一組類中某一個類的實例,通常這一組類有一個公共的抽象父類并且實現(xiàn)了相同的方法,但是這些方法針對不同的數(shù)據(jù)進(jìn)行了不同的操作。首先需要定義一個基類,該類的子類通過不同的方法實現(xiàn)了基類中的方法。然后需要定義一個工廠類,工廠類可以根據(jù)條件生成不同的子類實例。當(dāng)?shù)玫阶宇惖膶嵗螅_發(fā)人員可以調(diào)用基類中的方法而不必考慮到底返回的是哪一個子類的實例。
HTTP協(xié)議的提交方式:
1、GET——用URL傳遞數(shù)據(jù)
2、POST——用流的方式傳遞數(shù)據(jù)
Servlet是一個java程序,是在服務(wù)器端運行的以處理客戶端請求并做出響應(yīng)的程序。Servlet類一定要繼承HttpServlet,Servlet必須和Servlet容器配合運行,Servlet要嵌入容器才能運行。
Web應(yīng)用程序的結(jié)構(gòu):
tomcat—webapps—appName:
http://ip:port/appName/index.jsp
1、頁面和圖片(可以自己組織結(jié)構(gòu),可以從客戶端直接訪問,jsp、html、js、jpg.....)
2、WEB-INF 目錄(必須有的其中的東西不能從客戶端直接訪問)
a、web.xml(必須有 Web程序的總體配置,是一個核心)
b、classes文件夾(必須的 Servlet和JavaBean編譯成Class后存放于該文件夾)
c、lib文件夾(存放該程序用的類庫jar包)
Web.xml中要對Servlet進(jìn)行一些配置
JSP在運行時需要翻譯成一個Servlet程序,然后再編譯成Class文件,然后才可以運行。
Servlet的生命周期由Servlet容器來管理
Servlet的聲明周期:
1、加載和實例化(構(gòu)造方法): 在Web容器中查找用戶請求的Servlet,如果沒有找到,則實例化,如果找到,則加載。
2、初始化(init):在實例化后調(diào)用的方法,可以初始化一些資源。
3、服務(wù)(service): 接受請求并做出響應(yīng)。根據(jù)請求的方式不同,調(diào)用doXXX方法。
4、銷毀(destory): 主要用來銷毀初始化時創(chuàng)建的資源,在destory方法中我們標(biāo)識哪些資源可以回收,并不能馬上回收。
如何獲得請求參數(shù)?
1.request。getParameter(“name”);2.如果一個請求參數(shù)有多個值,需要返回一個數(shù)組!
String []size=request.getParameter(“name”);
For(int i=0;i out.print(size[0]);} 除了參數(shù),還可以獲得其他 1與請求相關(guān)的cookie Cookie [] cookies=request.getCookies(); 2與會話相關(guān)的session Session session=request.getSession(); 3請求的HTTP方法 String methed=request.getMethed(); 初始化參數(shù): 在web.xml中設(shè)置servlet初始化參數(shù) driverClass org.gjt.mm.mysql.Driver 在servlet 代碼中獲得初始化參數(shù)的值: getServletConfig(),getInitParameter(“param-name”); 上下文初始化參數(shù) name John 在servlet 代碼中獲得上下文初始化參數(shù)的值: getServletContext().getInitParameter(“name”); ServletContext 用于在Web應(yīng)用范圍內(nèi)存取共享數(shù)據(jù)的方法。注:web應(yīng)用范圍具有以下兩層含義: (1) 表示有web應(yīng)用的生命周期構(gòu)成的時間段.(2) 表示在web應(yīng)用的生命周期內(nèi)所有web組件的集合。 * setAttribute(String name,java.lang.Object object):把一個java對象和一個屬性名綁定,并存放到ServletContext中,參數(shù)name指定屬性名,參數(shù)Object表示共享數(shù)據(jù)。* getAttribute(String name):根據(jù)參數(shù)給定的屬性名,返回一個Object類型的對象。* getAttributeNames():返回一個Enumeration對象,該對象包含了所有存放在ServletContext中的屬性名。 * removeAttribute(String name):根據(jù)參數(shù)指定的屬性名,從servletContext對象中刪除匹配的屬性。 訪問當(dāng)前Web應(yīng)用的資源 * getContextpath():返回當(dāng)前web應(yīng)用的URL入口。* getInitParameter(String name):返回web應(yīng)用方位內(nèi)的匹配的初始化參數(shù)值。在web.xml中 * getRequestDispatcher(String path):返回一個用于向其他web組件轉(zhuǎn)發(fā)請求的RequestDispatcher對象。 web.xml文件 web.xml文件是用來初始化配置信息:比如Welcome頁面、servlet、servlet-mapping、filter、listener、啟動加載級別等 1、指定歡迎頁面,例如: PS:指定了2個歡迎頁面,顯示時按順序從第一個找起,如果第一個存在,就顯示第一個,后面的不起作用。如果第一個不存在,就找第二個,以此類推。 2、命名與定制URL。我們可以為Servlet和JSP文件命名并定制URL,其中定制URL是依賴命名的,命名必須在定制URL前。下面拿serlet來舉例: (1)、為Servlet命名: (2)、為Servlet定制URL、 3、定制初始化參數(shù):可以定制servlet、JSP、Context的初始化參數(shù),然后可以再servlet、JSP、Context中獲取這些參數(shù)值。 下面用servlet來舉例: userName Daniel E-mail 125485762@qq.com 經(jīng)過上面的配置,在servlet中能夠調(diào)用getServletConfig().getInitParameter(“param1”)獲得參數(shù)名對應(yīng)的值。 4、指定錯誤處理頁面,可以通過“異常類型”或“錯誤碼”來指定錯誤處理頁面。 ----------------------------- 5、設(shè)置過濾器:比如設(shè)置一個編碼過濾器,過濾所有資源 6、設(shè)置監(jiān)聽器: 7、設(shè)置會話(Session)過期時間,其中時間以分鐘為單位,假如設(shè)置60分鐘超時: 8.設(shè)置上下文初始化參數(shù)(對于整個web應(yīng)用都適用) foo bar 在servlet中獲取上下文參數(shù)初始化 String s=getContex().getInitParameter("foo");3.重定向和請求分派的比較 <1>請求分派只能將請求轉(zhuǎn)發(fā)給同一個web應(yīng)用中的其他組件,而重定向不僅可以定向到當(dāng)前應(yīng)用程序中的其他資源,也可重定向到其他站點的資源上 <2>重定向的訪問過程結(jié)束后,瀏覽器的地址欄顯示的URL會發(fā)生改變,變成重定向的目標(biāo)URL,而請求分派的瀏覽器地址欄保持初始的URL <3>請求分派的發(fā)起者和被調(diào)者之間共享相同的request實例和response實例,屬于同一個“請求/響應(yīng)”而重定向的發(fā)起者和被調(diào)用者使用各自的request實例和response實例,各自屬于獨立的“請求/響應(yīng)”過程。 請求轉(zhuǎn)發(fā) RequestDispatcher dis=request.getRequestDispatcher(“Servlet2”); dis.forward(request, response);重定向 response.sendRedirect(“Servlet2”);//重定向到指定路徑的資源 get 和post 比較 1.get是從服務(wù)器上獲取數(shù)據(jù),post是向服務(wù)器傳送數(shù)據(jù)。 2.get是把參數(shù)數(shù)據(jù)隊列加到提交表單的ACTION屬性所指的URL中,值和表單內(nèi)各個字段一一對應(yīng),在URL中可以看到。post是通過HTTP post機(jī)制,將表單內(nèi)各個字段與其內(nèi)容放置在HTML HEADER內(nèi)一起傳送到ACTION屬性所指的URL地址。用戶看不到這個過程。 3.對于get方式,服務(wù)器端用Request.QueryString獲取變量的值,對于post方式,服務(wù)器端用Request.Form獲取提交的數(shù)據(jù)。 4.get傳送的數(shù)據(jù)量較小,不能大于2KB。post傳送的數(shù)據(jù)量較大,一般被默認(rèn)為不受限制。但理論上,IIS4中最大量為80KB,IIS5中為100KB。 5.get安全性非常低,post安全性較高。但是執(zhí)行效率卻比Post方法好。 Tomcat服務(wù)器 運行Java Web程序必須有相應(yīng)Web容器支持,所有的動態(tài)程序代碼都在Web容器中執(zhí)行,Tomcat是一個web容器; 靜態(tài)請求的所有代碼操作都是固定的,動態(tài)請求操作的所有代碼都是拼湊的; Tomcat是有Apache軟件基金會的Jakarta項目中的一個核心項目,有Apache、sun和其他一些公司及個人共同開發(fā)而成; 使用Tomcat必須有JDK的支持 Tomcat中主要文件夾:bin/conf/lib/logs/webapps/work 任何服務(wù)器都是依靠端口號進(jìn)行監(jiān)聽的服務(wù)器配置 (1)修改端口號——conf/server.xml(2)配置虛擬目錄——磁盤下建立文件夾、建立WEB-INF文件、復(fù)制web.xml文件,服務(wù)器端配置 普開數(shù)據(jù)培訓(xùn)項目開發(fā)實習(xí)總結(jié) 參加專業(yè)的it培訓(xùn)學(xué)校,實習(xí)兩周以來,對于我這種酷愛計算機(jī)的人是多么好的體驗機(jī)會。作為數(shù)學(xué)類專業(yè)的學(xué)生,如果一味的學(xué)習(xí)理論,不能去實踐理論,那是多么悲哀呀。當(dāng)?shù)弥羞@樣的機(jī)會時,很多同學(xué)都積極參加了。 就這樣,大家?guī)е迈r好奇、實踐理論的心情離開學(xué)校來到了普開數(shù)據(jù)實習(xí)了。 實習(xí)的他同學(xué)就敲過幾百遍,才有現(xiàn)在的完美首頁。聽了經(jīng)理的介紹,忽然覺得自己在學(xué)校敲的代碼次數(shù)太少了,在接下來的日子了,我會每天都對前一天的項目代碼多敲幾遍。 一個行業(yè)你要喜歡它,也會喜歡它的文化,我很喜歡普開數(shù)據(jù),在這里,環(huán)境優(yōu)良,為我們每人準(zhǔn)備了一臺電腦,天氣熱,為我們安了空調(diào),怕我們上火,哈哈,老師在上課期間怕影響我們上課靜靜的為我們倒水,嚴(yán)厲之中透漏著溫柔,呵斥之中透漏著關(guān)懷。 在這里,我不是一個人而是家庭中的一員,和同學(xué)一起上下課,下了課一起打打鬧鬧的去吃飯,在業(yè)余時間還和老師聊聊天,或許這對于別人來說,這是人生中當(dāng)學(xué)生時代最平常不過的事了,可對于我真的很珍貴,我很開心,我現(xiàn)在發(fā)現(xiàn)我也不是一個真的很喜歡獨處的人,不能徹底的改變,但事實卻在改變。 實習(xí)時間慢慢的在減少,而程序卻相反——越來越難,越來越繁。因為一個小環(huán)節(jié)與大家拉開了距離,在一個龐大的項目中是不允許任何一處掉鏈子的??吹酵瑢W(xué)們早已“輕車熟路”操作自如了,而我卻不知所措,立刻就有了壓力。一天下來感受最深的就是那種巨大的差距。學(xué)校所學(xué)與實際應(yīng)用中的脫節(jié)。 在普開數(shù)據(jù)為期兩周的實習(xí)時間已悄然離去,剛來時的那種新鮮好奇早飛到了九霄云外,更多的是離開時的那種不舍和對自己及所學(xué)的反思。 通過實際項目的開發(fā)我有以下幾點收獲: 1.多向老師、同學(xué)虛心請教,也別說自己學(xué)的不怎么樣,不然會大大減少自己的自信,從而與大家的差距越來越大。 2.編程以前一定要對整個項目有仔細(xì)的了解,最好能寫好需求分析,這樣在實際操作時就會更加調(diào)理,而且不會遺漏東西。 3.做任何項目都離不開團(tuán)隊合作。所以我們一定要注意團(tuán)隊合作意識,多和小組內(nèi)的人交流。 4.在編程中一定要規(guī)范,絕對不可以隨性。 總之,這次的實習(xí)使我受益匪淺,讓我對大數(shù)據(jù)技術(shù)有了新的認(rèn)識,使自己的專業(yè)知識在實際應(yīng)用中得到了鍛煉,讓自己對編程在實際應(yīng)用有了更加深刻的了解,拓寬了我的視野,也讓我對自己的專業(yè)更加充滿信心!因此要非常感謝學(xué)院的領(lǐng)導(dǎo),老師們的陪伴以及安排的這次實習(xí),不僅使我們得到了鍛煉,更讓我們看到了計算機(jī)專業(yè)領(lǐng)域的寬闊和美好的前景,激勵我們在努力地學(xué)習(xí)專業(yè)知識地同時,更加注重理論和實踐的結(jié)合,提高自己的專業(yè)素質(zhì)和本領(lǐng)。 在普開數(shù)據(jù)實習(xí)的日子 在普開數(shù)據(jù)為期兩周的實習(xí)時間已悄然離去,剛來時的那種新鮮好奇早飛到了九霄云外,更多的是離開時的那種不舍和對自己及所學(xué)的反思。 在編程中一定要規(guī)范,絕對不可以隨性 當(dāng)我在普開數(shù)據(jù)的這半個月培訓(xùn)我感覺獲益匪淺。雖然與課本知識不同,至少我看清了實際做項目與書本知識之間的差距,不至于在就業(yè)后手足無措。這次實習(xí)對我以后的學(xué)習(xí)甚至就業(yè)帶來了巨大的幫助。 感謝學(xué)校,感謝普開數(shù)據(jù)的馬延輝老師,感謝普開數(shù)據(jù)的老師們。 摘要 流形學(xué)習(xí)方法作為一類新興的非線性維數(shù)約簡方法,主要目標(biāo)是獲取高維觀測數(shù)據(jù)的低維緊致表示,探索事物的內(nèi)在規(guī)律和本征結(jié)構(gòu),已經(jīng)成為數(shù)據(jù)挖掘、模式識別和機(jī)器學(xué)習(xí)等領(lǐng)域的研究熱點。流形學(xué)習(xí)方法的非線性本質(zhì)、幾何直觀性和計算可行性,使得它在許多標(biāo)準(zhǔn)的 toy 數(shù)據(jù)集和實際數(shù)據(jù)集上都取得了令人滿意的結(jié)果,然而它們本身還存在著一些普遍性的問題,比如泛化學(xué)習(xí)問題、監(jiān)督學(xué)習(xí)問題和大規(guī)模流形學(xué)習(xí)問題等。因此,本文從流形學(xué)習(xí)方法存在的問題出發(fā),在算法設(shè)計和應(yīng)用(圖像數(shù)據(jù)與蛋白質(zhì)相互作用數(shù)據(jù))等方面展開了一系列研究工作。首先對流形學(xué)習(xí)的典型方法做了詳細(xì)對比分析,然后針對流形的泛化學(xué)習(xí)和監(jiān)督學(xué)習(xí)、表征流形的局部幾何結(jié)構(gòu)、構(gòu)造全局的正則化線性回歸模型、大規(guī)模數(shù)據(jù)的流形學(xué)習(xí)等幾個方面進(jìn)行了重點研究,提出了三種有效的流形學(xué)習(xí)算法,并和相關(guān)研究成果進(jìn)行了理論與實驗上的比較,從而驗證了我們所提算法的有效性。 關(guān)鍵詞:流形學(xué)習(xí),維數(shù)約簡,正交局部樣條判別投影,局部多尺度回歸嵌入 I 目錄 目錄.................................................................................................................................................II 第1章 研究背景.......................................................................................................................1 1.1 流形學(xué)習(xí)的研究背景...................................................................................................1 1.2 流形學(xué)習(xí)的研究現(xiàn)狀...................................................................................................2 1.3 流形學(xué)習(xí)的應(yīng)用...........................................................................................................4 第2章 流形學(xué)習(xí)方法綜述.......................................................................................................5 2.1 流形學(xué)習(xí)方法介紹.......................................................................................................6 第3章 流形學(xué)習(xí)方法存在的問題...........................................................................................9 3.1 本征維數(shù)估計...............................................................................................................9 3.2近鄰數(shù)選擇.................................................................................................................10 3.3 噪聲流形學(xué)習(xí).............................................................................................................10 3.4 監(jiān)督流形學(xué)習(xí).............................................................................................................11 第4章 總結(jié).............................................................................................................................11 II 第1章 研究背景 1.1 流形學(xué)習(xí)的研究背景 隨著信息時代的到來,使得數(shù)據(jù)集更新更快、數(shù)據(jù)維度更高以及非結(jié)構(gòu)化性等問題更突出。在科研研究的過程中不可避免地遇到大量的高維數(shù)據(jù),這就需要一種技術(shù)能夠使在保持?jǐn)?shù)據(jù)信息足夠完整的意義下從海量數(shù)據(jù)集中提取出有效而又合理的約簡數(shù)據(jù),滿足人的存儲需求和感知需要。流形學(xué)習(xí)這一非監(jiān)督學(xué)習(xí)方法應(yīng)運而生,引起越來越多機(jī)器學(xué)習(xí)和認(rèn)知科學(xué)工作者的重視。而在海量的高維數(shù)據(jù)中,往往只有少量的有用信息,如果想快速高效的搜集到人們想要的、有用的那些少量信息且快速的處理信息,這就需要一些關(guān)鍵技術(shù)的支持,即是必須采用相應(yīng)的降維技術(shù)。而流形學(xué)習(xí)正是在數(shù)據(jù)降維方面有著重要的貢獻(xiàn)。然而,降維的過程與《矩陣分析》中的內(nèi)容有著密切的關(guān)系。 基于流形的降維方法能充分利用數(shù)據(jù)中所隱藏的低維有價值信息,進(jìn)一步提高檢索性能。Seung從神經(jīng)心理學(xué)的角度提出“感知以流形的形式存在,視覺記憶也可能是以穩(wěn)態(tài)的流形存儲”,為流形提供了與人類認(rèn)識相關(guān)的理由。流形學(xué)習(xí)的方法主要有主成分分析(PCA)、多維尺度化(MDS)、基于局部切空間排列法(LTSA)和基于等度規(guī)映射(ISOMAP)、局部線性嵌入算法(LLE)、拉普拉斯特征映射(LE)等。另外,流形學(xué)習(xí)方法在人臉識別、圖像處理、模式識別、計算機(jī)視覺、認(rèn)知科學(xué)、人工智能、人機(jī)交互等眾多學(xué)科中有著廣泛的應(yīng)用。 線性維數(shù)約簡方法是通過在高維輸入空間與低維子空間之間建立線性映射關(guān)系,把高維數(shù)據(jù)樣本集投影到低維線性子空間。線性維數(shù)約簡技術(shù)通常假設(shè)數(shù)據(jù)集采樣于一個全局線性的高維觀測空間。如果所要處理的數(shù)據(jù)集分布確實呈現(xiàn)出全局線性的結(jié)構(gòu),或者在一定程度上可以近似為全局線性結(jié)構(gòu),則這些方法能夠有效地挖掘出數(shù)據(jù)集內(nèi)在的線性結(jié)構(gòu),獲得數(shù)據(jù)緊致的低維表示。在線性維數(shù)約簡方法中,使用最廣泛的算法有主分量分析(Principal Component Analysis, PCA)(Jolliffe, 2002;Turk and Pentland, 1991)和線性判別分析(Linear Discriminant Analysis, LDA)(Duda et al., 2001)。 主分量分析(PCA)主要是根據(jù)高維數(shù)據(jù)在低維空間重構(gòu)誤差最小的原則,來尋找一組最優(yōu)的單位正交向量基(即主分量),并通過保留數(shù)據(jù)分布方差較大的若干主分量來達(dá)到降維的目的。然而,眾所周知,由于 PCA 算法沒有利用數(shù)據(jù)樣本的類別信息,所以它是一種非監(jiān)督的線性維數(shù)約簡方法。與 PCA 算法不同,LDA 算法考慮到樣本的類別信息,它是一種有監(jiān)督的方法。基于各類樣本服從高斯分布且不同類的協(xié)方差矩陣相同的假設(shè),LDA 算法在 Fisher 準(zhǔn)則下選擇最優(yōu)的投影向量,以使得數(shù)據(jù)樣本的類間散度最大而類內(nèi)散度最小。由于 LDA 算法利用了樣本的類別信息,而樣本的類別信息通常有助于改善識別率,因此 LDA 算法更適用于分類問題。 1.2 流形學(xué)習(xí)的研究現(xiàn)狀 流形學(xué)習(xí)假定輸入數(shù)據(jù)是嵌入在高維觀測空間的低維流形上,流形學(xué)習(xí)方法的目的是找出高維數(shù)據(jù)中所隱藏的低維流形結(jié)構(gòu)。經(jīng)過十多年的研究與探索,人們提出了大量的流形學(xué)習(xí)理論與算法。經(jīng)典的流形學(xué)習(xí)方法有等距特征映射算法(ISOMAP)(Tenenbaum et al., 2000)、局部線性嵌入算法(LLE)(Roweis and Saul, 2000;Saul and Roweis, 2003)、Laplacian 特征映射算法(Laplacian Eigenmaps,LE)(Belkin and Niyogi, 2002;Belkin and Niyogi, 2003)、Hessian特征映射算法(Hessian-based Locally Linear Embedding,HLLE)(Donoho and Grimes, 2003)、最大差異展開算法(Maximum Variance Unfolding,MVU)(Weinberger et al., 2005;Weinberger and Saul, 2004;Weinberger and Saul, 2006;Weinberger et al., 2004)、局部切空間排列算法(Local Tangent Space Alignment, LTSA)(Zhang and Zha, 2004)、黎曼流形學(xué)習(xí)算法(Riemannian Manifold Learning, RML)(Lin and Zha, 2007;Lin et al., 2006)和局部樣條嵌入算法(Local Spline Embedding,LSE)(Xiang et al., 2006;Xiang et al., 2008)等。 Tenenbaum 提出的 ISOMAP 算法是多維尺度分析(Multidimensional Scaling, MDS)(Cox and Cox, 1994)在流形框架下的非線性推廣,其核心思想是用測地距離代替歐氏距離來表征流形上數(shù)據(jù)點的內(nèi)在幾何關(guān)系。對于樣本 點和它的近鄰點之間的測地距離用它們之間的歐氏距離來代替;對于樣本點和近鄰點之外的點之間的測地距離用它們之間的最短路徑來代替。Bernstein 等人證明了只要樣本是隨機(jī)抽取的,在樣本集足夠大且選擇適當(dāng)近鄰參數(shù)k 時,近鄰圖上兩點的最短路徑可以逼近它們的測地距離(Bernstein et al., 2000)。當(dāng)應(yīng)用于內(nèi)蘊平坦的凸流形時,ISOMAP 算法能夠忠實地捕獲數(shù)據(jù)內(nèi)在的低維流形結(jié)構(gòu)(De Silva and Tenenbaum, 2003)。 ISOMAP 算法的主要缺點在于:① 對樣本點的噪聲比較敏感;② 對于具有較大曲率或稀疏采樣的數(shù)據(jù)集,不能發(fā)現(xiàn)其內(nèi)在的本征結(jié)構(gòu);③ 需要計算全體數(shù)據(jù)集的測地距離矩陣,因此算法的時間復(fù)雜度較高。圍繞 ISOMAP算法,已經(jīng)出現(xiàn)了許多相關(guān)的理論分析與研究工作。 Balasubramanian 等人對ISOMAP 算法的拓?fù)浞€(wěn)定性進(jìn)行了深入探討(Balasubramanian and Schwartz, 2002)。對于數(shù)據(jù)分布所在的低維流形具有較大的內(nèi)在曲率情況,de Silva 和Tenenbaum 提出了保角等距特征映射算法(conformal ISOMAP)(De Silva and Tenenbaum, 2003)。為了減小 ISOMAP 算法的計算復(fù)雜度,de Silva 和 Tenenbaum提出了帶標(biāo)記的等距特征映射算法(Landmark ISOMAP)(De Silva and Tenenbaum, 2003)。 針對 ISOMAP 算法對于數(shù)據(jù)集噪聲敏感的問題,Choi 等人通過觀察圖中的網(wǎng)絡(luò)流提出了一種消除臨界孤立點的方法以加強(qiáng) ISOMAP 算法的拓?fù)浞€(wěn)定性(Choi and Choi, 2007)。在構(gòu)建近鄰圖方面,Yang 提出通過構(gòu)造k 連通圖方式來確保近鄰圖的連通性,以提高測地距離的估計精度(Yang, 2005)。 2009 年,Xiang 等人提出了局部樣條嵌入算法(LSE)(Xiang et al., 2006;Xiang et al., 2008)。Xiang 認(rèn)為,對于嵌入在高維輸入空間的低維流形,非線性維數(shù)約簡的任務(wù)實際上是尋找一組非線性的復(fù)合映射,即由局部坐標(biāo)映射(Local Coordinatization Mapping)與全局排列映射(Global Alignment Mapping)復(fù)合而成的兼容映射(Compatible Mapping)。在兼容映射的概念框架下,LSE 算法首先通過主分量分析計算每個樣本點局部鄰域在切空間上的投影獲得該鄰域所有樣本的局部坐標(biāo),從而保持流形的局部幾何結(jié)構(gòu)信息;然后采用Sobolev 空間的一組樣條函數(shù)把每個樣本點的局部坐標(biāo)映射成 全局唯一的低維坐標(biāo)。它們均是利用每個樣本的局部切空間來捕獲流形的局部幾何,樣本點在切空間的投影來表示樣本點的局部坐標(biāo)。然而它們的主要區(qū)別在于全局排列,LTSA 算法是利用仿射變換來進(jìn)行全局排列,而 LSE 算法是利用樣條函數(shù)來獲得全局唯一的坐標(biāo)。因此相對于 LTSA 而言,LSE 算法能夠?qū)崿F(xiàn)更小的重構(gòu)誤差。LSE 算法的主要缺點在于:一是無法保持全局尺度信息;二是不能學(xué)習(xí)具有較大曲率的低維流形結(jié)構(gòu)。除此,如何選擇滿足要求的樣條函數(shù)也是一個值得考慮的問題。 不同流形學(xué)習(xí)算法的區(qū)別在于所嘗試保持流形的局部鄰域結(jié)構(gòu)信息以及利用這些信息構(gòu)造全局嵌入的方法不同,與以往的維數(shù)約簡方法相比,流形學(xué)習(xí)能夠有效地探索非線性流形分布數(shù)據(jù)的內(nèi)在規(guī)律與性質(zhì)。但是在實際應(yīng)用中流形學(xué)習(xí)方法仍然存在一些缺點,比如本征維數(shù)估計問題、樣本外點學(xué)習(xí)問題、監(jiān)督流形學(xué)習(xí)問題和噪聲流形學(xué)習(xí)問題等。為了解決這些問題,相關(guān)的算法也不斷涌現(xiàn)出來。Freedman 等提出了一種基于簡化單純復(fù)形的流形重構(gòu)方法來自動估計流形的本征維數(shù)(Freedman, 2002)。 為了解決樣本外點學(xué)習(xí)問題,研究人員分別在流形學(xué)習(xí)的線性化、核化和張量化等方面作了有益的探索(Yan et al., 2007)。Geng 等將樣本的類別信息融入到 ISOMAP 算法,提出了一種用于可視化和分類的有監(jiān)督的等距特征映射算法(S-ISOMAP)(Geng et al., 2005)。Zhang 等提出了一種基于局部線性平滑的流形學(xué)習(xí)消噪模型(Zhang and Zha, 2003)。這些方法的提出在一定程度上緩解了目前流形學(xué)習(xí)方法中存在的一些問題,但是還需要進(jìn)一步充實和完善。 1.3 流形學(xué)習(xí)的應(yīng)用 目前,流形學(xué)習(xí)方法的應(yīng)用可歸納為以下幾個方面: 1)數(shù)據(jù)的可視化。流形學(xué)習(xí)方法在高維數(shù)據(jù)的可視化方面有了廣泛的應(yīng)用。人不能直接感知高維數(shù)據(jù)的內(nèi)部結(jié)構(gòu),但對三維以下數(shù)據(jù)的內(nèi)在結(jié)構(gòu)卻有很強(qiáng)的感知能力。由于流形學(xué)習(xí)方法可以發(fā)現(xiàn)高維觀測數(shù)據(jù)中蘊含的內(nèi)在規(guī)律和本征結(jié)構(gòu),而且這種規(guī)律在本質(zhì)上不依賴于我們實際觀測到的數(shù)據(jù)維數(shù)。因此我們可以通過流形學(xué)習(xí)方法 對高維輸入數(shù)據(jù)進(jìn)行維數(shù)約簡,使高維數(shù)據(jù)的內(nèi)部關(guān)系和結(jié)構(gòu)在低于三維的空間中展示出來,從而使人們能夠直觀地認(rèn)識和了解高維的非線性數(shù)據(jù)的內(nèi)在規(guī)律,達(dá)到可視化的目的。 2)信息檢索。隨著多媒體和網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,圖像和文本信息的應(yīng)用日益廣泛,對規(guī)模逐漸龐大的圖像和文本數(shù)據(jù)庫如何進(jìn)行有效的管理已成為亟待解決的問題。靈活、高效、準(zhǔn)確的信息檢索策略是解決這一問題的關(guān)鍵技術(shù)之一。這些圖像和文本信息呈現(xiàn)出高維、大規(guī)模、非線性結(jié)構(gòu),利用流形學(xué)習(xí)方法來處理這些信息,在大大降低時間和空間計算復(fù)雜度的同時,能夠有效地保留這些信息在原始高維空間的相似性。 3)圖像處理。流形學(xué)習(xí)給圖像處理領(lǐng)域提供了一個強(qiáng)有力的工具。眾所周知,圖像處理與圖像中物體的輪廓以及骨架等密切相關(guān)。如果我們把圖像中物體的輪廓以及骨架等看成是嵌入在二維平面中的一維流形或者由一組一維流形構(gòu)成,那么顯然流形學(xué)習(xí)方法憑借其強(qiáng)大的流形逼近能力可以應(yīng)用于圖像處理領(lǐng)域。 第2章 流形學(xué)習(xí)方法綜述 流形學(xué)習(xí)方法作為一種新興的非線性維數(shù)約簡方法,主要目標(biāo)是獲取高維觀測數(shù)據(jù)的低維緊致表示,探索事物的內(nèi)在規(guī)律和本征結(jié)構(gòu),已經(jīng)成為數(shù)據(jù)挖掘、模式識別和機(jī)器學(xué)習(xí)等領(lǐng)域的研究熱點。本章首先探討了流形學(xué)習(xí)的基礎(chǔ)性問題,即高維數(shù)據(jù)分析的流形建模問題;然后依據(jù)保持流形幾何特性的不同,把現(xiàn)有的流形學(xué)習(xí)方法劃分為全局特性保持方法和局部特性保持方法,并介紹了每一類方法中有代表性的流形學(xué)習(xí)算法的基本原理,對各種流形學(xué)習(xí)算法進(jìn)行性能比較和可視化分析,最后就流形學(xué)習(xí)方法普遍存在的本征維數(shù)估計、近鄰數(shù)選擇、噪聲流形學(xué)習(xí)、樣本外點學(xué)習(xí)和監(jiān)督流形學(xué)習(xí)問題等進(jìn)行了分析和討論。2.1 流形學(xué)習(xí)方法介紹 流形學(xué)習(xí)的定義:流形是局部具有歐氏空間性質(zhì)的空間。假設(shè)數(shù)據(jù)是均勻采樣于一個高維歐氏空間中的低維流形,流形學(xué)習(xí)就是從高維采樣數(shù)據(jù)中恢復(fù)低維流形結(jié)構(gòu),即找到高維空間中的低維流形,并求出相應(yīng)的嵌入映射,以實現(xiàn)維數(shù)約簡或者數(shù)據(jù)可視化。它是從觀測到的現(xiàn)象中去尋找事物的本質(zhì),找到產(chǎn)生數(shù)據(jù)的內(nèi)在規(guī)律。 流形學(xué)習(xí)用數(shù)學(xué)語言描述是:令Y??yi?且?: Y??是一個光滑的嵌套,其中D >> d。那么流形學(xué)習(xí)的目標(biāo)是基于?上的一個給定被觀測數(shù)據(jù)集合?xi?去恢復(fù)Y與?,也就是在Y 中隨機(jī)產(chǎn)生隱藏的數(shù)據(jù)?yi?,然后通過? 映射到觀測空間,使得?xi?f?yi??。 從流形學(xué)習(xí)的定義中可以看出,這是一個把數(shù)據(jù)從高維映射到低維的過程,用到了線性變換,當(dāng)然少不了矩陣的分解及其基本運算。2.1.1 多維尺度分析(Multidimensional Scaling, MDS) 多維尺度分析(Multidimensional Scaling, MDS)是一種經(jīng)典的線性降維方法,其主要思想是:根據(jù)數(shù)據(jù)點間的歐氏距離,構(gòu)造關(guān)系矩陣,為了盡可能地保持每對觀測數(shù)據(jù)點間的歐氏距離,只需對此關(guān)系矩陣進(jìn)行特征分解,從而獲得每個數(shù)據(jù)在低維空間中的低維坐標(biāo)。 DDDx??x設(shè)給定的高維觀測數(shù)據(jù)點集為Y??U,i,觀測數(shù)據(jù)點對i,Tyj間的歐氏距離為?ij?xi?yj,傳統(tǒng)MDS 的算法步驟如下: a)首先根據(jù)求出的兩點之間的歐氏距離 ?ij構(gòu)造n階平方歐式距離矩陣A???ij2? n?n。b)將矩陣A進(jìn)行雙中心化計算,即計算 B??1HAH2(其中H 為中心化eeTH?I?n,將矩陣H左乘和右乘時稱為雙中心化)矩陣。 c)計算低維坐標(biāo)Y。即將B奇異值分解,設(shè)B的最大的d個特征值??diag??1,?2,...,?d?Y??UT。 ?u1,u2,...,ud??則d維低維坐標(biāo)為,對應(yīng)特征向量,U??雖然作為線性方法,MDS在流形學(xué)習(xí)中不能有效發(fā)現(xiàn)內(nèi)在低維結(jié)構(gòu)。但是從這一基本的算法中我們可以清楚的看出矩陣分析在流形學(xué)習(xí)研究中的應(yīng)用。在這個MDS算法中,運用到了矩陣中的線性空間變換、矩陣特征值和特征向量的計算、矩陣的中心化計算、矩陣的奇異值的分解等相關(guān)知識點。想象一下,如果沒有這些知識點做基礎(chǔ),這些算法如何進(jìn)行。2.1.2 等距特征映射(ISOMAP) (1)基本思想:Tenenbaum等人提出的等距特征映射算法(ISOMAP)是建立在多維尺度分析(MDS)基礎(chǔ)上的一種非線性維數(shù)約簡方法。ISOMAP算法利用所有樣本點對之間的測地距離矩陣來代替MDS算法中的歐氏距離矩陣,以保持嵌入在高維觀測空間中內(nèi)在低維流形的全局幾何特性。算法的關(guān)鍵是計算每個樣本點與所有其它樣本點之間的測地距離。對于近鄰點,利用輸入空間的歐氏距離直接得到其測地距離;對于非近鄰點,利用近鄰圖上兩點之間的最短路徑近似測地距離。然后對于構(gòu)造的全局測地距離矩陣,利用MDS算法在高維輸入空間與低維嵌入空間之間建立等距映射,從而發(fā)現(xiàn)嵌入在高維空間的內(nèi)在低維表示(Tenenbaum et al., 2000)。 (2)算法流程 <1>構(gòu)造近鄰圖G <2>計算最短路徑 <3>計算 d 維嵌入(3)算法分析 ISOMAP算法是一種保持全局幾何特性的方法,它的低維嵌入結(jié)果能夠反映出高維觀測樣本所在流形上的測地距離。如果高維觀測樣本所在的低維流形與歐氏空間的一個子集是整體等距的,且與樣本所在流形等距的歐氏空間的子集是一個凸集,那么ISOMAP算法能夠取得比較理想的嵌入結(jié)果。但是當(dāng)流形曲率較大或者流形上有“孔洞”,即與流形等距的歐氏空間的子集非凸時,流形上的測地距離估計會產(chǎn)生較大的誤差,導(dǎo)致嵌入結(jié)果產(chǎn)生變形。 從算法的時間復(fù)雜度來看,ISOMAP算法有兩個計算瓶頸(De Silva and Tenenbaum, 2003)。第一個是計算n×n 的最短路徑距離矩陣DG。當(dāng)使用Floyd算法時,計算復(fù)雜度為O(n3);若采用Dijkstra算法,可將計算復(fù)雜度降低到O(kn2log n)(k 為近鄰數(shù)大?。?Cormen, 2001)。第二個計算瓶頸源于應(yīng)用MDS時的特征分解。由于距離矩陣是稠密的,所以特征分解的計算復(fù)雜度為O(n3)。從中我們可以看出,隨著樣本個數(shù)n 的增大,ISOMAP算法計算效率低下的問題會變得十分突出。2.1.3局部線性嵌入(LLE) 1、基本思想 與ISOMAP和MVU算法不同,局部線性嵌入算法(LLE)是一種局部特性保持方法。LLE算法的核心是保持降維前后近鄰之間的局部線性結(jié)構(gòu)不變。算法的主要思想是假定每個數(shù)據(jù)點與它的近鄰點位于流形的一個線性或近似線性的局部鄰域,在該鄰域中的數(shù)據(jù)點可以由其近鄰點來線性表示,重建低維流形時,相應(yīng)的內(nèi)在低維空間中的數(shù)據(jù)點保持相同的局部近鄰關(guān)系,即低維流形空間的每個數(shù)據(jù)點用其近鄰點線性表示的權(quán)重與它們在高維觀測空間中的線性表示權(quán)重相同,而各個局部鄰域之間的相互重疊部分則描述了由局部線性到全局非線性的排列信息(Roweis and Saul, 2000)。這樣就可以把高維輸入數(shù)據(jù)映射到全局唯一的低維坐標(biāo)系統(tǒng)。 2、算法流程 LLE算法的基本步驟分為三步:(1)選擇鄰域(2)計算重構(gòu)權(quán)值矩陣W(3)求低維嵌入Y 3、算法分析 通過前面算法描述我們不難發(fā)現(xiàn),LLE算法可以學(xué)習(xí)任意維具有局部線性結(jié)構(gòu)的低維流形。它以重構(gòu)權(quán)值矩陣作為高維觀測空間與低維嵌入空間之間聯(lián)系的橋梁,使得數(shù)據(jù)點與其近鄰點在平移、旋轉(zhuǎn)和縮放等變化下保持近鄰關(guān)系不變。而且LLE算法具有解析的全局最優(yōu)解,無需迭代。在算法的計算復(fù)雜度上,選擇鄰域的計算復(fù)雜度為O(Dn2),計算重構(gòu)權(quán)值矩陣的計算復(fù)雜度為O((D+k)k2n),求解低維嵌入Y 的計算復(fù)雜度為O(dn2)。因此與ISOMAP和MVU算法相比,LLE算法的計算復(fù)雜度要小得多。 但LLE算法也存在一些缺點:① 由于LLE算法只是保持局部近鄰的重構(gòu)權(quán)值關(guān)系,并不是保持距離關(guān)系,因此,LLE算法通常不能很好的恢復(fù)出具有等距性質(zhì)的流形。② LLE算法希望樣本集均勻稠密采樣于低維流形,因此,對于受噪聲污染、樣本密度稀疏或相互關(guān)聯(lián)較弱的數(shù)據(jù)集,在從高維觀測空間到低維嵌入空間的映射過程中,可能會將相互關(guān)聯(lián)較弱的遠(yuǎn)點映射到局部近鄰點的位置,從而破壞了低維嵌入結(jié)果。 第3章 流形學(xué)習(xí)方法存在的問題 流形學(xué)習(xí)相對于傳統(tǒng)的線性維數(shù)約簡方法來說,它能夠更好地發(fā)現(xiàn)高維復(fù)雜非線性數(shù)據(jù)內(nèi)在的幾何結(jié)構(gòu)與規(guī)律。但其各種算法本身還存在著一些普遍性的問題,比如本征維數(shù)估計問題、近鄰數(shù)選擇問題、噪聲流形學(xué)習(xí)問題、泛化學(xué)習(xí)問題和監(jiān)督學(xué)習(xí)問題等。本小節(jié)將對這些問題進(jìn)行簡要的分析和討論。 3.1 本征維數(shù)估計 本征維數(shù)估計是流形學(xué)習(xí)的一個基本問題(趙連偉 et al., 2005)。本征維數(shù)一般被定義為描述數(shù)據(jù)集中所有數(shù)據(jù)所需要的自由參數(shù)(或獨立坐標(biāo))的最小數(shù)目。它反映了隱藏在高維觀測數(shù)據(jù)中潛在低維流形的拓?fù)鋵傩浴T诜?線性維數(shù)約簡過程中,本征維數(shù)估計的準(zhǔn)確與否對低維空間的嵌入結(jié)果有著重要的影響。如果本征維數(shù)估計過大,將會保留數(shù)據(jù)的冗余信息,使嵌入結(jié)果中含有噪聲;相反如果本征維數(shù)估計過小,將會丟失數(shù)據(jù)的有用信息,導(dǎo)致高維空間中不同的點在低維空間可能會交疊。因此,設(shè)計穩(wěn)定可靠的本征維數(shù)估計方法將有助于流形學(xué)習(xí)算法的應(yīng)用和性能的改善。 目前現(xiàn)有的本征維數(shù)估計方法大致分為兩大類:特征映射法和幾何學(xué)習(xí)法(Camastra, 2003)。特征映射法包括全局 PCA 方法(Bennett, 1969)、局部 PCA 方法(Bruske and Sommer, 1998;Fukunaga and Olsen, 1971)和多維尺度分析方法(Cox and Cox, 2000),它主要利用了數(shù)據(jù)分布的本征特征是數(shù)據(jù)的局部特征的基本思想,對局部數(shù)據(jù)進(jìn)行特征分解,選取對應(yīng)特征值最大的特征向量作為本征特征。顯然,這類方法所估計的本征維數(shù)大小在很大程度上取決于數(shù)據(jù)的局部鄰域劃分和閾值的選擇,因此特征映射方法不能提供本征維數(shù)的可靠估計。幾何學(xué)習(xí)法主要基于最近鄰距離(Nearest Neighbor Distances)或分形維(Fractal Dimension)(Camastra, 2003)來探索數(shù)據(jù)集所蘊含的幾何信息,這類方法通常需要充足的樣本數(shù),因此,對于樣本數(shù)少、觀測空間維數(shù)較高的情況,經(jīng)常會出現(xiàn)本征維數(shù)欠估計的情況。 3.2近鄰數(shù)選擇 流形學(xué)習(xí)探測低維流形結(jié)構(gòu)成功與否在很大程度上取決于近鄰數(shù)的選擇(Zeng, 2008),然而在構(gòu)造近鄰圖時如何選擇一個合適的近鄰數(shù)是一個公開的問題。如果近鄰數(shù)選擇過大,將會產(chǎn)生“短路邊”現(xiàn)象(“short-circuit” edges),從而嚴(yán)重破壞原始流形數(shù)據(jù)的拓?fù)溥B通性。 3.3 噪聲流形學(xué)習(xí) 當(dāng)觀測數(shù)據(jù)均勻稠密采樣于一個理想的低維光滑流形時,流形學(xué)習(xí)方法可以成功地挖掘出其內(nèi)在的低維結(jié)構(gòu)和本質(zhì)規(guī)律。但是在實際應(yīng)用中,我們經(jīng)常發(fā)現(xiàn)高維采樣數(shù)據(jù)由于受各種因素的影響,一般總是存在著噪聲和污染,這將勢必影響流形學(xué)習(xí)算法的低維嵌入結(jié)果。3.4 監(jiān)督流形學(xué)習(xí) 現(xiàn)有的流形學(xué)習(xí)方法多數(shù)用于無監(jiān)督學(xué)習(xí)情況,如解決降維與數(shù)據(jù)可視化等問題。當(dāng)已知數(shù)據(jù)的類別信息,如何利用這些信息有效地改進(jìn)原始流形學(xué)習(xí)算法的分類識別能力是監(jiān)督流形學(xué)習(xí)所要解決的問題。從數(shù)據(jù)分類的角度來看,人們希望高維觀測數(shù)據(jù)經(jīng)過維數(shù)約簡后在低維空間中類內(nèi)差異小而類間差異大,從而有利于樣本的分類識別。原始的流形學(xué)習(xí)算法都是無監(jiān)督學(xué)習(xí)過程,一些引進(jìn)監(jiān)督信息的改進(jìn)算法紛紛被提出來(Li et al., 2009;Zhao et al., 2006)。這些方法的基本思想是利用樣本的類別信息指導(dǎo)構(gòu)建有監(jiān)督的近鄰圖,然后利用流形學(xué)習(xí)方法進(jìn)行低維嵌入。盡管這些方法能夠獲得較好的分類結(jié)果,但是這種通過類別屬性構(gòu)建的近鄰圖往往會被分割成多個互不相連的子圖,而不是一個完整的近鄰圖,這就給原始流形學(xué)習(xí)算法的最終應(yīng)用帶來了很大的不便。 第4章 總結(jié) 流形學(xué)習(xí)是一個具有基礎(chǔ)性、前瞻性的研究方向,其研究成果和技術(shù)已經(jīng)立即應(yīng)用于模式識別、計算機(jī)視覺、圖像處理等相關(guān)領(lǐng)域。如高維數(shù)據(jù)的可視化、可聽化;基于內(nèi)容檢索的模型;視頻中三維對象的跟蹤和檢測;從靜態(tài)二維圖像中進(jìn)行三維對象的姿態(tài)估計和識別;二維和三維對象的形狀重構(gòu);從運動中構(gòu)建結(jié)構(gòu)、從陰影中成形等。此外流形學(xué)習(xí)還應(yīng)用于自然語言處理、基因表達(dá)分析等生物信息處理領(lǐng)域,特別是在基因表達(dá)分析中,用于檢測和區(qū)分不同的疾病和疾病類型。 盡管流形學(xué)習(xí)的算法和應(yīng)用在過去的幾年中已經(jīng)取得了豐碩的成果,但是由于其數(shù)學(xué)理論基礎(chǔ)較為深厚復(fù)雜,以及多個學(xué)科之間交叉融合,所以仍有許多亟需研究和解決的問題,尤其在下述幾個方面: 1.目前已有很多流形學(xué)習(xí)算法,但很多算法只是建立在實驗的基礎(chǔ)之上,并沒有充分理論基礎(chǔ)支持,所以我們一方面要進(jìn)一步探索能夠有效學(xué)習(xí)到流形局部幾何和拓?fù)浣Y(jié)構(gòu)的算法,提高流形投影算法的性能,另外更重要的是要不斷完善理論基礎(chǔ)。 2.各支幾何都是研究空間在變換群下的不變性,微分幾何亦是如此。而很多情況下我們正需要這種不變性,所以研究局部樣本密度、噪聲水平、流形的正則性、局部曲率、撓率結(jié)構(gòu)的交互作用對流形學(xué)習(xí)的研究有積極促進(jìn)作用。 3.統(tǒng)計學(xué)習(xí)理論得到充分發(fā)展并逐漸成熟,流形學(xué)習(xí)理論在其基礎(chǔ)上發(fā)展自然可以把統(tǒng)計學(xué)中有用的技術(shù)應(yīng)用于流形學(xué)習(xí)中,如流形上的取樣和Monte Carlo估計、假設(shè)檢驗,以及流形上關(guān)于不變測度的概率分布密度問題,都值得進(jìn)一步研究。 4.目前大部分學(xué)習(xí)算法都是基于局部的,而基于局部算法一個很大缺陷就在于受噪聲影響較大,所以要研究減小局部方法對于噪聲和離群值的影響,提高學(xué)習(xí)算法魯棒性及泛化能力。 5.譜方法對噪聲十分敏感。希望大家自己做做實驗體會一下,流形學(xué)習(xí)中譜方法的脆弱。 6.采樣問題對結(jié)果的影響。 7.一個最尷尬的事情莫過于,如果用來做識別,流形學(xué)習(xí)線性化的方法比原來非線性的方法效果要好得多,如果用原始方法做識別,那個效果叫一個差。也正因為此,使很多人對流形學(xué)習(xí)產(chǎn)生了懷疑。 8.把偏微分幾何方法引入到流形學(xué)習(xí)中來是一個很有希望的方向。這樣的工作在最近一年已經(jīng)有出現(xiàn)的跡象。 參考文獻(xiàn) [1] R.Basri and D.W.Jacobs.Lambertian reflectance and linear subspaces.IEEE Transactions on Pattern Analysis and Machine Intelligence, 25(2):218–233, 2003.[2] R.Vidal.Subspace clustering.IEEE Signal Processing Magazine, 28(2):52–68, 2011.[3] J.Shi and J.Malik, “Normalized cuts and image segmentation,” IEEE Transactions Pattern Analysis Machine Intelligence, 22(8):888–905, 2000.[4] G.Liu, Z.Lin, S.Yan, J.Sun, Y.Yu, and Y.Ma.Robust recovery of subspace structures by low-rank representation.IEEE Transactions on Pattern Analysis and Machine Intelligence, 35(1):171–184, 2013.[5] E.Elhamifar and R.Vidal.Sparse subspace clustering: Algorithm, theory, and applications.IEEE Transactions on Pattern Analysis and Machine Intelligence, 35(11):2765–2781, 2013.[6] Y.Wang, Y.Jiang, Y.Wu, and Z.Zhou.Spectral clustering on multiple manifolds.IEEE Transactions on Neural Networks, 22(7):1149–1161, 2011.[7] B.Cheng, G.Liu, J.Wang, Z.Huang, and S.Yan, Multi-task low rank affinity pursuit for image segmentation, ICCV, 2011.[8] C.Lang, G.Liu, J.Yu, and S.Yan, Saliency detection by multitask sparsity pursuit, IEEE Transactions on Image Processing, 21(3): 1327–1338, 2012.第三篇:普開數(shù)據(jù)大數(shù)據(jù)培訓(xùn)項目開發(fā)實習(xí)總結(jié)
第四篇:在普開數(shù)據(jù)大數(shù)據(jù)培訓(xùn)班學(xué)習(xí)的日子
第五篇:大數(shù)據(jù)課程報告