欧美色欧美亚洲高清在线观看,国产特黄特色a级在线视频,国产一区视频一区欧美,亚洲成a 人在线观看中文

  1. <ul id="fwlom"></ul>

    <object id="fwlom"></object>

    <span id="fwlom"></span><dfn id="fwlom"></dfn>

      <object id="fwlom"></object>

      數(shù)據(jù)服務(wù) 電子科技大學(xué):一體化大數(shù)據(jù)提供師生精準(zhǔn)畫(huà)像

      時(shí)間:2019-05-13 03:00:53下載本文作者:會(huì)員上傳
      簡(jiǎn)介:寫(xiě)寫(xiě)幫文庫(kù)小編為你整理了多篇相關(guān)的《數(shù)據(jù)服務(wù) 電子科技大學(xué):一體化大數(shù)據(jù)提供師生精準(zhǔn)畫(huà)像》,但愿對(duì)你工作學(xué)習(xí)有幫助,當(dāng)然你在寫(xiě)寫(xiě)幫文庫(kù)還可以找到更多《數(shù)據(jù)服務(wù) 電子科技大學(xué):一體化大數(shù)據(jù)提供師生精準(zhǔn)畫(huà)像》。

      第一篇:數(shù)據(jù)服務(wù) 電子科技大學(xué):一體化大數(shù)據(jù)提供師生精準(zhǔn)畫(huà)像

      數(shù)據(jù)服務(wù)

      電子科技大學(xué):一體化大數(shù)據(jù)提供師生精準(zhǔn)畫(huà)像

      近年來(lái),有部分國(guó)內(nèi)高校開(kāi)始了數(shù)據(jù)挖掘的探索。比如,浙江大學(xué)通過(guò)對(duì)資產(chǎn)的歸納、整理,最終形成權(quán)威、全面的資產(chǎn)數(shù)據(jù),并提供數(shù)據(jù)查詢和分析服務(wù)。這些數(shù)據(jù)分析的結(jié)果能夠提高教室、實(shí)驗(yàn)室等資源的利用率。復(fù)旦大學(xué)對(duì)特定群體的學(xué)生進(jìn)行數(shù)據(jù)分析,發(fā)現(xiàn)了來(lái)自不同區(qū)域、不同背景學(xué)生成績(jī)的顯著差異性。清華大學(xué)開(kāi)展了對(duì)優(yōu)秀學(xué)生成長(zhǎng)追蹤,觀察成長(zhǎng)路徑的研究。以上可以看出,雖然這些高校已經(jīng)開(kāi)始通過(guò)簡(jiǎn)單統(tǒng)計(jì)和相關(guān)分析進(jìn)行數(shù)據(jù)挖掘,但是這些數(shù)據(jù)沒(méi)有完全打通并協(xié)同分析,而且分析缺乏深度性和廣度性。

      針對(duì)這些智慧校園建設(shè)的不足,電子科技大學(xué)利用大數(shù)據(jù)技術(shù),研究設(shè)計(jì)了統(tǒng)一的校園大數(shù)據(jù)分析決策平臺(tái),并首次提出教育大數(shù)據(jù)一體化平臺(tái)的概念。

      該平臺(tái)不僅可以自動(dòng)化地接入來(lái)自于校內(nèi)的業(yè)務(wù)系統(tǒng)數(shù)據(jù)、資源使用數(shù)據(jù)、網(wǎng)絡(luò)日志數(shù)據(jù),而且能夠接入來(lái)自于校外的互聯(lián)網(wǎng)數(shù)據(jù)。在數(shù)據(jù)治理和隱私保護(hù)之后,進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化,存放在數(shù)據(jù)中心,同時(shí)通過(guò)應(yīng)用程序接口的方式,進(jìn)行數(shù)據(jù)認(rèn)證式的共享,成功地解決了全校各個(gè)管理服務(wù)系統(tǒng)分割獨(dú)立,數(shù)據(jù)共享困難的問(wèn)題。

      更突出的是一體化平臺(tái)中的計(jì)算中心周期性地調(diào)用數(shù)據(jù)接口,進(jìn)行包括掛科預(yù)警、貧困生挖掘等的大數(shù)據(jù)分析與預(yù)測(cè),將分析與預(yù)測(cè)的結(jié)果提供給最上層的各類應(yīng)用服務(wù)。電子科技大學(xué)運(yùn)用教育大數(shù)據(jù)一體化平臺(tái)提升高校管理服務(wù)水平和質(zhì)量,既是一個(gè)集成不同部門(mén)、層次信息數(shù)據(jù)的系統(tǒng)性工程,又是一個(gè)面向世界一流大學(xué)創(chuàng)新管理服務(wù)體系。教育大數(shù)據(jù)一體化平臺(tái)體系架構(gòu)教育大數(shù)據(jù)一體化平臺(tái)是數(shù)據(jù)整合、清洗與分析挖掘的開(kāi)放平臺(tái)。教育大數(shù)據(jù)一體化平臺(tái)的架構(gòu)如圖1所示,它由三大中心組成,分別為數(shù)據(jù)中心、應(yīng)用中心和運(yùn)維中心。

      數(shù)據(jù)中心旨在打破數(shù)據(jù)孤島,以80%的通用性對(duì)接現(xiàn)有的校園業(yè)務(wù)系統(tǒng),整合教務(wù)處、學(xué)生處、圖書(shū)館等部門(mén)的業(yè)務(wù)數(shù)據(jù),同時(shí)對(duì)整合后的數(shù)據(jù)進(jìn)行清洗、管理與隱私保護(hù),形成標(biāo)準(zhǔn)化的校園數(shù)據(jù)。

      應(yīng)用中心不僅提供隱私化的數(shù)據(jù)認(rèn)證接口與大數(shù)據(jù)算法服務(wù),而且整合如學(xué)生畫(huà)像、教師畫(huà)像等多樣化的校園管理應(yīng)用,并不斷橫向擴(kuò)展,形成“一平臺(tái)、多應(yīng)用”的服務(wù)體系。運(yùn)維中心采集系統(tǒng)應(yīng)用日志以及機(jī)器數(shù)據(jù)并為其建立索引,構(gòu)建強(qiáng)有力的搜索、分析和可視化能力,以提供日常運(yùn)維支持。

      通過(guò)三大中心的協(xié)同工作,一體化平臺(tái)打破了學(xué)校各職能部門(mén)的數(shù)據(jù)孤島,不僅可以為校園師生提供便捷、高效、精準(zhǔn)的個(gè)性化引導(dǎo)和服務(wù),而且能為學(xué)校開(kāi)展精準(zhǔn)化、智能化師生服務(wù)提供總體解決方案。

      基于該平臺(tái),電子科技大學(xué)已開(kāi)發(fā)了多項(xiàng)成熟的應(yīng)用服務(wù),如學(xué)生畫(huà)像、精準(zhǔn)資助、失聯(lián)告警、教師畫(huà)像、科研探索、財(cái)務(wù)評(píng)估等系統(tǒng)。本文將以“學(xué)生畫(huà)像”系統(tǒng)和“教師畫(huà)像”系統(tǒng)為例介紹教育大數(shù)據(jù)一體化平臺(tái)的應(yīng)用創(chuàng)新。學(xué)生畫(huà)像:讓學(xué)生得到精準(zhǔn)的幫助學(xué)生畫(huà)像利用數(shù)據(jù)中心提供的標(biāo)準(zhǔn)化行為與內(nèi)容數(shù)據(jù),包括課程成績(jī)、圖書(shū)館借閱、一卡通消費(fèi)等,運(yùn)用大數(shù)據(jù)分析手段,量化學(xué)生在規(guī)律性、努力程度、學(xué)習(xí)技能、經(jīng)濟(jì)狀況、社交關(guān)系等多維度的特性,揭示學(xué)生成長(zhǎng)軌跡,基于預(yù)測(cè)模型對(duì)學(xué)生的學(xué)業(yè)成績(jī)、就業(yè)傾向、心理狀況等進(jìn)行預(yù)測(cè),從而可以為學(xué)校對(duì)學(xué)生進(jìn)行個(gè)性化與精準(zhǔn)化的教育管理與引導(dǎo)提供重要依據(jù)。下面針對(duì)以下幾個(gè)方面進(jìn)行進(jìn)一步闡述。1學(xué)業(yè)成績(jī)預(yù)測(cè)成績(jī)特別好、特別差和成績(jī)突變的學(xué)生是教育者最關(guān)心的人群。直觀地說(shuō),學(xué)生成績(jī)和他們的基礎(chǔ)知識(shí)掌握情況有密切關(guān)系。特別地,基礎(chǔ)知識(shí)的掌握好壞可以影響到學(xué)生在相關(guān)課程中的成績(jī)。

      為此,借助以往課程成績(jī)信息,基于矩陣分解的降維技術(shù),分析學(xué)生對(duì)具體基礎(chǔ)知識(shí)的掌握程度,并獲得每門(mén)課程所含有的知識(shí)體系。基于這些信息,該系統(tǒng)不僅可以預(yù)測(cè)出每個(gè)學(xué)生在其他課程的得分,也可以預(yù)測(cè)出這個(gè)學(xué)生在其他課程的掛科可能性。這個(gè)算法背后的思想是通過(guò)分析課程之間在知識(shí)體系上的相關(guān)性來(lái)進(jìn)行成績(jī)預(yù)測(cè)或者掛科預(yù)測(cè)。比如某學(xué)生在以往課程中曾修過(guò)微積分Ⅰ但成績(jī)不好而且掛科了,那么當(dāng)他在修讀微積分Ⅱ的時(shí)候,預(yù)警系統(tǒng)就會(huì)預(yù)警該學(xué)生的掛科可能性比較大,提示教育者及早發(fā)現(xiàn)問(wèn)題并進(jìn)行干預(yù),盡可能避免掛科問(wèn)題。因而,掛科預(yù)警實(shí)現(xiàn)了從后置性應(yīng)急管理轉(zhuǎn)變?yōu)榍爸眯灶A(yù)警引導(dǎo)。

      由于課程成績(jī)數(shù)據(jù)更新頻率低,掛科預(yù)警無(wú)法實(shí)時(shí)更新預(yù)測(cè)結(jié)果。然而,根據(jù)我們研究發(fā)現(xiàn),學(xué)生成績(jī)也和自身的學(xué)習(xí)以及生活行為習(xí)慣特性密切相關(guān)。學(xué)生在校園內(nèi)的行為習(xí)慣的變化是可以實(shí)時(shí)監(jiān)測(cè)的,對(duì)于預(yù)測(cè)成績(jī)的變化特別有價(jià)值,所以為實(shí)時(shí)地預(yù)測(cè)學(xué)生成績(jī)提供可能。該學(xué)業(yè)成績(jī)預(yù)測(cè)系統(tǒng)借助了兩個(gè)影響成績(jī)最顯著的行為特性:努力程度和生活規(guī)律性對(duì)學(xué)生進(jìn)行刻畫(huà)。用學(xué)生去教學(xué)樓打水、出入圖書(shū)館的次數(shù)度量其努力程度。該次數(shù)可以反映學(xué)生上自習(xí)或者上課的頻率,間接反映了學(xué)生花在學(xué)習(xí)上的時(shí)間。因而,去教學(xué)樓打水次數(shù)高的學(xué)生、頻繁去圖書(shū)館的同學(xué)成績(jī)較好。用學(xué)生出入宿舍、吃早飯、洗澡等行為習(xí)慣數(shù)據(jù)衡量其生活規(guī)律性。生活規(guī)律性與心理學(xué)中大五人格中的盡責(zé)性密切相關(guān),而心理學(xué)的研究表明,盡責(zé)性高的學(xué)生,表現(xiàn)為自律、細(xì)心、有條理性,有更好的學(xué)習(xí)成績(jī)。因而為研究行為規(guī)律性和成績(jī)的相關(guān)性提供了理論支持。在實(shí)證研究中,我們發(fā)現(xiàn),按時(shí)吃早餐的學(xué)生往往會(huì)顯出更好的成績(jī)。這背后的原因可能是早飯進(jìn)餐這個(gè)事件在個(gè)體層面具有很強(qiáng)的隨意性,因而對(duì)個(gè)體的自律與自控能力有較高的要求。除了努力程度和生活規(guī)律性這兩個(gè)指標(biāo)外,學(xué)生的圖書(shū)借閱歷史也和成績(jī)密切相關(guān)。因?yàn)榻栝喌膱D書(shū)可以反映出學(xué)生的興趣愛(ài)好,不同的興趣愛(ài)好會(huì)對(duì)成績(jī)有不同的影響。研究發(fā)現(xiàn)成績(jī)好的學(xué)生借閱專業(yè)方向的進(jìn)階讀物,而成績(jī)差的同學(xué)喜歡借閱諸如小說(shuō)的各類課外讀物。此外,量化了每本書(shū)和成績(jī)的相關(guān)性,使得可以更加精準(zhǔn)地進(jìn)行圖書(shū)推薦。最后,基于努力程度、生活規(guī)律性、基礎(chǔ)知識(shí)以及興趣愛(ài)好這些特性,設(shè)計(jì)多任務(wù)遷移學(xué)習(xí)算法來(lái)進(jìn)行未來(lái)成績(jī)的預(yù)測(cè)。該算法不僅通過(guò)多任務(wù)特性考慮了特征相關(guān)性在學(xué)院之間的差異性,而且還通過(guò)遷移學(xué)習(xí)特點(diǎn)考慮了不同學(xué)期之間相關(guān)性的變化。得出學(xué)生的成績(jī)預(yù)測(cè)分析,能很好地反映出學(xué)生成績(jī)的未來(lái)走勢(shì)。

      2職業(yè)傾向預(yù)測(cè)數(shù)據(jù)分析發(fā)現(xiàn)學(xué)生家庭經(jīng)濟(jì)狀況、技能掌握情況、興趣愛(ài)好是影響學(xué)生就業(yè)去向的關(guān)鍵因子。家庭經(jīng)濟(jì)狀況主要通過(guò)分析學(xué)生消費(fèi)數(shù)據(jù),建立起消費(fèi)數(shù)據(jù)時(shí)間序列,度量消費(fèi)的波動(dòng)性、周期性與沖動(dòng)性等。通過(guò)分析學(xué)生的課程成績(jī),判斷出學(xué)生所掌握的專業(yè)技能來(lái)預(yù)測(cè)職業(yè)選擇。

      最后,不同職業(yè)傾向的人的圖書(shū)借閱偏好會(huì)表現(xiàn)出較大差別,如考研的學(xué)生往往傾向于數(shù)學(xué)等考研科目的書(shū),出國(guó)的學(xué)生則對(duì)外國(guó)文學(xué)和歷史、雅思和托福類書(shū)籍情有獨(dú)鐘。通過(guò)對(duì)以上三類數(shù)據(jù)的收集、分析和挖掘,就能很好地對(duì)學(xué)生未來(lái)就業(yè)傾向進(jìn)行精準(zhǔn)的預(yù)測(cè),有利于就業(yè)指導(dǎo)教師為畢業(yè)生提供個(gè)性化的就業(yè)引導(dǎo)。

      3社交網(wǎng)絡(luò)構(gòu)建與挖掘社交網(wǎng)絡(luò)的構(gòu)建是通過(guò)分析學(xué)生之間校園行為軌跡相似性來(lái)實(shí)現(xiàn)的,特別是統(tǒng)計(jì)學(xué)生在地點(diǎn)共現(xiàn)(短時(shí)間內(nèi)出現(xiàn)在同一地點(diǎn))的頻率,分析共現(xiàn)的顯著性。同時(shí)通過(guò)大數(shù)據(jù)的挖掘與分析,給不同個(gè)體賦上獨(dú)特屬性標(biāo)簽,如專業(yè)、性別、民族等,并以此分析出其個(gè)性化的社交需求,對(duì)其社交圈進(jìn)行刻畫(huà)。以此為其定制與之適應(yīng)的社交網(wǎng)絡(luò)推薦與信息推送服務(wù),并將個(gè)體數(shù)據(jù)分析結(jié)果展現(xiàn)給學(xué)校學(xué)生管理工作者為其提供更好的管理工作參考。系統(tǒng)為學(xué)生匹配有相同行為習(xí)慣及興趣愛(ài)好的個(gè)體與其建立社交關(guān)系,以此構(gòu)建具有共同文化認(rèn)可的社交群體,更好地服務(wù)于學(xué)生個(gè)體的社會(huì)交往需要,對(duì)學(xué)生成長(zhǎng)起到良性正面的促進(jìn)作用。

      4精準(zhǔn)資助認(rèn)定準(zhǔn)確定位扶助對(duì)象是實(shí)施“精準(zhǔn)扶貧”管理服務(wù)的前提,客觀、動(dòng)態(tài)和多維度大數(shù)據(jù)整合庫(kù),是實(shí)施“精準(zhǔn)扶貧”的基礎(chǔ)。對(duì)貧困生判定的影響因子主要有以下幾類:(1)學(xué)生家庭信息,包括學(xué)生家庭成員組成、家庭成員就職單位、成員學(xué)歷、家庭年收入、負(fù)債金額等基本家庭信息。(2)歷史資助信息,收集學(xué)生以往獲得的資助信息,為其建立基礎(chǔ)的數(shù)據(jù)庫(kù),以便于查詢學(xué)生是否獲得資助、資助金額以及經(jīng)濟(jì)困難情況。(3)在校一卡通消費(fèi)數(shù)據(jù)特征,包括一卡通平均單次消費(fèi)金額、單次充值金額及充值間隔、月消費(fèi)總額、逐月消費(fèi)變化趨勢(shì)、消費(fèi)時(shí)間段規(guī)律等。國(guó)內(nèi)某大學(xué)就是利用這方面數(shù)據(jù)判別貧困生,將1個(gè)月消費(fèi)次數(shù)在60次以上,月消費(fèi)金額在200元以下的學(xué)生認(rèn)定為貧困生。這種單一的判別方式誤差會(huì)很大,影響判定貧困生的因素很多,應(yīng)該綜合考慮。(4)資助獲得后消費(fèi)習(xí)慣改變的數(shù)據(jù)信息,如在獲得資助之后出現(xiàn)沖動(dòng)消費(fèi)及大額消費(fèi)的數(shù)據(jù)信息。(5)他人的客觀評(píng)價(jià),收集來(lái)自于輔導(dǎo)員及周圍同學(xué)日常評(píng)價(jià)并轉(zhuǎn)換為量化數(shù)據(jù)。通過(guò)對(duì)以上數(shù)據(jù)的收集和處理分析,構(gòu)建起家庭經(jīng)濟(jì)困難學(xué)生專項(xiàng)大數(shù)據(jù)庫(kù),在大數(shù)據(jù)分析的基礎(chǔ)上,建立起經(jīng)濟(jì)困難學(xué)生精準(zhǔn)識(shí)別系統(tǒng)如圖2所示。它可以實(shí)現(xiàn)兩個(gè)主要功能:一是識(shí)別虛假貧困生,能夠有效識(shí)別家庭情況較好的學(xué)生申報(bào)貧困生冒領(lǐng)國(guó)家資助的現(xiàn)象,對(duì)于這類學(xué)生取消其資助資格并降低其信用評(píng)級(jí);二是發(fā)現(xiàn)潛在貧困生,個(gè)別家庭貧困學(xué)生由于自尊心較強(qiáng)等因素,往往不主動(dòng)申請(qǐng)資助,使得這類學(xué)生難以通過(guò)傳統(tǒng)的方式來(lái)發(fā)現(xiàn)?,F(xiàn)在通過(guò)精準(zhǔn)資助識(shí)別系統(tǒng),能迅速地發(fā)現(xiàn)此類學(xué)生,采取發(fā)放隱性補(bǔ)助的方式進(jìn)行幫扶(如每月定時(shí)向其銀行卡中轉(zhuǎn)入一定數(shù)額資金),以及實(shí)施動(dòng)態(tài)補(bǔ)助等方式,很好地幫助困難資助管理工作者對(duì)學(xué)生資助信息實(shí)施動(dòng)態(tài)管理。通過(guò)以上流程構(gòu)建起數(shù)據(jù)收集、存儲(chǔ)、分析和數(shù)據(jù)挖掘?yàn)橐惑w的大數(shù)據(jù)精準(zhǔn)篩選、甄別和定位系統(tǒng),客觀公正且及時(shí)、動(dòng)態(tài)和準(zhǔn)確地識(shí)別校園亟待資助和扶助對(duì)象。

      同時(shí)建立學(xué)生網(wǎng)絡(luò)誠(chéng)信檔案體系,堅(jiān)持精準(zhǔn)資助與誠(chéng)信教育結(jié)合,核實(shí)學(xué)生資助申請(qǐng)材料并將其轉(zhuǎn)化為大數(shù)據(jù)記錄,將申請(qǐng)資助過(guò)程中的不誠(chéng)信行為記入學(xué)生誠(chéng)信檔案并做好大數(shù)據(jù)標(biāo)識(shí),為管理者切實(shí)做好精準(zhǔn)資助工作提供有力的技術(shù)支持。該精準(zhǔn)獎(jiǎng)助識(shí)別系統(tǒng)已經(jīng)在電子科技大學(xué)等高校推廣應(yīng)用,取得了很好的應(yīng)用效果。

      教師畫(huà)像:為教師學(xué)術(shù)發(fā)展提供信息“教師畫(huà)像”系統(tǒng)是通過(guò)打通校園管理層面不同業(yè)務(wù)系統(tǒng)之間的數(shù)據(jù)孤島,實(shí)現(xiàn)以教師為主體的數(shù)據(jù)挖掘,對(duì)教師個(gè)體及群體的人事信息、科研項(xiàng)目、學(xué)科成果及教學(xué)狀況進(jìn)行精準(zhǔn)刻畫(huà),服務(wù)于高校人事、科研管理的數(shù)據(jù)支撐系統(tǒng)。

      它具有三大優(yōu)勢(shì),一,全面:建立各門(mén)類數(shù)據(jù)橋梁,全盤(pán)掌握學(xué)校的人事、科研、教學(xué)現(xiàn)狀;二,高效:打通數(shù)據(jù)流通渠道,實(shí)現(xiàn)信息聚合,提高數(shù)據(jù)匯總效率;三,前瞻:挖掘數(shù)據(jù)相關(guān)性,發(fā)現(xiàn)數(shù)據(jù)潛在價(jià)值,為管理者提供決策依據(jù)。“教師畫(huà)像”系統(tǒng)應(yīng)用方案如圖3所示,它首先整合校內(nèi)外數(shù)據(jù),內(nèi)部數(shù)據(jù)包括高校自身產(chǎn)生的項(xiàng)目、人員、經(jīng)費(fèi)、設(shè)備等數(shù)據(jù)信息;外部數(shù)據(jù)包括各大公開(kāi)的科研成果數(shù)據(jù)庫(kù),以及各大知名高校的科研人才數(shù)據(jù)等。然后對(duì)這些數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換、重構(gòu)提取有效信息并將提取后的信息存入數(shù)據(jù)倉(cāng)庫(kù);使用關(guān)聯(lián)分析技術(shù)對(duì)科研管理系統(tǒng)、財(cái)務(wù)系統(tǒng)、人事系統(tǒng)以及基于互聯(lián)網(wǎng)的大型科技文獻(xiàn)數(shù)據(jù)庫(kù)、專利庫(kù)等數(shù)據(jù)資源進(jìn)行關(guān)聯(lián)分析,找出數(shù)據(jù)的相關(guān)性,提取有價(jià)值的信息。將提取的信息應(yīng)用在教師工作評(píng)估、教師成長(zhǎng)軌跡分析、高質(zhì)量人才引進(jìn)建議、學(xué)科前沿研究方向探索、科技評(píng)價(jià)方法完善等服務(wù)上,為解決高校人事管理工作兩大核心問(wèn)題“外引”、“內(nèi)培”提供建設(shè)性意見(jiàn),為傳統(tǒng)的專家定性決策管理提供廣泛的、深入的數(shù)據(jù)支持。該畫(huà)像系統(tǒng)的主要應(yīng)用表現(xiàn)在以下幾個(gè)方面: 1.教師工作績(jī)效自動(dòng)評(píng)估

      教師工作績(jī)效自動(dòng)評(píng)估系統(tǒng)通過(guò)整合人事、科研、財(cái)務(wù)、教學(xué)等多門(mén)類數(shù)據(jù)信息,采用教師經(jīng)費(fèi)效益、經(jīng)費(fèi)使用情況、成果影響力、成果轉(zhuǎn)化、同行意見(jiàn)等多維度的評(píng)價(jià)因素,并支持不同單位結(jié)合各單位的實(shí)際情況調(diào)整評(píng)價(jià)模型,全方面呈現(xiàn)教師在科研和教學(xué)工作的成績(jī),從而為教師的入職、晉升、聘任、培訓(xùn)和獎(jiǎng)懲提供定量化決策依據(jù)。避免了傳統(tǒng)教師績(jī)效評(píng)估受到的人為因素影響,使得評(píng)估結(jié)果更加客觀、準(zhǔn)確。2.工作軌跡評(píng)估

      傳統(tǒng)的教師發(fā)展研究主要停留在經(jīng)驗(yàn)層面,傳統(tǒng)的教師信息系統(tǒng)只能看到單一的信息,而“教師畫(huà)像”是利用大數(shù)據(jù)刻畫(huà)教師,基于教師基礎(chǔ)信息數(shù)據(jù)(包括學(xué)習(xí)經(jīng)歷、海外經(jīng)歷、工作經(jīng)歷、崗位聘任經(jīng)歷、科研項(xiàng)目、學(xué)科成果等),圍繞教師職業(yè)素養(yǎng)、專業(yè)知識(shí)、專業(yè)能力、工作績(jī)效等多方面構(gòu)建教師成長(zhǎng)軌跡,并分析影響教師的發(fā)展因素,從而制定個(gè)性化成長(zhǎng)方案,如預(yù)測(cè)發(fā)表論文數(shù)量、能否入選人才計(jì)劃、優(yōu)秀青年教師等。尋求適合教師的個(gè)性化發(fā)展路線,引導(dǎo)教師可持續(xù)發(fā)展,實(shí)現(xiàn)教師個(gè)人與學(xué)校發(fā)展的“雙贏”。3.學(xué)術(shù)圈層研究

      搜集學(xué)術(shù)、社交網(wǎng)絡(luò)等多門(mén)類廣泛的數(shù)據(jù),如搜索每個(gè)文章的合作者,構(gòu)建合作者網(wǎng)絡(luò),挖掘隱藏其中的人才關(guān)系。實(shí)現(xiàn)以人才為中心的數(shù)據(jù)整合,構(gòu)建各學(xué)科的學(xué)術(shù)圈層網(wǎng)絡(luò)。利用該網(wǎng)絡(luò)一方面可以為校內(nèi)教師尋找?guī)椭约禾嵘耐獠坷蠋?,另一方面挖掘有潛力的學(xué)術(shù)新星,幫助高校人事部門(mén)有針對(duì)性地獲悉人才有效信息,成功獵取高質(zhì)量人才。4.科研熱點(diǎn)

      科研工作不能閉門(mén)造車,及時(shí)掌握時(shí)下國(guó)內(nèi)外的科研熱點(diǎn)及難點(diǎn),結(jié)合自身能力與學(xué)科特點(diǎn)進(jìn)行有效的科研工作對(duì)于科研工作者至關(guān)重要。而在海量數(shù)據(jù)中分析當(dāng)下學(xué)科研究的熱點(diǎn)及前沿,單憑人力是很難做到的,需要借助于大數(shù)據(jù)分析技術(shù)。科研熱點(diǎn)分析首先收集國(guó)內(nèi)外論文數(shù)據(jù)庫(kù)、專利申報(bào)及項(xiàng)目審批等科研熱點(diǎn)數(shù)據(jù)信息,再對(duì)過(guò)濾后的海量數(shù)據(jù)利用大數(shù)據(jù)算法進(jìn)行挖掘分析,最后有效預(yù)測(cè)科研熱點(diǎn),并結(jié)合高校學(xué)科建設(shè)現(xiàn)狀與特點(diǎn),分析各學(xué)科前沿研究方向。為科研工作者的科研工作提供有力的科研數(shù)據(jù)支撐,為其選定符合自身學(xué)科特點(diǎn)的科研發(fā)展方向提供有效建議,幫助其有效定位自身科研工作努力方向及深度。

      目前,一場(chǎng)以云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)、移動(dòng)應(yīng)用、智能控制技術(shù)為核心的“新IT”浪潮風(fēng)起云涌。大數(shù)據(jù)技術(shù)在教育領(lǐng)域的廣泛應(yīng)用,必將催生教育領(lǐng)域的深刻變革。對(duì)此,電子科技大學(xué)抓住機(jī)遇,迎接挑戰(zhàn),利用大數(shù)據(jù)技術(shù)開(kāi)創(chuàng)性地構(gòu)建了教育大數(shù)據(jù)一體化平臺(tái),基于此平臺(tái)創(chuàng)新性地分別開(kāi)發(fā)了服務(wù)于學(xué)生和教師的“學(xué)生畫(huà)像”和“教師畫(huà)像”系統(tǒng)。利用“學(xué)生畫(huà)像”系統(tǒng)提供了精準(zhǔn)預(yù)測(cè)學(xué)生成績(jī),就業(yè)傾向預(yù)測(cè)和指導(dǎo),助力學(xué)生精準(zhǔn)資助等個(gè)性化、精準(zhǔn)化的管理服務(wù);利用“教師畫(huà)像”系統(tǒng)提供教師工作評(píng)估、教師成長(zhǎng)軌跡分析、高質(zhì)量人才引進(jìn)建議、學(xué)科前沿研究方向探索、科技評(píng)價(jià)方法完善等服務(wù)。作者:呂紅胤 于晨陽(yáng) 蘇涵 連德富 顏凱

      第二篇:基于Spark的大數(shù)據(jù)精準(zhǔn)營(yíng)銷中搜狗搜索引擎的用戶畫(huà)像挖掘

      基于Spark的大數(shù)據(jù)精準(zhǔn)營(yíng)銷中搜狗搜索引擎的用戶畫(huà)像挖掘

      近期參加了CCF舉辦的“大數(shù)據(jù)精準(zhǔn)營(yíng)銷中搜狗用戶畫(huà)像挖掘”競(jìng)賽,最終得到復(fù)賽第32名。正好這學(xué)期《機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘》課程需要一個(gè)實(shí)驗(yàn)報(bào)告的大作業(yè),于是就那它來(lái)寫(xiě)了。本博文會(huì)在這幾周不斷的完善更新ing

      1.選題背景與意義

      1.1 用戶畫(huà)像與精準(zhǔn)營(yíng)銷

      “用戶畫(huà)像”是近幾年誕生的名詞。很多營(yíng)銷項(xiàng)目或很多廣告主,在打算投放廣告前,都要求媒體提供其用戶畫(huà)像。在以前,大多媒體會(huì)針對(duì)自身用戶做一個(gè)分類,但是有了大數(shù)據(jù)后,企業(yè)及消費(fèi)者行為帶來(lái)一系列改變與重塑,通過(guò)用戶畫(huà)像可以更加擬人化的描述用戶特點(diǎn)。

      用戶畫(huà)像,即用戶信息標(biāo)簽化,就是企業(yè)通過(guò)收集與分析消費(fèi)者社會(huì)屬性、生活習(xí)慣、消費(fèi)行為等主要信息的數(shù)據(jù)之后,完美地抽象出一個(gè)用戶的商業(yè)全貌,可以看作是企業(yè)應(yīng)用大數(shù)據(jù)技術(shù)的基本方式。用戶畫(huà)像為企業(yè)提供了足夠的信息基礎(chǔ),能夠幫助企業(yè)快速找到精準(zhǔn)用戶群體以及用戶需求等更為廣泛的反饋信息。

      消費(fèi)方式的改變促使用戶迫切希望盡快獲取自己想要了解的信息,所以說(shuō),基于用戶畫(huà)像上的精準(zhǔn)營(yíng)銷不管對(duì)企業(yè)還是對(duì)用戶來(lái)說(shuō),都是有需求的,這會(huì)給雙方交易帶來(lái)極大便捷,也為雙方平等溝通搭建了一個(gè)暢通平臺(tái)。

      1.2 搜索引擎下用戶畫(huà)像的挑戰(zhàn)

      在搜索引擎下,由于搜索引擎本身使用方式的特殊性、用戶的流動(dòng)性、查詢的實(shí)時(shí)性等,帶來(lái)了與企業(yè)傳統(tǒng)的對(duì)用戶信息進(jìn)行收集與分析有著巨大的不同、更加艱巨的挑戰(zhàn)。

      例如,我們實(shí)時(shí)獲取到的是用戶的查詢語(yǔ)句,而由于用戶的流動(dòng)性,并不能直接獲取到如年齡、性別、學(xué)歷等用戶的標(biāo)簽信息。這么一來(lái),也就無(wú)法根據(jù)用戶屬性對(duì)用戶進(jìn)行分群處理,而后再通過(guò)推薦系統(tǒng)進(jìn)行產(chǎn)品上的優(yōu)化

      1.3 本文內(nèi)容概要

      本文內(nèi)容概要如下:

      第1章:簡(jiǎn)介用戶畫(huà)像與搜索引擎下用戶畫(huà)像的精準(zhǔn)營(yíng)銷的挑戰(zhàn)。第2章:說(shuō)明實(shí)驗(yàn)集群、數(shù)據(jù)與課題研究目標(biāo)。

      第3章:介紹使用分詞工具對(duì)用戶的搜索詞列進(jìn)行分詞,以及相關(guān)的優(yōu)化方案。第4章:介紹在分詞的基礎(chǔ)上,對(duì)文本進(jìn)行特征的抽取與轉(zhuǎn)換,以及相關(guān)的優(yōu)化方案。第5章:介紹在原始特征向量上,進(jìn)行聚類與降維。第6章:介紹實(shí)驗(yàn)中試驗(yàn)過(guò)各分類模型 第7章:介紹模型參數(shù)調(diào)優(yōu)

      第8章:總結(jié)本課題研究中不足與展望后續(xù)的優(yōu)化方案 第9章:參考文獻(xiàn) 2.課題實(shí)驗(yàn)準(zhǔn)備

      2.1 Spark集群

      節(jié)點(diǎn) cdh01 cdh02 cdh03 cdh04 備注

      8核,32G內(nèi)存,角色:Spark Master,HDFS NameNode,Spark Worker,HDFS DataNode 8核,12G內(nèi)存,角色:Spark Worker,HDFS DataNode 8核,12G內(nèi)存,角色:Spark Worker,HDFS DataNode 8核,12G內(nèi)存,角色:Spark Worker,HDFS DataNode 2.2 數(shù)據(jù)集

      數(shù)據(jù)文件 備注

      Train.csv 帶標(biāo)注的訓(xùn)練集 Test.csv 測(cè)試集 2.3 數(shù)據(jù)介紹

      本數(shù)據(jù)來(lái)源于搜狗搜索數(shù)據(jù),ID經(jīng)過(guò)加密,訓(xùn)練集中人口屬性數(shù)據(jù)存在部分未知的情況(需要解決方案能夠考慮數(shù)據(jù)缺失對(duì)算法性能的影響)。數(shù)據(jù)所有字段如下表所示:

      字段 ID age 說(shuō)明 加密后的ID 0:未知年齡;1:0-18歲;2:19-23歲;3:24-30歲;4:31-40歲;5:41-50歲;6: 51-999歲

      Gender 0:未知1:男性2:女性

      Education 0:未知學(xué)歷;1:博士;2:碩士;3:大學(xué)生;4:高中;5:初中;6:小學(xué) Query List 搜索詞列表 2.4 數(shù)據(jù)示例

      對(duì)于train.csv中的數(shù)據(jù)記錄:

      00627779E16E7C09B975B2CE13C088CB 4 2 0 鋼琴曲欣賞100首 一個(gè)月的寶寶眼睫毛那么是黃色 寶寶右眼有眼屎 小兒抽搐怎么辦 剖腹產(chǎn)后刀口上有線頭 屬羊和屬雞的配嗎 2.5 課題任務(wù)描述

      根據(jù)提供的用戶歷史一個(gè)月的查詢?cè)~與用戶的人口屬性標(biāo)簽(包括性別、年齡、學(xué)歷)做為訓(xùn)練數(shù)據(jù),通過(guò)機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘技術(shù)構(gòu)建分類算法來(lái)對(duì)新增用戶的人口屬性進(jìn)行判定。

      3.查詢?cè)~分詞

      3.1 NLPIR

      NLPIR漢語(yǔ)分詞系統(tǒng)(又名ICTCLAS2013),主要功能包括中文分詞;詞性標(biāo)注;命名實(shí)體識(shí)別;用戶詞典功能;支持GBK編碼、UTF8編碼、BIG5編碼。新增微博分詞、新詞發(fā)現(xiàn)與關(guān)鍵詞提??;張華平博士先后傾力打造十余年,內(nèi)核升級(jí)10次。

      全球用戶突破20萬(wàn),先后獲得了2010年錢(qián)偉長(zhǎng)中文信息處理科學(xué)技術(shù)獎(jiǎng)一等獎(jiǎng),2003年國(guó)際SIGHAN分詞大賽綜合第一名,2002年國(guó)內(nèi)973評(píng)測(cè)綜合第一名。

      我們傳入每個(gè)用戶的搜索詞列,表經(jīng)過(guò)NLPIR分詞工具得到的分詞。之后,我們做個(gè)進(jìn)一步的優(yōu)化策略:

      3.1.1 去停用詞

      我們根據(jù)分詞后詞語(yǔ)所帶的詞性,對(duì)一些特征代表性不夠強(qiáng)的詞語(yǔ)進(jìn)行過(guò)濾:

      for(int i = 0;i < sbtmp.length();++i){

      char cc = sbtmp.charAt(i);

      if(cc == ' '){

      sbtmp.deleteCharAt(i);

      --i;

      } else if(cc == '/'){

      // 去詞條件

      Boolean isdel =

      // 1.去標(biāo)點(diǎn)

      (i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'w')

      // 2.疑問(wèn)詞

      ||(i + 2 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'r'

      && sbtmp.charAt(i + 2)== 'y')

      // 3.數(shù)字

      ||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'm')

      // 4.連詞

      ||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'c')

      // 5.副詞

      ||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'd')

      // 6.嘆詞

      ||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'e')

      // 7.擬聲詞

      ||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'o')

      // 8.介詞

      ||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'p')

      // 9.量詞

      ||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'q')

      // 10.助詞

      ||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'u')

      // 11.純動(dòng)詞

      ||(i + 2 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'v'

      && sbtmp.charAt(i + 2)== ' ');

      // 去詞

      if(sbtmp.charAt(i + 1)!= 'n' && sbtmp.charAt(i + 1)!= 'i' && sbtmp.charAt(i + 1)!= 'j'

      && sbtmp.charAt(i + 1)!= 'h'

      &&!(i + 2 < sbtmp.length()&& sbtmp.charAt(i + 2)== 'n')){

      while(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)!= ' '){

      sbtmp.deleteCharAt(i + 1);

      }

      while(i >= 0 && sbtmp.charAt(i)!= ','){

      sbtmp.deleteCharAt(i);

      --i;

      }

      }

      // 若無(wú)需去詞,把‘/’轉(zhuǎn)為‘,’,并去除隨后的詞性標(biāo)志

      else {

      sbtmp.setCharAt(i, ',');

      while(sbtmp.charAt(i + 1)!= ' '){

      sbtmp.deleteCharAt(i + 1);

      }

      }

      }

      }

      for(int i = 1;i < sbtmp.length()1)== ',' || sbtmp.charAt(i + 1)== ',')){

      sbtmp.deleteCharAt(i);

      --i;

      }

      // 去中間單個(gè)字

      else if(sbtmp.charAt(i1);

      sbtmp.deleteCharAt(i1] == Y[j1][j1][j];

      //刪除X第i個(gè)字符

      t1 = t1 < dp[i][j1];

      //刪除Y第j個(gè)字符

      t1 = t1 < dp[i1] ? t1 : dp[i1];//最后字符改相同

      dp[i][j] = t1 + 1;

      這里我們所使用的優(yōu)化方案為:

      對(duì)整個(gè)訓(xùn)練集和測(cè)試集的搜索詞列做分詞后的詞頻統(tǒng)計(jì)表

      對(duì)每個(gè)用戶的搜索詞列分詞后的各個(gè)詞與詞頻統(tǒng)計(jì)表各詞(排除前者自身)進(jìn)行編輯距離計(jì)算。得到詞頻統(tǒng)計(jì)表中編輯距離與該詞編輯距離最小詞,在這些詞中在選擇一個(gè)詞頻最高的詞將該詞替代。4.7 額外增加數(shù)據(jù)量

      在大數(shù)據(jù)時(shí)代背景下,只要數(shù)據(jù)量足夠的大,反而我們所選用的不同的算法模型對(duì)最終的預(yù)測(cè)準(zhǔn)確率的影響會(huì)變小,獲取更多數(shù)據(jù)會(huì)使模型更完善更準(zhǔn)確。我們這里用不同方案所得到的分詞結(jié)果,人為的增加訓(xùn)練集的數(shù)據(jù)。如將10萬(wàn)條記錄的訓(xùn)練集進(jìn)行NLPIR分詞得到結(jié)果,與進(jìn)行”結(jié)巴”提取關(guān)鍵詞得到的結(jié)果拼接,就將訓(xùn)練集記錄人為的翻倍了。后續(xù)的分類實(shí)驗(yàn)中證明了,使用該方案,在模型相同的情況下,相比原來(lái)會(huì)有1%左右的準(zhǔn)確率的提升。

      5.聚類與降維

      2009年結(jié)束的Nexfix競(jìng)賽表明,很多參數(shù)團(tuán)隊(duì)用到的高等矩陣因子分解對(duì)模型提高預(yù)測(cè)準(zhǔn)確略非常有幫助。模型使用矩陣因子分解方法從特征矩陣中抽取一組潛在的屬性,并通過(guò)這些屬性來(lái)描述用戶。20世紀(jì)80年代后期,利用潛在的”語(yǔ)義”屬性的思想被成功的應(yīng)用于信息檢索領(lǐng)域。Deerwesteret al.在1990年提出使用奇異值分解(SVD)方法發(fā)現(xiàn)文檔中的潛在的屬性。[2]而本課題在實(shí)驗(yàn)中會(huì)使用到LDA方法。

      5.1 LDA

      隱含狄利克雷分配(LDA,Latent Dirichlet Allocation)是一種主題模型(Topic Model,即從所收集的文檔中推測(cè)主題)。甚至可以說(shuō)LDA模型現(xiàn)在已經(jīng)成為了主題建模中的一個(gè)標(biāo)準(zhǔn),是實(shí)踐中最成功的主題模型之一。那么何謂“主題”呢?,就是諸如一篇文章、一段話、一個(gè)句子所表達(dá)的中心思想。不過(guò)從統(tǒng)計(jì)模型的角度來(lái)說(shuō),我們是用一個(gè)特定的詞頻分布來(lái)刻畫(huà)主題的,并認(rèn)為一篇文章、一段話、一個(gè)句子是從一個(gè)概率模型中生成的。也就是說(shuō) 在主題模型中,主題表現(xiàn)為一系列相關(guān)的單詞,是這些單詞的條件概率。形象來(lái)說(shuō),主題就是一個(gè)桶,里面裝了出現(xiàn)概率較高的單詞(參見(jiàn)下面的圖),這些單詞與這個(gè)主題有很強(qiáng)的相關(guān)性。這里寫(xiě)圖片描述

      LDA可以用來(lái)識(shí)別大規(guī)模文檔集或語(yǔ)料庫(kù)中潛藏的主題信息。它采用了詞袋的方法,這種方法將每一篇文檔視為一個(gè)詞頻向量,從而將文本信息轉(zhuǎn)化為了易于建模的數(shù)字信息。但是詞袋方法沒(méi)有考慮詞與詞之間的順序,這簡(jiǎn)化了問(wèn)題的復(fù)雜性,同時(shí)也為模型的改進(jìn)提供了契機(jī)。每一篇文檔代表了一些主題所構(gòu)成的一個(gè)概率分布,而每一個(gè)主題又代表了很多單詞所構(gòu)成的一個(gè)概率分布。

      LDA可以被認(rèn)為是如下的一個(gè)聚類過(guò)程:

      各個(gè)主題(Topics)對(duì)應(yīng)于各類的“質(zhì)心”,每一篇文檔被視為數(shù)據(jù)集中的一個(gè)樣本。

      主題和文檔都被認(rèn)為存在一個(gè)向量空間中,這個(gè)向量空間中的每個(gè)特征向量都是詞頻(詞袋模型)

      與采用傳統(tǒng)聚類方法中采用距離公式來(lái)衡量不同的是,LDA使用一個(gè)基于統(tǒng)計(jì)模型的方程,而這個(gè)統(tǒng)計(jì)模型揭示出這些文檔都是怎么產(chǎn)生的。5.1.1 模型訓(xùn)練

      Spark API 參數(shù)介紹:

      K:主題數(shù)量(或者說(shuō)聚簇中心數(shù)量)

      maxIterations:EM算法的最大迭代次數(shù),設(shè)置足夠大的迭代次數(shù)非常重要,前期的迭代返回一些無(wú)用的(極其相似的)話題,但是繼續(xù)迭代多次后結(jié)果明顯改善。我們注意到這對(duì)EM算法尤其有效。,至少需要設(shè)置20次的迭代,50-100次是更合理的設(shè)置,取決于數(shù)據(jù)集。

      docConcentration(Dirichlet分布的參數(shù)α):文檔在主題上分布的先驗(yàn)參數(shù)(超參數(shù)α)。當(dāng)前必須大于1,值越大,推斷出的分布越平滑。默認(rèn)為-1,自動(dòng)設(shè)置。topicConcentration(Dirichlet分布的參數(shù)β):主題在單詞上的先驗(yàn)分布參數(shù)。當(dāng)前必須大于1,值越大,推斷出的分布越平滑。默認(rèn)為-1,自動(dòng)設(shè)置。checkpointInterval:檢查點(diǎn)間隔。maxIterations很大的時(shí)候,檢查點(diǎn)可以幫助減少shuffle文件大小并且可以幫助故障恢復(fù)。

      val lda=new LDA()

      .setK(20)

      .setOptimizer(“online”)

      .setCheckpointInterval(10)

      .setMaxIter(100)

      val model=lda.fit(dataset_lpa)

      5.1.2 模型評(píng)價(jià)

      生成的model不僅存儲(chǔ)了推斷的主題,還包括模型的評(píng)價(jià)方法。模型的評(píng)價(jià)指標(biāo):logLikelihood,logPerplexity。logLikelihood越大越好,logPerplexity越小越好

      val ll = model.logLikelihood(dataset_lpa)

      val lp = model.logPerplexity(dataset_lpa)

      用評(píng)價(jià)方法,在online 方法下,對(duì)setMaxIter進(jìn)行調(diào)參:

      for(i<-Array(5,10,20,40,60,120,200,500)){

      val lda=new LDA()

      .setK(3)

      .setTopicConcentration(3)

      .setDocConcentration(3)

      .setOptimizer(“online”)

      .setCheckpointInterval(10)

      .setMaxIter(i)

      val model=lda.fit(dataset_lpa)

      val ll = model.logLikelihood(dataset_lpa)

      val lp = model.logPerplexity(dataset_lpa)

      println(s“$i $ll”)

      println(s“$i $lp”)}

      可以看到,logPerplexity在減小,LogLikelihood在增加,最大迭代次數(shù)需要設(shè)置50次以上,才能收斂:

      5.1.3 對(duì)語(yǔ)料的主題進(jìn)行聚類

      val topicsProb=model.transform(dataset_lpa)

      topicsProb.select(“l(fā)abel”, “topicDistribution”)show(false)

      /**

      +-----++

      |label|topicDistribution

      |

      +-----++

      |0.0 |[0.***,0.***147,0.***77] |

      |1.0 |[0.***3,0.***623,0.***]

      |

      |2.0 |[0.***7,0.***417,0.***]

      |

      ...*/

      label是文檔序號(hào),文檔中各主題的權(quán)重,我們可以將該DataFrame帶入后續(xù)的分類器中,進(jìn)行訓(xùn)練。

      5.1.4 其他聚類與降維

      Spark在基于RDD的MLlib中還提供了SVD、PCA的降維方法,而基于DataFrame的聚類方法還包括k-means、Bisecting k-means和Gaussian Mixture,其中Gaussian Mixture提供的API類似與LDA,可以直接為我們返回文檔中各主題的權(quán)重,以便于后續(xù)的分類。但是由于LDA在主題聚類上的典型性,我們的課題實(shí)驗(yàn)只試驗(yàn)了LDA的方案

      下載數(shù)據(jù)服務(wù) 電子科技大學(xué):一體化大數(shù)據(jù)提供師生精準(zhǔn)畫(huà)像word格式文檔
      下載數(shù)據(jù)服務(wù) 電子科技大學(xué):一體化大數(shù)據(jù)提供師生精準(zhǔn)畫(huà)像.doc
      將本文檔下載到自己電腦,方便修改和收藏,請(qǐng)勿使用迅雷等下載。
      點(diǎn)此處下載文檔

      文檔為doc格式


      聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn)自行上傳,本網(wǎng)站不擁有所有權(quán),未作人工編輯處理,也不承擔(dān)相關(guān)法律責(zé)任。如果您發(fā)現(xiàn)有涉嫌版權(quán)的內(nèi)容,歡迎發(fā)送郵件至:645879355@qq.com 進(jìn)行舉報(bào),并提供相關(guān)證據(jù),工作人員會(huì)在5個(gè)工作日內(nèi)聯(lián)系你,一經(jīng)查實(shí),本站將立刻刪除涉嫌侵權(quán)內(nèi)容。

      相關(guān)范文推薦