第一篇:畫方科技_網(wǎng)絡(luò)輿情監(jiān)測分析系統(tǒng)_產(chǎn)品白皮書.
網(wǎng)絡(luò)輿情監(jiān)測分析系統(tǒng) 產(chǎn)品白皮書
北京融匯畫方科技有限公司 2012.09 版權(quán)聲明
北京融匯畫方科技有限公司版權(quán)所有,并保留有對本文檔及本聲明的最終解釋權(quán)和修改權(quán)。
本文檔中出現(xiàn)的任何文字敘述、文檔格式、插圖、照片、方法、過程等內(nèi)容,除另有特別注明,版權(quán)均屬北京融匯畫方科技有限公司所有,受國家有關(guān)產(chǎn)權(quán)及版權(quán)法保護。任何個人、機構(gòu)未經(jīng)北京融匯畫方科技有限公司的書面授權(quán)許可,不得以任何方式復(fù)制或引用本文檔的任何片段。
畫方科技是北京融匯畫方科技有限公司的注冊商標,受商標法和有關(guān)國際公約的保護。
免責(zé)條款
畫方科技公司在本文中盡可能提供確定的信息,但不會為信息的完整性和正確性承擔(dān)責(zé)任。除非有書面協(xié)議,本文所述畫方科技公司的產(chǎn)品信息并不代表任何保證或正式的承諾。更多的資料可以向畫方科技公司索取。
支持信息
本資料將定期更新,如欲獲取最新資料,或更多畫方科技相關(guān)產(chǎn)品信息、解決方案以及其它網(wǎng)絡(luò)、信息安全相關(guān)的軟、硬件產(chǎn)品信息,敬請訪問畫方科技公司網(wǎng)站:http://004km.cn,或發(fā)送電子郵件到product@huafoun.com,或致電畫方科技垂詢。
北京融匯畫方科技有限公司
地址:北京市海淀區(qū)花園路13號汗太華大廈三層 郵編:100021 電話:86-10-84928311 傳真:86-10-84828038 目錄 1背景(4 2系統(tǒng)概述(4 2.1產(chǎn)品理念(4 2.2工作流程(5 2.3產(chǎn)品意義(6 3產(chǎn)品功能(6 3.1輿情規(guī)劃(6 3.2輿情信息采集(6 3.3輿情信息加工(7 3.4元搜索功能(8
3.5輿情專題(8 3.6輿情分析(9 3.6.1輿情分布圖(9 3.6.2輿情趨勢圖(9 3.7輿情報告(9 3.8分級權(quán)限管理(9 3.9用戶管理(9 3.10關(guān)鍵字管理(10 3.10.1事件關(guān)鍵字管理(10 3.10.2領(lǐng)導(dǎo)人關(guān)鍵字管理(10 3.10.3色彩關(guān)鍵字管理(10 3.11手工添加輿情(10 3.12輿情報警(10 3.13智能終端(11 4系統(tǒng)特點(11 1背景
當(dāng)今,互聯(lián)網(wǎng)世界已經(jīng)滲透到現(xiàn)實社會的各個角落。極大的擴大了人類實踐活動的范圍。且互聯(lián)網(wǎng)世界的開放性和匿名性使得人們更親睞于通過網(wǎng)絡(luò)來表達自己的內(nèi)心世界,更直接更坦誠的發(fā)表觀點。在互聯(lián)網(wǎng)快速發(fā)展的今天,網(wǎng)絡(luò)媒體已經(jīng)成
為一種信息的主要傳播途徑,其開放、虛擬的特性讓言論達到了前所未有的活躍程度。在論壇、博客、微博等非受控渠道是目前發(fā)表個人觀點的主要方式。
我們在受益于互聯(lián)網(wǎng)世界的同時,也會為因此產(chǎn)生的網(wǎng)絡(luò)憂患而擔(dān)憂?;ヂ?lián)網(wǎng)是先進文化供給與傳播的重要手段,是反映社會輿情的主要載體之一,是網(wǎng)絡(luò)輿情產(chǎn)生的聚集地,卻也是危機事件引發(fā)的根據(jù)地。對于公眾關(guān)注的事件很快就會形成網(wǎng)上輿論,個別人在其中煽風(fēng)點火,極易造成網(wǎng)絡(luò)非理性情緒蔓延,進而產(chǎn)生嚴重的不良影響,對相關(guān)部門造成巨大的輿論壓力??梢哉f,互聯(lián)網(wǎng)已成為思想文化信息的集散地和社會輿論的放大器。
2系統(tǒng)概述
畫方科技輿情監(jiān)測系統(tǒng)一共包括三個模塊:網(wǎng)絡(luò)輿情采集系統(tǒng)、輿情分析引擎和輿情應(yīng)用服務(wù)系統(tǒng)。提供相關(guān)輿情、負面輿情、預(yù)警信息、熱點信息的發(fā)現(xiàn)、主題事件監(jiān)測、分類監(jiān)測、輿情監(jiān)管、統(tǒng)計分析、輔助決策支持等多層次、多維度的輿情信息服務(wù)。根據(jù)用戶的網(wǎng)絡(luò)輿情監(jiān)測和定向追蹤等信息需求,形成簡報、報告、圖表等分析結(jié)果,從而幫助用戶及時掌握輿情動向。為領(lǐng)導(dǎo)和輿情工作部門提供信息參考和決策支持。
對不同政府、企業(yè)和行業(yè)監(jiān)管等職能部門而言,輿情監(jiān)測的需求既有通用性,也有個性化的特點存在,畫方科技輿情監(jiān)測系統(tǒng)具有極大的擴展性,凡是需要對輿情、口碑關(guān)注的政府、企業(yè)、高校和其他組織機構(gòu)都可以通過本系統(tǒng)進行量身打造,建立適合自己的輿情監(jiān)測體系。
2.1產(chǎn)品理念
“及時發(fā)現(xiàn)”是輿情監(jiān)測系統(tǒng)的核心功能,效果是輿情監(jiān)測系統(tǒng)的靈魂 ?定向采集和全網(wǎng)搜索相輔相成,按照輿情的傳播規(guī)律構(gòu)建立體監(jiān)測體系,疏 而不漏
?管線架構(gòu),輿情漏斗分析模型,分析粒度粗細可控
?技術(shù)結(jié)合實踐,千錘百煉,功能設(shè)計實用至上
?在輿情監(jiān)測領(lǐng)域,普遍存在著產(chǎn)品功能與客戶需求之間的差距,很多公司回 避這個難點,不再提倡輿情監(jiān)測的概念,而是當(dāng)做一個大而全的管理系統(tǒng)去 做。我們認為,現(xiàn)階段,輿情工作的重點仍然是輿情監(jiān)測,提供及時、全面、準確的輿情監(jiān)測是輿情監(jiān)測系統(tǒng)的靈魂。不抓住這一靈魂,也就失去了輿情 監(jiān)測在現(xiàn)階段存在的意義和作用。因此,我們做輿情的產(chǎn)品理念就是:按照 輿情的傳播規(guī)律構(gòu)建監(jiān)測體系,立體監(jiān)測、及時更新、準確分析、合理展現(xiàn)。真正起到輿情監(jiān)測的作用,提高輿情應(yīng)對和管理的質(zhì)量和效率,為輿情管理 和領(lǐng)導(dǎo)決策服務(wù)。2.2工作流程
(1信息采集系統(tǒng)從互聯(lián)網(wǎng)上采集新聞、論壇、博客、評論等輿情信息,存儲到采集信息數(shù)據(jù)庫中。
(2輿情分析引擎負責(zé)對采集信息進行清洗、智能研判和加工,分析結(jié)果保存在輿情成果庫中。輿情分析引擎依賴于智能分析技術(shù)和輿情知識工程。
(3輿情服務(wù)平臺把輿情成果庫中經(jīng)過加工處理的輿情數(shù)據(jù)發(fā)布到Web界面上并展示給用戶。
(4用戶通過輿情服務(wù)平臺瀏覽輿情信息,通過簡報生成等功能完成對輿情的深度加工和日常監(jiān)管工作。
2.3產(chǎn)品意義
科學(xué)的進步及在科研領(lǐng)域的應(yīng)用,解決了天氣無法預(yù)報的難題;技術(shù)的發(fā)展及信息化工具的誕生使網(wǎng)絡(luò)輿論提前發(fā)現(xiàn)成為可能;
3產(chǎn)品功能 3.1輿情規(guī)劃
針對組織關(guān)注的板塊不同,對采集范圍及關(guān)鍵字進行整體規(guī)劃,分類管理;能夠結(jié)合當(dāng)前熱點話題及輿情動態(tài),實時調(diào)整輿情采集點;3.2輿情信息采集
信息采集是輿情工作的首要任務(wù),互聯(lián)網(wǎng)傳播特點和網(wǎng)民行為特征要求系統(tǒng)全面獲取網(wǎng)絡(luò)信息,信息時效性要求系統(tǒng)及時采集到網(wǎng)絡(luò)信息。
系統(tǒng)內(nèi)置數(shù)千個影響程度大、傳播面廣、網(wǎng)民參與度高的網(wǎng)站,從廣度和深度全面抓取信息;1各大門戶網(wǎng)站:由資訊性質(zhì)網(wǎng)站和網(wǎng)絡(luò)媒體構(gòu)成,如新浪網(wǎng)、雅虎網(wǎng)、網(wǎng) 易、搜狐網(wǎng)……
2各大行業(yè)網(wǎng)站:由行業(yè)性質(zhì)網(wǎng)站構(gòu)成,如行業(yè)資訊網(wǎng)站、政府門戶網(wǎng)站、行業(yè)企業(yè)網(wǎng)站……
3交互性質(zhì)網(wǎng)站:有各種形式的論壇、貼吧、BBS、留言板構(gòu)成,如水木清 華BBS、天涯、新浪BBS……
4各大搜索引擎網(wǎng)站:同步百度和Google的搜索結(jié)果。5各種微博:網(wǎng)易、天涯、騰訊、新浪、鳳凰網(wǎng)……
6境外網(wǎng)站:星島環(huán)球網(wǎng)、星島日報、聯(lián)合早報、韓國聯(lián)合通訊社…… ◆優(yōu)先級信息采集,對不同影響力的網(wǎng)站配置不同優(yōu)先等級,優(yōu)先級高的網(wǎng)站 優(yōu)先采集信息,從信息源影響力角度確保重要輿情及時傳遞;◆信息采集形式全面,不同輿情源采用不同采集方式保障采集實時性;3.3輿情信息加工
系統(tǒng)按照各信息源表現(xiàn)出的網(wǎng)頁形式呈現(xiàn)采集信息,網(wǎng)頁上包含大量的廣告、圖片、鏈接,這些不是輿情關(guān)注的價值信息,還給系統(tǒng)的高效運行、檢索增加負擔(dān)。同時數(shù)據(jù)呈現(xiàn)按照各自信息源排列規(guī)則出現(xiàn),需要系統(tǒng)分別去識別標題、來源、作者、發(fā)布時間、正文等,要求對信息預(yù)處理形成統(tǒng)一格式供后續(xù)的決策分析。預(yù)處理包含超鏈分析、編碼識別、URL去重、錨文本處理、垃圾信息過濾、關(guān)鍵字抽取、關(guān)鍵信息提取、正文抽取、自動摘要;
◆雙重過濾機制
網(wǎng)絡(luò)輿情監(jiān)測分析系統(tǒng)產(chǎn)品白皮書 網(wǎng)查閱,兼容性好且保證信息查閱的方便性。
4、輿情簡報方便:支持輿情簡報 HTML、自定義簡報格式,支持簡報生成 word 格式,方便日常輿情簡報的編輯、打印上報。
5、系統(tǒng)管理(高安全性)USB-KEY 認證方式保證只有持有管理 KEY 的人員才能 : 登錄系統(tǒng)進行管理,這樣防止因為用戶名密碼的泄露而造成管理上的漏洞。
6、功能管理(高開放性):整個系統(tǒng)基于開放式的模塊管理方式,用戶可以完 全自定義系統(tǒng)主模塊位置、名稱,可以自行開發(fā)新的應(yīng)用并通過 “模塊管理” 功能無縫集成。
7、展示管理(高靈活性):用戶也可以按照自己的工作習(xí)慣任意調(diào)試子模塊的 位置和名稱,輿情展示界面可以自由拖拽。用戶可以方便的構(gòu)建一個個性化 的輿情系統(tǒng)。
8、輿情信息自動采集:支持定時計劃采集,支持 1 小時粒度自動采集,保證非 工作時間內(nèi)信息的收集正常運行,定義方式靈活、策略豐富、智能化程度高。
9、敏感內(nèi)容自動分析:能對定義目標的鏈接標題及文章內(nèi)容進行自動分析,涉 及敏感信息會自動分類,同時進行敏感信息報警。
10、輿情專題自動聚類:支持對熱門、敏感的輿情進行自動聚類,可自定義輿情 專題,并對輿情專題進行一周趨勢分析,對關(guān)注輿情的熱度進行跟蹤。
11、支持 3G 智能手機:充分結(jié)合現(xiàn)在的 3G 網(wǎng)絡(luò),畫方科技推出了支持目前 3G 應(yīng)用的智能手機客戶端的系統(tǒng),保證工作人員的移動性。同時客戶端和智能手機 底層消息系統(tǒng)集成,有消息的啟用手機消息通知,非常方便實用。
第二篇:基于網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)的分析
基于網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)的分析
[摘 要] 隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)媒體作為一種新的信息傳播形式,已深入人們的日常生活。網(wǎng)民數(shù)量的持續(xù)快速的增加,以及網(wǎng)民通過網(wǎng)絡(luò)形成的輿情越來越得到社會的廣泛的關(guān)注。網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)就是針對網(wǎng)絡(luò)輿情熱點問題的預(yù)警。
[關(guān)鍵詞] 網(wǎng)絡(luò)輿情 監(jiān)測 分析
隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)媒體作為一種新的信息傳播形式,已深入人們的日常生活。中國網(wǎng)民數(shù)量也在持續(xù)快速的增加,2010年7月15日,中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布《第26次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》,報告顯示,中國網(wǎng)民規(guī)模達到4.2億,手機網(wǎng)民民規(guī)模更達2.77億。網(wǎng)民通過網(wǎng)絡(luò)形成的輿情越來越得到社會的廣泛的關(guān)注。從2003年的非典、孫志剛事件,到2010年教育局封殺論壇事件、馬鞍山局長打人事件等等。這些事件性質(zhì)、主體各不相同,但是有一個共同的特點,即他們都是通過網(wǎng)絡(luò)而放大了事件的影響力。
1.網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)的概念
網(wǎng)絡(luò)輿情是通過互聯(lián)網(wǎng)傳播的公眾對現(xiàn)實生活中某些熱點、焦點問題所持的有較強影響力、傾向性的言論和觀點。
最近幾年各種社會機構(gòu)組織、企業(yè)、各級政府都紛紛重視網(wǎng)絡(luò)輿情,2008年7月,江西60多位縣級官員實名開博,多數(shù)是收集當(dāng)?shù)鼐W(wǎng)民關(guān)注的民生問題。2010年9月8日,人民網(wǎng)?中國共產(chǎn)黨新聞網(wǎng)正式推出“直通中南海――中央領(lǐng)導(dǎo)人和中央機構(gòu)留言板”。該留言板突出互動性,旨在讓廣大網(wǎng)友對中央領(lǐng)導(dǎo)人傾訴心聲,給中央機構(gòu)提出意見和建議。
由于互聯(lián)網(wǎng)具有虛擬性、隱蔽性、發(fā)散性、滲透性和隨意性等特點,越來越多的網(wǎng)民樂意通過BBS論壇、博客、新聞跟貼和轉(zhuǎn)貼等渠道來表達觀點傳播思想。如果引導(dǎo)不善,負面網(wǎng)絡(luò)輿情將對社會公共安全形成威脅。對相關(guān)部門來說,加強對網(wǎng)絡(luò)輿論的及時監(jiān)測、有效引導(dǎo),以及對網(wǎng)絡(luò)輿論危機的積極化解,對維護社會穩(wěn)定、促進國家發(fā)展具有重要的現(xiàn)實意義,也是創(chuàng)建和諧社會的應(yīng)有內(nèi)涵。對企業(yè)來說,準確掌握產(chǎn)品和市場情況,監(jiān)控競爭對手和行業(yè)動態(tài),是企業(yè)市場、行銷決策的重要支撐。
從現(xiàn)在的網(wǎng)絡(luò)輿情傳播速度來看,信息出現(xiàn)后的1至3小時就可以被轉(zhuǎn)至多家論壇,6小時后就可以被多家新聞網(wǎng)站轉(zhuǎn)載,24小時在網(wǎng)上的評論和跟帖就能制造出熱點事件和輿論高潮。因此能夠第一時間知道現(xiàn)在哪些是熱點輿情,哪些將會成為熱點輿情,對于我們來說至關(guān)重要。
“網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)”是針對在一定的社會空間內(nèi),圍繞中介性社會事件的發(fā)生、發(fā)展和變化,民眾對社會管理者產(chǎn)生和持有的社會政治態(tài)度于網(wǎng)絡(luò)上表達出來意愿集合而進行的計算機監(jiān)測的系統(tǒng)統(tǒng)稱。通過這個系統(tǒng),能夠讓我們有效的對網(wǎng)絡(luò)輿情進行預(yù)警和應(yīng)對。
2.網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)結(jié)構(gòu)
網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)分為五大系統(tǒng),分別是:網(wǎng)絡(luò)輿情采集系統(tǒng)、網(wǎng)絡(luò)輿情存儲系統(tǒng)、網(wǎng)絡(luò)輿情分析系統(tǒng)、網(wǎng)絡(luò)輿情檢索系統(tǒng)和網(wǎng)絡(luò)輿情發(fā)布系統(tǒng)。如圖1:
網(wǎng)絡(luò)輿情采集系統(tǒng)會對互聯(lián)網(wǎng)中的主要門戶網(wǎng)站新聞、各大論壇的熱門貼、關(guān)注度比較高的博客和微博以及各大主要的網(wǎng)絡(luò)搜索引擎的熱搜內(nèi)容進行采集。采集后的數(shù)據(jù)存儲進入統(tǒng)一的網(wǎng)絡(luò)輿情存儲系統(tǒng)。網(wǎng)絡(luò)輿情分析系統(tǒng)對存儲在輿情存儲系統(tǒng)中的信息進行分析,把輿情內(nèi)容歸納、整理、分類后得出最近階段輿情的變化及趨勢,并把分析好的數(shù)據(jù)存入存儲系統(tǒng)。用戶可以用網(wǎng)絡(luò)輿情檢索系統(tǒng)檢索自己想要的最近、最新的焦點信息。最后通過輿情分析系統(tǒng)分析的信息、通過輿情檢索系統(tǒng)檢索的信息以及網(wǎng)絡(luò)輿情存儲系統(tǒng)中的信息都可以通過輿情報告系統(tǒng)發(fā)送和展示給用戶。
3.網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)分析
3.1網(wǎng)絡(luò)輿情采集系統(tǒng)
網(wǎng)絡(luò)輿情采集系統(tǒng)是整個系統(tǒng)的基礎(chǔ)。全世界互聯(lián)網(wǎng)的信息是非常巨大的,即使僅僅對國內(nèi)信息的檢索也是海量的,而且由于網(wǎng)頁設(shè)計的靈活性造成的網(wǎng)頁結(jié)構(gòu)復(fù)雜,網(wǎng)頁的快速更新造成的網(wǎng)頁內(nèi)容動態(tài)性,以及一些網(wǎng)站對站內(nèi)信息限制的技術(shù)手段造成網(wǎng)頁內(nèi)容不完整性,使得傳統(tǒng)手工采集信息的方法非常低效率和高錯誤率。特別是最近幾年,隨著QQ群、博客、twitter等微博被網(wǎng)友廣泛使用,這些主要為松散的,非結(jié)構(gòu)化信息要實現(xiàn)采集的難度也越來越大,靠手工采集已經(jīng)不太現(xiàn)實。
為解決這個問題,現(xiàn)在的采集系統(tǒng)往往采用具有一定智能的自動采集技術(shù),國內(nèi)外早期的網(wǎng)絡(luò)采集方法是針對特定采集對象編寫的程序,這個程序稱為wrapper。近幾年,越來越多的采集工具被開發(fā)出來用來代替?zhèn)鹘y(tǒng)的手工編寫wrapper程序的方法。目前較為流行的采集工具可以分為六大類:
3.1.1開發(fā)wrapper的專用高級語言
傳統(tǒng)的wrapper由于是手工編寫針對某一個目標,如果要為大量目標手工編寫非常不效率,通過專用高級語言可以方便編寫wrapper。例如:Minerva,TSIMMIS,Web-OQL,F(xiàn)LORID,Jedi等。
3.1.2以HTML為中間件的工具(HTML-aware Tools)
這些工具在抽取時主要依賴HTML文檔的內(nèi)在結(jié)構(gòu)特征。在抽取過程之前,這些工具先把文檔轉(zhuǎn)換成標簽樹;再根據(jù)標簽樹自動或半自動地抽取數(shù)據(jù)。代表工具有Knowlesys,MDR。
3.1.3基于NLP(Natural language processing)的工具(NLP-based Tools)
這些工具通常利用filtering、part-of-speech tagging、lexical semantic tagging等NLP技術(shù)建立短語和句子元素之間的關(guān)系,推導(dǎo)出抽取規(guī)則。這些工具比較適合于抽取那些包含符合文法的頁面。代表工具有 RAPIER,SRV,WHISK。
3.1.4包裝器的歸納工具(Wrapper Induction Tools)
包裝器的歸納工具從一組訓(xùn)練樣例中歸納出基于分隔符的抽取規(guī)則。這些工具和基于NLP的工具之間最大的差別在于:這些工具不依賴于語言約束,而是依賴于數(shù)據(jù)的格式化特征。這個特點決定了這些工具比基于NLP的工具更適合于抽取HTML文檔。代表工具有:WIEN,SoftMealy,STALKER。
3.1.5基于模型的工具(Modeling-based Tools)
這些工具讓用戶通過圖形界面,建立文檔中其感興趣的對象的結(jié)構(gòu)模型,“教”工具學(xué)會如何識別文檔中的對象,從而抽取出對象。代表工具有:NoDoSE,DEByE。
3.1.6基于本體的工具(Ontology-based Tools)
這些工具首先需要專家參與,人工建立某領(lǐng)域的知識庫,然后工具基于知識庫去做抽取操作。如果知識庫具有足夠的表達能力,那么抽取操作可以做到完全自動。而且由這些工具生成的包裝器具有比較好的靈活性和適應(yīng)性。代表工具有:BYU,X-tract。
3.2網(wǎng)絡(luò)輿情分析系統(tǒng)
網(wǎng)絡(luò)輿情分析系統(tǒng)為整個系統(tǒng)的核心功能,其主要包括以下功能:熱點識別能力、聚類分析、傾向性分析與統(tǒng)計、信息自動摘要功能。
3.2.1熱點識別能力
由于網(wǎng)絡(luò)信息的更新和變化速度非???,導(dǎo)致網(wǎng)絡(luò)熱點也時常轉(zhuǎn)化,因此識別熱點成為整個分析系統(tǒng)的前提條件。一般對于一段時間內(nèi)的熱門話題的識別主要是根據(jù)信息出處權(quán)威度、評論數(shù)量、發(fā)言時間密集程度等參數(shù),給予一定的權(quán)重值,然后統(tǒng)計出該時間段內(nèi)的熱點。
3.2.2聚類分析
傳統(tǒng)的手工統(tǒng)計分析對于海量的數(shù)據(jù)基本是無能為力,即使是勉強統(tǒng)計也會因為數(shù)據(jù)量而對數(shù)據(jù)的主題把握會產(chǎn)生偏差,從而造成統(tǒng)計數(shù)據(jù)失真,進而造成分析結(jié)果錯誤。
對文章標題和關(guān)鍵詞進行聚類分析是現(xiàn)在常用的網(wǎng)絡(luò)輿情分析方法,現(xiàn)在被廣泛的采用,常用的聚類分析方法一般分為五類:
3.2.2.1劃分方法
首先創(chuàng)建k個劃分,k為要創(chuàng)建的劃分個數(shù);然后利用一個循環(huán)定位技術(shù)通過將對象從一個劃分移到另一個劃分來幫助改善劃分質(zhì)量。典型的劃分方法包括:k-means,k-medoids,CLARA,CLARANS,F(xiàn)CM。
3.2.2.2層次方法
創(chuàng)建一個層次以分解給定的數(shù)據(jù)集。該方法可以分為自上而下(分解)和自下而上(合并)兩種操作方式。為彌補分解與合并的不足,層次合并經(jīng)常要與其它聚類方法相結(jié)合,如循環(huán)定位。典型的這類方法包括:BIRCH方法,它首先利用樹的結(jié)構(gòu)對對象集進行劃分;然后再利用其它聚類方法對這些聚類進行優(yōu)化。CURE方法,它利用固定數(shù)目代表對象來表示相應(yīng)聚類;然后對各聚類按照指定量(向聚類中心)進行收縮。ROCK方法,它利用聚類間的連接進行聚類合并。CHEMALOEN方法,它則是在層次聚類時構(gòu)造動態(tài)模型。
3.2.2.3基于密度的方法
根據(jù)密度完成對象的聚類。它根據(jù)對象周圍的密度(如DBSCAN)不斷增長聚類。典型的基于密度方法包括:DBSCAN:該算法通過不斷生長足夠高密度區(qū)域來進行聚類;它能從含有噪聲的空間數(shù)據(jù)庫中發(fā)現(xiàn)任意形狀的聚類。此方法將一個聚類定義為一組“密度連接”的點集。OPTICS:并不明確產(chǎn)生一個聚類,而是為自動交互的聚類分析計算出一個增強聚類順序。
3.2.2.4基于網(wǎng)格的方法
首先將對象空間劃分為有限個單元以構(gòu)成網(wǎng)格結(jié)構(gòu);然后利用網(wǎng)格結(jié)構(gòu)完成聚類。STING就是一個利用網(wǎng)格單元保存的統(tǒng)計信息進行基于網(wǎng)格聚類的方法。CLIQUE和Wave-Cluster 則是一個將基于網(wǎng)格與基于密度相結(jié)合的方法。
3.2.2.5基于模型的方法
它假設(shè)每個聚類的模型并發(fā)現(xiàn)適合相應(yīng)模型的數(shù)據(jù)。典型的基于模型方法包括:統(tǒng)計方法COBWEB:是一個常用的且簡單的增量式概念聚類方法。它的輸入對象是采用符號量(屬性-值)對來加以描述的。采用分類樹的形式來創(chuàng)建一個層次聚類。CLASSIT是COBWEB的另一個版本。它可以對連續(xù)取值屬性進行增量式聚類。
3.2.3傾向性分析與統(tǒng)計
對信息的闡述的觀點、主旨進行傾向性分析??梢詾榫W(wǎng)絡(luò)輿情的分析提供參考依據(jù)。
但是由于網(wǎng)絡(luò)詞匯的多樣性,網(wǎng)絡(luò)上出現(xiàn)許多新詞,要判斷這些詞的傾向性就比較困難,一般傾向性分析可分為三種:
3.2.3.1情感傾向詞典
中文詞語情感傾向詞典是給定一組已知極性的詞語集合作為種子,對于一個情感傾向未知的新詞,在電子詞典中找到與該詞語義相近、并且在種子集合中出現(xiàn)的若干個詞,根據(jù)這幾個種子詞的極性對未知詞的情感傾向進行推斷。
3.2.3.2機器人學(xué)習(xí)
與詞典法比較類似,也是給予一些已知極性的詞語作為種子詞,對于一個新詞根據(jù)它和種子詞的緊密程度對其情感傾向性進行推斷,不同的是他是根據(jù)詞語在種子庫中的同現(xiàn)情況判斷其聯(lián)系緊密程度來作為判斷依據(jù)。
3.2.3.3人工標注種子庫
首先對情感傾向性分析種子庫進行手工標注,標注的級別包括文檔集的標注、短語級標注和分句級標注。在這些基礎(chǔ)上,利用詞語的共現(xiàn)關(guān)系、搭配關(guān)系或者語義關(guān)系,以判斷詞語的情感傾向性。
3.2.4信息自動摘要功能
能夠根據(jù)文檔內(nèi)容自動抽取文檔摘要信息,這些摘要能夠準確代表文章內(nèi)容主題和中心思想。用戶無需查看全部文章內(nèi)容,通過該智能摘要即可快速了解文章大意與核心內(nèi)容,提高用戶信息利用效率。而且該智能摘要可以根據(jù)用戶需求調(diào)整不同長度,滿足不同的需求。主要包括文本信息摘要與網(wǎng)頁信息摘要兩個方面。
3.3網(wǎng)絡(luò)輿情檢索系統(tǒng)
網(wǎng)絡(luò)輿情檢索分析系統(tǒng)產(chǎn)生的結(jié)果會實時存放進入存儲系統(tǒng)之中,而檢索系統(tǒng)可以分時間、地點、類型、網(wǎng)站等等進行分類檢索,然后提供給用戶。
分析系統(tǒng)提供的熱點分析往往只是對已經(jīng)產(chǎn)生的熱點,或者是將要成為熱點的次熱點。而檢索系統(tǒng)還可以讓用戶自定義關(guān)鍵詞對采集到的信息進行自定義監(jiān)控。
3.4網(wǎng)絡(luò)輿情報告系統(tǒng)
根據(jù)網(wǎng)絡(luò)輿情分析系統(tǒng)處理后的結(jié)果或網(wǎng)絡(luò)輿情檢索系統(tǒng)查詢的結(jié)果生成報告,系統(tǒng)可通過短信、電話、網(wǎng)頁瀏覽等各種手段及時告知,提供決策支持。
總之,網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)出現(xiàn)時間還比較短,基于其的算法和方法還都很不完善,而且隨著計算機技術(shù)的不斷發(fā)展,網(wǎng)絡(luò)應(yīng)用技術(shù)也在不斷的變化,像近幾年微博等非結(jié)構(gòu)性的應(yīng)用形式的出現(xiàn),給檢測系統(tǒng)的監(jiān)測帶來不小的挑戰(zhàn)。方便、快捷、智能、通用將是今后輿情監(jiān)測系統(tǒng)發(fā)展的方向。
參 考 文 獻
[1]曹勁松.政府網(wǎng)絡(luò)傳播[M].江蘇:江蘇人民出版社,2010-11-02
[2]葉皓.正確應(yīng)對網(wǎng)絡(luò)事件[M].江蘇:江蘇人民出版社,2009
[3]郭建永,蔡永,甄艷霞.基于文本聚類技術(shù)的主題發(fā)現(xiàn)[J].計算機工程與設(shè)計,2008(6).■
第三篇:國內(nèi)網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)對比分析
國內(nèi)網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)對比分析
目前,國內(nèi)市場上進行網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)的企業(yè)如雨后春筍般迅速發(fā)展,下面我們主要分析一下現(xiàn)今市面上比較常見的,占有率比較高的幾大品牌。
針對國內(nèi)的幾大廠商,不妨先說一下泰一輿情監(jiān)測軟件,這也是我比較看好的一家輿情監(jiān)測廠商,其本身的輿情監(jiān)測系統(tǒng)相對于“軍犬”“谷尼”“Rank”來說相當(dāng)出彩,與三大運營商深度合作,100萬定向抓取源搜索引擎,采用智能爬蟲技術(shù),全網(wǎng)監(jiān)測新聞、論壇、博客、微博、電視等各類型媒體,全天7*24小時實時抓取,確保信息全面,無遺漏。從客戶需求出發(fā),對信息進行全面抓取的同時,及時發(fā)現(xiàn)負面信息,并對之做出及時正確的反應(yīng),以提升單位、企業(yè)形象。
反觀其他廠商,對于中科點擊旗下“軍犬網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)”,該公司從信息采集起家,其主要產(chǎn)品應(yīng)該是它的“軍犬網(wǎng)絡(luò)信息采集系統(tǒng)”,該系統(tǒng)的短處在文本語意分析方面:只能根據(jù)關(guān)鍵詞進行關(guān)注(敏感)信息的匹配,不能形成輿情熱點,功能稍有局限。接著說谷尼國際的輿情系統(tǒng),總體感覺一般,沒有很出彩的地方,文本分析能力也很一般,除了互聯(lián)網(wǎng)上能看到他們的信息,市場上基本看不到它參與競爭。而Rank則是廣告打的非常響亮,實力稍顯一般。
總之,就整體而言,泰一輿情較其他廠商更加有優(yōu)勢。有輿情監(jiān)測需求的廠商不妨去百度一下,具體了解其特點!
第四篇:國內(nèi)網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)對比分析
國內(nèi)網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)對比分析
目前,國內(nèi)市場上進行網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)的企業(yè)如雨后春筍般迅速發(fā)展,下面我們主要分析一下現(xiàn)在市面上比較常見的,占有率比較高的幾大品牌。
針對國內(nèi)的幾大廠商,最值得一提的是泰一輿情監(jiān)測軟件,這也是我比較看好的一家輿情監(jiān)測廠商—泰一指尚,其本身的輿情監(jiān)測系統(tǒng)相對于“軍犬”“谷尼”“Rank”來說十分出彩,與三大運營商深度合作,100萬定向抓取源搜索引擎,采用智能爬蟲技術(shù),全網(wǎng)監(jiān)測新聞、論壇、博客、微博、電視等各類型媒體,全天7*24小時實時抓取,確保信息全面,無遺漏。從客戶需求出發(fā),對信息進行全面抓取的同時,及時發(fā)現(xiàn)負面信息,并對之做出及時正確的反應(yīng),以提升單位、企業(yè)形象。
反觀其他廠商,對于中科點擊旗下“軍犬網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)”,該公司從信息采集起家,其主要產(chǎn)品應(yīng)該是它的“軍犬網(wǎng)絡(luò)信息采集系統(tǒng)”,該系統(tǒng)的短處在文本語意分析方面:只能根據(jù)關(guān)鍵詞進行關(guān)注(敏感)信息的匹配,不能形成輿情熱點,功能稍有局限。接著說谷尼國際的輿情系統(tǒng),總體感覺一般,沒有很出彩的地方,文本分析能力也很一般,除了互聯(lián)網(wǎng)上能看到他們的信息,市場上基本看不到它參與競爭。而Rank則是廣告打的非常響亮,實力稍顯一般。
總之,就整體而言,我傾向于推薦國內(nèi)的泰一輿情。
第五篇:奧搜互聯(lián)網(wǎng)輿情信息監(jiān)測系統(tǒng)白皮書
北京杰諾在線科技有限公司
輿情信息監(jiān)測系統(tǒng)
白皮書
北京杰諾在線科技有限公司
http://www.aosou.net全國統(tǒng)一咨詢電話:400-656-0601
北京杰諾在線科技有限公司
目 錄
杰諾在線輿情監(jiān)測系統(tǒng)............................................3
一、系統(tǒng)說明...................................................3
二、系統(tǒng)架構(gòu)...................................................4
三、軟件特點...................................................4
四、軟件功能...................................................4
(2)功能特點................................................5(3)特點....................................................6
五、輿情加工...................................................8
六、輿情規(guī)劃..................................................13
七、輿情服務(wù)..................................................14
八、評估反饋..................................................16
九、服務(wù)器要求................................................17
十、性能指標..................................................18
前 言
“互聯(lián)網(wǎng)不完全是一個虛擬的世界,它的本質(zhì)是現(xiàn)實的?;ヂ?lián)網(wǎng)面向公眾,直接對社會產(chǎn)生影響?!眹鴦?wù)院新聞辦公室副主任蔡名照曾這樣描述互聯(lián)網(wǎng)與社會的關(guān)系。我們還應(yīng)該看到,在我國,互聯(lián)網(wǎng)的受眾是一個特殊的群體,因為占大多數(shù)的農(nóng)民、民工都不使用互聯(lián)網(wǎng),由于互聯(lián)網(wǎng)在我國傳播的歷史原因,稍長年齡段的人對互聯(lián)網(wǎng)的使用也并不熟悉。因此,互聯(lián)網(wǎng)直接面向公眾,也就是具有局限性的這個公眾,對社會影響的力量是有限的。
通過近期對本地BBS信息的觀察發(fā)現(xiàn),相當(dāng)多的言論已經(jīng)不是滿足于一些日常生活的需要,而是在試圖去喚起大眾的注意,去改變令人不滿意的現(xiàn)實狀況。特別是對社會生活中出現(xiàn)的一些不正?,F(xiàn)象,進行了尖銳的批判和抨擊。
全國統(tǒng)一咨詢電話:400-656-0601
北京杰諾在線科技有限公司
C.自動分類,聚類
D.網(wǎng)頁非結(jié)構(gòu)化信息抽取
E.基于語義分析的高級分詞技術(shù)
F.信息指紋去重
G.多語言、編碼格式自動識別
H.搜索引擎與數(shù)據(jù)庫無縫集成 I.圖片搜索
J.分布式系統(tǒng)、支持億級數(shù)據(jù)檢索
K.智能摘要、關(guān)鍵字提取技術(shù)(2)功能特點
A.信息實時監(jiān)測
通過信息實時監(jiān)測,可以分區(qū)域,按關(guān)鍵詞,IP段進行實時監(jiān)測
在快捷菜單中也可以對設(shè)置關(guān)鍵詞匯,預(yù)警級別,監(jiān)控網(wǎng)站,刷新速率,監(jiān)控深度,郵件發(fā)送人,手機接收人等參數(shù)設(shè)置 B.自動聚類、分類
自動分類聚類功能,可以將信息監(jiān)測搜索到的信息進行處理,幫助用戶對數(shù)據(jù)進行 信息整理,系統(tǒng)支持人工分類和自動學(xué)習(xí)功能,也支持基于統(tǒng)計模型的自動分類。
C.監(jiān)控管理
用戶可以自行設(shè)置監(jiān)控的關(guān)鍵詞匯或語句,并可根據(jù)詞語進行分類,例如:氣候變化等。并可以設(shè)置即時發(fā)現(xiàn)后對敏感詞匯的處理方式,以email或短信方式實時提醒。保留原始網(wǎng)頁快照以備追蹤熱點信息,自動收集最新熱門關(guān)鍵詞匯(即熱門話題)D.統(tǒng)計分析
分布統(tǒng)計:通過圖表展示監(jiān)控詞匯和時間的分布關(guān)系以及趨勢分析,包括地域信息分布。
熱點統(tǒng)計:根據(jù)時間統(tǒng)計熱點的分類和熱門關(guān)鍵詞,包括地域信息分布。
預(yù)警信息:對于敏感信息和預(yù)警級別重點信息監(jiān)控。
信息報告:智能和人工生成信息報告,支持報告導(dǎo)出功能。
E.多用戶和分級
支持用戶管理,不同用戶可以設(shè)置不同的監(jiān)控源以及監(jiān)控關(guān)鍵詞匯,預(yù)警提醒等相關(guān)信息參數(shù)設(shè)置。支持競爭情報的報表的生成和上報。F.一鍵結(jié)果上傳
一鍵或批量將所監(jiān)測的信息第一時間轉(zhuǎn)載到自己的網(wǎng)站,自動提取正文和自動編寫摘要。G.一鍵導(dǎo)出
將信息導(dǎo)出到WORD文檔中,可供二次編輯或打印,自動編寫摘要,自動提取正文!H.信息加工
將信息導(dǎo)出到WORD文檔中,可供二次人工編輯,自動編寫摘要,自動提取正文!I.追加文檔
全國統(tǒng)一咨詢電話:400-656-0601
北京杰諾在線科技有限公司
3、添加監(jiān)測頁
4、添加關(guān)鍵字
全國統(tǒng)一咨詢電話:400-656-0601
北京杰諾在線科技有限公司
5、監(jiān)控文件導(dǎo)入導(dǎo)出,定時保存快捷操作
五、輿情加工
1、自動處理輿情:可自動分類、自動排重、自動編寫摘要,自動提取正文和提取關(guān)鍵詞等。能篩選出重要性強,急待處理輿情信息,過濾無用,過時,低影響力的信息。
(1)、右鍵常用操作功能
全國統(tǒng)一咨詢電話:400-656-0601
910111213
北京杰諾在線科技有限公司
(3)個性化定制和郵件訂閱:用戶可以根據(jù)要求,分類定制輿情信息,收藏重要的輿情信息,以及通過訂閱獲取輿情郵件自動送服務(wù),實現(xiàn)個性化和及時便捷的輿情服務(wù)。
全國統(tǒng)一咨詢電話:400-656-0601
北京杰諾在線科技有限公司
3、分析網(wǎng)絡(luò)輿情傳播路徑,并能通過反向解析出url所對應(yīng)的網(wǎng)站名稱。
4、一鍵轉(zhuǎn)載,輕松將標題,來源,正文,摘要等參數(shù)轉(zhuǎn)到自己的網(wǎng)站。
八、評估反饋
1、輿情反饋、批注、評論:
(1)反饋輿情需求:用戶可以提交輿情需求信息,成為改進輿情規(guī)劃的依據(jù)。
全國統(tǒng)一咨詢電話:400-656-0601
北京杰諾在線科技有限公司
(2)輿情批注和輿情評論:領(lǐng)導(dǎo)可以對輿情信息進行批注,一般用戶可以對輿情信息給予評論。批注和評論成為下一步改進輿情規(guī)劃的依據(jù)。
(3)統(tǒng)計匯總:支持對輿情信息瀏覽量、輿情加工工作量統(tǒng)計和輿情采集源有效性的統(tǒng)計。以文字和圖表的形式直觀的形成、生成各種網(wǎng)絡(luò)輿情趨勢圖表。利用這些統(tǒng)計數(shù)字和圖表可以有效地對輿情內(nèi)容、采集源和輿情加工人員績效進行評估,推動輿情工作持續(xù)改進。
九、服務(wù)器要求
(1)CPU: P4 2.8以上
全國統(tǒng)一咨詢電話:400-656-0601