第一篇:谷尼Goonie互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)技術白皮
Goonie互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)
技術白皮書
谷尼國際軟件(北京)有限公司
二〇一〇年八月
目錄 2 3 4 5 系統(tǒng)概述........................................................................................................................................1 系統(tǒng)結構........................................................................................................................................1 系統(tǒng)特點........................................................................................................................................2 性能指標........................................................................................................................................3 功能描述........................................................................................................................................4 5.1 5.2 5.3 5.4 5.5 5.6 5.7 6 7 熱點話題、敏感話題識別...................................................................................................4 輿情主題跟蹤.......................................................................................................................4 自動摘要...............................................................................................................................4 輿情趨勢分析.......................................................................................................................5 突發(fā)事件分析.......................................................................................................................6 輿情報警系統(tǒng).......................................................................................................................6 輿情統(tǒng)計報告.......................................................................................................................6
運行環(huán)境........................................................................................................................................6 系統(tǒng)案例........................................................................................................................................7
谷尼國際軟件(北京)有限公司制 系統(tǒng)概述
網(wǎng)絡輿情形成迅速,對社會影響巨大,不僅需要各級黨政干部密切關注,也需要社會各界高度重視。該方案可應用在政府的新聞監(jiān)管、輿論監(jiān)督等部門。
互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)是一套利用搜索引擎技術、文本處理技術、知識管理方法,通過對互聯(lián)網(wǎng)海量信息自動獲取、提取、分類、聚類、主題監(jiān)測、專題聚焦,實現(xiàn)用戶對網(wǎng)絡輿情監(jiān)測和熱點事件專題追蹤等需求,形成輿情決策庫、輿情簡報等分析結果,為客戶全面掌握輿情動態(tài),做出正確輿論引導提供分析依據(jù)。
谷尼互聯(lián)網(wǎng)輿情監(jiān)控是以信息采集技術為核心,應用信息采集技術、內(nèi)容管理技術、知識管理技術、信息分類技術,實現(xiàn)網(wǎng)絡輿情監(jiān)測和新聞熱點追蹤、新聞監(jiān)管等功能需求。為客戶全面掌握群眾思想動態(tài),做出正確輿論引導,提供分析依據(jù)。系統(tǒng)工作流程如下: ? 信息采集:互聯(lián)網(wǎng)信息實時監(jiān)測、采集、內(nèi)容提取及排重;
? 信息處理:對抓取的內(nèi)容進行自動分類聚類、主題檢測、專題聚焦等; ? 信息服務:將采集并分析整理后的信息直接為用戶或為用戶輔助編輯提供信息服務,如自動形成輿情信息簡報、追蹤已發(fā)現(xiàn)的輿論焦點等。系統(tǒng)結構
總體來說,該監(jiān)控管理軟件的結構和特點如下:
谷尼國際軟件(北京)有限公司制 系統(tǒng)特點
該項目與國內(nèi)外互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)或類似功能的系統(tǒng)比較,具有自己顯著的技術特點,如允許用戶定制輿情監(jiān)控的范圍、方式等,具體如下: ? 支持網(wǎng)頁編碼自動識別 ? 支持URL去重識別
? 支持正文自動識別抽取,無須標簽配置
谷尼國際軟件(北京)有限公司制
? 支持分頁采集 ? 可設置采集頻率 ? 支持分布式部署 ? 強大的信息采集功能 ? 智能化的中文信息處理
? 全面的敏感信息分布式檢索系統(tǒng) ? 分類、聚類等中文智能處理技術廣泛采用 ? 實時增量備份原則
? 合理的模塊化結構及方便的分類監(jiān)控 ? 靈活的調(diào)度算法
? 支持新聞、博客、論壇、貼吧的采集監(jiān)控 ? 基于內(nèi)容相似性去重識別 ? 支持互聯(lián)網(wǎng)關鍵詞搜索采集入庫 ? 支持敏感詞過濾提取 ? 支持熱點發(fā)現(xiàn) ? 支持網(wǎng)頁快照 性能指標
? 穩(wěn)定性強:在機器不斷電的情況下,采集系統(tǒng)能7×24不間斷持續(xù)運行,不出現(xiàn)死機、無故重啟、資源耗盡等問題;無需人工監(jiān)控。
? 性能優(yōu)越:在普通網(wǎng)絡帶寬情況下,單機PC的采集能力達到30頁面/秒,網(wǎng)絡帶寬高的情況下可達到60-100頁面/秒。? 效率優(yōu)良:采集器所耗費的帶寬的利用率超過80%。? 抽取精確:正文的抽取準確率98%,誤抽率不到1%。? CPU和內(nèi)存的占有率不超過50%。
谷尼國際軟件(北京)有限公司制 功能描述
5.1 熱點話題、敏感話題識別
可以根據(jù)新聞出處權威度、發(fā)言時間密集程度等參數(shù),識別出給定時間段內(nèi)的熱門話題。利用內(nèi)容主題詞組和回貼數(shù)進行綜合語義分析,識別敏感話題。
5.2 輿情主題跟蹤
分析新發(fā)表文章、貼子的話題是否與已有主題相同。
是根據(jù)文檔內(nèi)容間的相關程度進行分組歸并。聚類不需要類別及相關訓練樣本。聚類可以發(fā)現(xiàn)當前輿論焦點,或者相關文檔的查找.通過對同一個階段搜索到的大量信息進行聚類,我們可以很方便地發(fā)現(xiàn)當前關于什么類別的文章數(shù)量更多,那些信息之間的關系更緊密,這樣我們可以很直觀地了解到當前輿論的焦點,以及各個輿論點之間的聯(lián)系緊密程度。
5.3 自動摘要
對各類主題,各類傾向能夠形成自動摘要。
信息自動摘要的中心思想是讓用戶在查看搜索結果時候,無需點擊進入每一個谷尼國際軟件(北京)有限公司制
搜索結果去了解具體內(nèi)容,而自動在搜索結果條目下顯示摘要信息。這些“摘要”幫助用戶迅速了解搜索結果的主要內(nèi)容,提高了工作效率。
5.4 輿情趨勢分析
分析某個主題在不同的時間段內(nèi),人們所關注的程度。
谷尼國際軟件(北京)有限公司制
5.5 突發(fā)事件分析
對突發(fā)事件進行跨時間、跨空間綜合分析,獲知事件發(fā)生的全貌并預測事件發(fā)展的趨勢。
5.6 輿情報警系統(tǒng)
對突發(fā)事件、涉及內(nèi)容安全的敏感話題及時發(fā)現(xiàn)并報警。
5.7 輿情統(tǒng)計報告
根據(jù)輿情分析引擎處理后生成報告,用戶可通過瀏覽器瀏覽,提供信息檢索功能,根據(jù)指定條件對熱點話題、傾向性進行查詢,并瀏覽信息的具體內(nèi)容,提供決策支持。運行環(huán)境
操作系統(tǒng):Microsoft Windows XP/NT/2000/2003/ 數(shù)據(jù)庫為:SQL2005/2000 谷尼國際軟件(北京)有限公司制
服 務 器:CPU3.2G/內(nèi)存2G/硬盤40G以上 帶寬要求:2M獨享以上
服務器數(shù)量:2臺(1臺采集監(jiān)控、1臺 數(shù)據(jù)庫服務器)應用規(guī)模較大,可以采用多服務器集群的方式 系統(tǒng)案例
國家部委成功案例 國家知識產(chǎn)權局 國家郵政局 國家農(nóng)業(yè)部
總后勤部 空軍司令部......地方政府成功案例 衡水市委宣傳部 沈陽市委
郴州市委宣傳部 淮安市委宣傳部 河南永城市委
河南永城市公安局 石家莊市政府 四川人民政府 福建省教育廳 31個省市郵政局......谷尼國際軟件(北京)有限公司制
知名企業(yè)成功案例 中國第一汽車集團 中石化西北油田分公司 中石油華北油田分公司 蒙牛乳業(yè)(北京)有限公司 河南綠能高科有限公司 中國網(wǎng)通集團河南公司 中國聯(lián)通北京分公司
山西陽泉煤業(yè)集團有限責任公司 北京圖書大廈有限公司......其它成功案例
人民郵電報業(yè)集團-中國信息產(chǎn)業(yè)網(wǎng) 深圳日報報業(yè)集團 深圳新聞網(wǎng) 甘肅日報報業(yè)集團 每日甘肅網(wǎng) 檢察日報社-正義網(wǎng) 麗水日報社-麗水網(wǎng) 南京大學 河北師范大學
第二篇:谷尼網(wǎng)絡輿情監(jiān)控系統(tǒng)技術白皮書
谷尼網(wǎng)絡輿情監(jiān)控系統(tǒng)
技術白皮書
(簡版)
谷尼國際軟件(北京)有限公司
目錄 2 3 4 系統(tǒng)概述........................................................................................................................................1 系統(tǒng)結構........................................................................................................................................1 系統(tǒng)特點........................................................................................................................................2 功能描述........................................................................................................................................3 4.1 4.2 4.3 4.4 4.5 4.6 4.7 5 熱點話題、敏感話題識別...................................................................................................3 輿情主題跟蹤.......................................................................................................................3 自動摘要...............................................................................................................................4 輿情趨勢分析.......................................................................................................................4 突發(fā)事件分析.......................................................................................................................4 輿情報警系統(tǒng).......................................................................................................................5 輿情統(tǒng)計報告.......................................................................................................................5
運行環(huán)境........................................................................................................................................5
谷尼國際軟件(北京)有限公司制 系統(tǒng)概述
網(wǎng)絡輿情形成迅速,對社會影響巨大,不僅需要各級黨政干部密切關注,也需要社會各界高度重視。該方案可應用在政府的新聞監(jiān)管、輿論監(jiān)督等部門。
網(wǎng)絡輿情監(jiān)控系統(tǒng)是一套利用搜索引擎技術、文本處理技術、知識管理方法,通過對互聯(lián)網(wǎng)海量信息自動獲取、提取、分類、聚類、主題監(jiān)測、專題聚焦,實現(xiàn)用戶對網(wǎng)絡輿情監(jiān)測和熱點事件專題追蹤等需求,形成輿情決策庫、輿情簡報等分析結果,為客戶全面掌握輿情動態(tài),做出正確輿論引導提供分析依據(jù)。
谷尼網(wǎng)絡輿情監(jiān)控系統(tǒng)是以信息采集技術為核心,應用信息采集技術、內(nèi)容管理技術、知識管理技術、信息分類技術,實現(xiàn)網(wǎng)絡輿情監(jiān)測和新聞熱點追蹤、新聞監(jiān)管等功能需求。為客戶全面掌握群眾思想動態(tài),做出正確輿論引導,提供分析依據(jù)。系統(tǒng)工作流程如下: ? 信息采集:互聯(lián)網(wǎng)信息實時監(jiān)測、采集、內(nèi)容提取及排重;
? 信息處理:對抓取的內(nèi)容進行自動分類聚類、主題檢測、專題聚焦等; ? 信息服務:將采集并分析整理后的信息直接為用戶或為用戶輔助編輯提供信息服務,如自動形成輿情信息簡報、追蹤已發(fā)現(xiàn)的輿論焦點等。系統(tǒng)結構
總體來說,網(wǎng)絡輿情監(jiān)控系統(tǒng)軟件的結構如下:
谷尼國際軟件(北京)有限公司制 系統(tǒng)特點
該項目與國內(nèi)外互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)或類似功能的系統(tǒng)比較,具有自己顯著的技術特點,如允許用戶定制輿情監(jiān)控的范圍、方式等,具體如下: ? 支持網(wǎng)頁編碼自動識別 ? 支持URL去重識別
? 支持正文自動識別抽取,無須標簽配置
谷尼國際軟件(北京)有限公司制
? 支持分頁采集 ? 可設置采集頻率 ? 支持分布式部署 ? 強大的信息采集功能 ? 智能化的中文信息處理
? 全面的敏感信息分布式檢索系統(tǒng) ? 分類、聚類等中文智能處理技術廣泛采用 ? 實時增量備份原則
? 合理的模塊化結構及方便的分類監(jiān)控 ? 靈活的調(diào)度算法
? 支持新聞、博客、論壇、貼吧的采集監(jiān)控 ? 基于內(nèi)容相似性去重識別 ? 支持互聯(lián)網(wǎng)關鍵詞搜索采集入庫 ? 支持敏感詞過濾提取 ? 支持熱點發(fā)現(xiàn) ? 支持網(wǎng)頁快照 功能描述
4.1 熱點話題、敏感話題識別
網(wǎng)絡輿情監(jiān)控系統(tǒng)可以根據(jù)新聞出處權威度、發(fā)言時間密集程度等參數(shù),識別出給定時間段內(nèi)的熱門話題。利用內(nèi)容主題詞組和回貼數(shù)進行綜合語義分析,識別敏感話題。
4.2 輿情主題跟蹤
網(wǎng)絡輿情監(jiān)控系統(tǒng)分析新發(fā)表文章、貼子的話題是否與已有主題相同。
是根據(jù)文檔內(nèi)容間的相關程度進行分組歸并。聚類不需要類別及相關訓練樣本。聚類可以發(fā)現(xiàn)當前輿論焦點,或者相關文檔的查找.谷尼國際軟件(北京)有限公司制
網(wǎng)絡輿情監(jiān)控系統(tǒng)通過對同一個階段搜索到的大量信息進行聚類,我們可以很方便地發(fā)現(xiàn)當前關于什么類別的文章數(shù)量更多,那些信息之間的關系更緊密,這樣我們可以很直觀地了解到當前輿論的焦點,以及各個輿論點之間的聯(lián)系緊密程度。
4.3 自動摘要
網(wǎng)絡輿情監(jiān)控系統(tǒng)對各類主題,各類傾向能夠形成自動摘要。
信息自動摘要的中心思想是讓用戶在查看搜索結果時候,無需點擊進入每一個搜索結果去了解具體內(nèi)容,而自動在搜索結果條目下顯示摘要信息。這些“摘要”幫助用戶迅速了解搜索結果的主要內(nèi)容,提高了工作效率。
4.4 輿情趨勢分析
分析某個主題在不同的時間段內(nèi),人們所關注的程度。
4.5 突發(fā)事件分析
網(wǎng)絡輿情監(jiān)控系統(tǒng)對突發(fā)事件進行跨時間、跨空間綜合分析,獲知事件發(fā)生的全貌并預測事件發(fā)展的趨勢。
谷尼國際軟件(北京)有限公司制
4.6 輿情報警系統(tǒng)
網(wǎng)絡輿情監(jiān)控系統(tǒng)對突發(fā)事件、涉及內(nèi)容安全的敏感話題及時發(fā)現(xiàn)并報警。
4.7 輿情統(tǒng)計報告
網(wǎng)絡輿情監(jiān)控系統(tǒng)根據(jù)輿情分析引擎處理后生成報告,用戶可通過瀏覽器瀏覽,提供信息檢索功能,根據(jù)指定條件對熱點話題、傾向性進行查詢,并瀏覽信息的具體內(nèi)容,提供決策支持。運行環(huán)境
操作系統(tǒng):Microsoft Windows XP/NT/2000/2003/ 數(shù)據(jù)庫為:SQL2005/MYSQL/ORACLE 服 務 器:CPU3.2G/內(nèi)存2G/硬盤40G以上 帶寬要求:2M獨享以上
服務器數(shù)量:2臺(1臺采集監(jiān)控、1臺 數(shù)據(jù)庫服務器)應用規(guī)模較大,可以采用多服務器集群的方式
谷尼國際軟件(北京)有限公司制
第三篇:Goonie網(wǎng)絡輿情監(jiān)控分析系統(tǒng)
?
?
Goonie網(wǎng)絡輿情監(jiān)控分析系統(tǒng)
1、既支持指定網(wǎng)站新聞、博客、論壇監(jiān)測,也支持整個互聯(lián)網(wǎng)的輿情監(jiān)控。
2、智能識別非法網(wǎng)絡信息,幫助您進行網(wǎng)絡掃黃、打非、打假。
3、自動發(fā)現(xiàn)負面報道、熱點新聞事件、熱點論壇貼子。
系統(tǒng)背景
隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡媒體作為一種新的信息傳播形式,已深入人們的日常生活。網(wǎng)友言論活躍已達到前所未有的程度,不論是國內(nèi)還是國際重大事件,都能馬上形成網(wǎng)上輿論,通過這種網(wǎng)絡來表達觀點、傳播思想,進而產(chǎn)生巨大的輿論壓力,達到任何部門、機構都無法忽視的地步??梢哉f,互聯(lián)網(wǎng)已成為思想文化信息的集散地和社會輿論的放大器。
網(wǎng)絡輿情是通過互聯(lián)網(wǎng)傳播的公眾對現(xiàn)實生活中某些熱點、焦點問題所持的有較強影響力、傾向性的言論和觀點,主要通過BBS論壇、博客、新聞跟貼、轉(zhuǎn)貼等實現(xiàn)并加以強化。當今,信息傳播與意見交互空前迅捷,網(wǎng)絡輿論的表達訴求也日益多元。如果引導不善,負面的網(wǎng)絡輿情將對社會公共安全形成較大威脅。對相關政府部門來說,如何加強對網(wǎng)絡輿論的及時監(jiān)測、有效引導,以及對網(wǎng)絡輿論危機的積極化解,對維護社會穩(wěn)定、促進國家發(fā)展具有重要的現(xiàn)實意義,也是創(chuàng)建和諧社會的應有內(nèi)涵。
系統(tǒng)概述
Goonie網(wǎng)絡輿情監(jiān)控分析系統(tǒng)依托自主研發(fā)的搜索引擎技術和文本挖掘技術,通過網(wǎng)頁內(nèi)容的自動采集處理、敏感詞過濾、智能聚類分類、主題檢測、專題聚焦、統(tǒng)計分析,實現(xiàn)各單位對自己相關網(wǎng)絡輿情監(jiān)督管理的需要,最終形成輿情簡報、輿情專報、分析報告、移動快報,為決策層全面掌握輿情動態(tài),做出正確輿論引導,提供分析依據(jù)。
系統(tǒng)結構
功能特點 ·自定義URL來源及采集頻率
Goonie網(wǎng)絡輿情監(jiān)控分析系統(tǒng)用戶可以設定采集的欄目、URL、更新時間、掃描間隔等,系統(tǒng)的掃描間隔最小可以設置成1分鐘,即每隔一分鐘,系統(tǒng)將自動掃描目標信息源,以便及時發(fā)現(xiàn)目標信息源的最新變化,并以最快的速度采集到本地。
·支持多種網(wǎng)頁格式
Goonie網(wǎng)絡輿情監(jiān)控分析系統(tǒng)可以采集常見的靜態(tài)網(wǎng)頁(HTML/HTM/SHTML)和動態(tài)網(wǎng)頁(ASP/PHP/JSP),還可以采集網(wǎng)頁中包含的圖片信息。
·支持多種字符集編碼
Goonie網(wǎng)絡輿情監(jiān)控分析系統(tǒng)采集子系統(tǒng)能夠自動識別多種字符集編碼,包括中文、英文、中文簡體、中文繁體等,并可以統(tǒng)一轉(zhuǎn)換為GBK編碼格式。
·支持整個互聯(lián)網(wǎng)采集
Goonie互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)元搜索模式是以國內(nèi)知名互聯(lián)網(wǎng)搜索引擎的結果為基礎并利用Goonie采集器直接面向互聯(lián)網(wǎng)定制內(nèi)容進行直接采集,用戶只需要輸入搜索關鍵詞就可以了。
·支持內(nèi)容抽取識別
Goonie網(wǎng)絡輿情監(jiān)控分析系統(tǒng)可對網(wǎng)頁進行內(nèi)容分析和過濾,自動去除廣告、版權、欄目等無用信息,精確獲取目標內(nèi)容主體。
·基于內(nèi)容相似性去重
Goonie網(wǎng)絡輿情監(jiān)控分析系統(tǒng)通過內(nèi)容相關識別技術自動判別分類中文章的關系,如果發(fā)現(xiàn)描述相同事件的文章自動去除重復部分。
功能描述
1、熱點話題、敏感話題識別
網(wǎng)絡輿情監(jiān)控分析系統(tǒng)可以根據(jù)新聞出處權威度、發(fā)言時間密集程度等參數(shù),識別出給定時間段內(nèi)的熱門話題。利用內(nèi)容主題詞組和回貼數(shù)進行綜合語義分析,識別敏感話題。
2、輿情主題跟蹤
網(wǎng)絡輿情監(jiān)控分析系統(tǒng)分析新發(fā)表文章、貼子的話題是否與已有主題相同。
3、自動摘要
Goonie網(wǎng)絡輿情監(jiān)控分析系統(tǒng)對各類主題,各類傾向能夠形成自動摘要。
4、輿情趨勢分析
Goonie網(wǎng)絡輿情監(jiān)控系統(tǒng)分析某個主題在不同的時間段內(nèi),人們所關注的程度。
5、突發(fā)事件分析
Goonie網(wǎng)絡輿情監(jiān)控分析系統(tǒng)對突發(fā)事件進行跨時間、跨空間綜合分析,獲知事件發(fā)生的全貌并預測事件發(fā)展的趨勢。
6、輿情報警系統(tǒng)
Goonie網(wǎng)絡輿情監(jiān)控分析系統(tǒng)對突發(fā)事件、涉及內(nèi)容安全的敏感話題及時發(fā)現(xiàn)并報警。
7、輿情統(tǒng)計報告
Goonie網(wǎng)絡輿情監(jiān)控分析系統(tǒng)根據(jù)輿情分析引擎處理后生成報告,用戶可通過瀏覽器瀏覽,提供信息檢索功能,根據(jù)指定條件對熱點話題、傾向性進行查詢,并瀏覽信息的具體內(nèi)容,提供決策支持。
第四篇:互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)需求分析
互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)需求分析
一、建設目標
為了實現(xiàn)高效的互聯(lián)網(wǎng)輿情監(jiān)測和控制管理,項目建設應完成如下目標:
1)對指定主流門戶網(wǎng)站(WEB網(wǎng)站)的網(wǎng)頁、論壇、數(shù)字報、電子雜志、博客、微博、播客、音視頻多媒體等實時信息的采集和處理。
2)對指定的主流的網(wǎng)頁、微博、音視頻流等實時信息的采集和處理。
3)對指定的主流網(wǎng)頁、圖片等實時信息采集和處理。4)全網(wǎng)(元搜索引擎)實時信息采集和處理。5)對指定到境外網(wǎng)站實時信息采集和處理。6)對收集到的海量信息進行檢索。7)對收集到的海量信息進行自動分析。8)對基本輿情數(shù)據(jù)進行各種加工處理。9)建立網(wǎng)評管理系統(tǒng),為輿論引導服務。10)建立查處管理系統(tǒng),為官方行為提供服務。
11)為方便資源共享,系統(tǒng)網(wǎng)絡可以彈性擴展、應用平臺可以二次開發(fā)。
二、系統(tǒng)實現(xiàn)功能
互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)應實現(xiàn)以下幾個功能: ? 動態(tài)的全面的收集社會民生信息內(nèi)容
? 過濾、消重網(wǎng)民曝光的違法違規(guī)信息、敏感信息 ? 獲取互聯(lián)網(wǎng)信息熱點焦點和趨勢分析 ? 分析網(wǎng)絡輿情的爆發(fā)點和峰值 ? 發(fā)現(xiàn)民意話題傳播關系和演化規(guī)律
? 實時向上級領導通報最新情報信息、輔助領導決策 ? 更充分了解網(wǎng)絡社情民意 ? 網(wǎng)絡新聞自動獲取
通過網(wǎng)絡技術,自動獲取網(wǎng)絡新聞,并且提取新聞的作者、時間、標題、正文等數(shù)據(jù)。? 網(wǎng)絡論壇自動獲取
通過論壇獲取模塊,自動抓取論壇的發(fā)貼。并且提取帖子的發(fā)貼人名稱,發(fā)貼時間,主貼,回貼人名稱,回貼時間,回貼內(nèi)容,論壇貼子的人氣和熱度。? 智能語言理解和分析處理
互聯(lián)網(wǎng)信息資訊的分析工作分為對單一信息文檔的分析和對文檔集合的分析處理。對于單文檔的加工,本系統(tǒng)中應用知識管理技術,實現(xiàn)信息的自動消重過濾、自動分類、自動摘要提取與自動關鍵詞提取。? 互聯(lián)網(wǎng)信息搜索
系統(tǒng)支持全文信息檢索,檢索結果按照相關度排序。系統(tǒng)支持模糊檢索,例如:同音詞檢索、同意詞檢索。系統(tǒng)支持“以文找文”的方式,通過輸入單篇情報信息,檢索內(nèi)容相似的互聯(lián)網(wǎng)新聞或論壇帖子。
三、主要功能簡介
1、輿情采集和處理
1)根據(jù)指定的互聯(lián)網(wǎng)信息源或檢索條件,用定向采集和全網(wǎng)覆蓋監(jiān)控兩種方式,連續(xù)不間斷和自動的對WEB資源進行采集。并進行預處理(分詞、標注、語法分析、語義分析等)和優(yōu)化處理(自動消重等),建立供進一步分析使用的基本索引庫。
2)采集對象一般為中央重點新聞網(wǎng)站、有影響力的商業(yè)網(wǎng)站、地方重點新聞網(wǎng)站、地方有影響力的社會網(wǎng)站、重點境外網(wǎng)站等。
3)信息源內(nèi)容包括:WEB網(wǎng)站網(wǎng)頁、論壇、貼吧、數(shù)字報、博客、播客、微博等。
4)全網(wǎng)覆蓋監(jiān)控采用元搜索引擎方式。通過集成不同的通用搜索引擎(百度、谷歌、雅虎等),全面和高效的獲取信息。
2、輿情檢索
1)對各種來源、多種格式、結構化和非結構化的社會公開信息源進行檢索。
2)提供全文檢索、關鍵詞(熱點詞)檢索、組合詞(布爾邏輯組合方式)檢索、短語檢索、拼音檢索、主題檢索、相似檢索、分類檢索(針對新聞、論壇、博客、播博、微博、視頻、各地市、國內(nèi)、國外)、高級檢索(針對標題、作者、時間、正文)等。
3)提供復雜檢索條件檢索(針對目標網(wǎng)站、時間區(qū)間、檢索類型、匹配度、排序方式)。
4)提供智能化檢索(按字索引、詞索引、字詞混合索引)。5)提供二次檢索(在一次檢索的基礎上)。6)提供整段內(nèi)容做為檢索條件的檢索。
7)根據(jù)信息源周邊內(nèi)容的文本信息,對圖片和音視頻等多媒體信息源進行檢索。
8)提供檢索結果的相關推薦。9)提供各種檢索結果統(tǒng)計。
10)檢索結果的查全率和查準率達到較高水準。
3、輿情分析
1)自動關鍵字提取。
2)對某一完整的文本信息源進行自動內(nèi)容(靜態(tài)摘要)摘要提取。
3)根據(jù)預先給定的檢索條件進行自動多文檔(動態(tài)摘要)摘要提取。
4)自動主題檢索和跟蹤。5)自動關聯(lián)分析和趨勢分析。6)根據(jù)預先給定的規(guī)則進行自動分類。
7)在沒有給定規(guī)則的前提下,自動聚類(自動識別)出新的模式歸檔到數(shù)據(jù)庫,以供用戶分析使用。
4、輿情加工和處理
1)所有采集及經(jīng)過處理入庫的信息保留半年。2)通過設置關鍵詞、有害詞、敏感詞,或通過設置某一輿情的潛在專題信息做出輿情預警。
3)將人工檢索以及自動生成熱點的相關聯(lián)多種特征數(shù)據(jù)(時間分布、傳播路徑、話題演化、地域分布等)整合處理,并以多種形式輸出,包括Word、Excel、網(wǎng)頁、XML、多種統(tǒng)計圖表(餅圖、柱狀圖、趨勢圖、報表、曲線圖)等。
4)對所有來源的基本數(shù)據(jù)(采集數(shù)據(jù)量、輿情數(shù)據(jù)、發(fā)帖數(shù)據(jù)等)進行統(tǒng)計分析,并以多種形式輸出,并以E-mail、RTX、手機短信等方式報警提示。同時在報警提示中輔以警示顏色(超過設定監(jiān)控閥值的采集信息)等特征信息加強直觀警示效果。
5)按照預定格式,自動生成輿情報告。簡報分為日報、周報、月報、專報。
6)對輿情數(shù)據(jù)信息進行痕跡處理(標注、推介、上報、批示等),使輿情數(shù)據(jù)信息進入辦公操作流程。
7)建立領導批示、各地輿情、境外輿情、網(wǎng)站備案信息、網(wǎng)站年檢信息、網(wǎng)站違規(guī)發(fā)布檢查、網(wǎng)站違規(guī)發(fā)布處理等專門管理。
第五篇:繁星時代互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)介紹
互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)
1主要業(yè)務功能:
實現(xiàn)全球熱門、專業(yè)、權威網(wǎng)站(中英文)的信息采集;
實現(xiàn)重點關注的門戶網(wǎng)站、論壇、微博、博客的信息采集;
實現(xiàn)熱點話題的聚類、敏感話題的追蹤、自定義的信息匯聚和數(shù)據(jù)挖掘技術,獲取基于各個行業(yè)和領域的輿情信息;
提供輿情信息預警機制,實現(xiàn)主動防御;
實現(xiàn)海量數(shù)據(jù)信息的存儲和索引機制;
2產(chǎn)品優(yōu)勢和特色
信息采集覆蓋全球
支持深層數(shù)據(jù)挖掘
提供信息內(nèi)容匯聚
提供輿情預警報警
支持海量數(shù)據(jù)存儲
用戶可以根據(jù)需求在平臺上搜索,抽取有效信息,并能快速從信息中挖掘人、事、組織背后的深層次關系,產(chǎn) 出獨有的情報信息,以及對歷史數(shù)據(jù)進行分析和溯源。