第一篇:360綜合搜索引擎報(bào)告
一、簡(jiǎn)介............................................................................................................1
二、發(fā)展勢(shì)頭.....................................................................................................1
三、未來(lái)趨勢(shì).....................................................................................................2
四、搜索特點(diǎn).....................................................................................................2
四、優(yōu)化推測(cè).....................................................................................................3
五、與百度 谷歌相比較.....................................................................................4
六、技術(shù)特點(diǎn).....................................................................................................4
360搜索引擎
地址:http://so.#
一、簡(jiǎn)介
2012年8月16日,奇虎360低調(diào)推出綜合搜索,360擁有強(qiáng)大的用戶群和流量入口資源,這對(duì)其他搜索引擎將極具競(jìng)爭(zhēng)力,該服務(wù)采用二級(jí)域名,整合了百度搜索、谷歌搜索內(nèi)容,可實(shí)現(xiàn)平臺(tái)間的快速切換。目前主要包括新聞搜索、網(wǎng)頁(yè)搜索、微博搜索、視頻搜索、MP3搜索、圖片搜索、地圖搜索、問(wèn)答搜索、購(gòu)物搜索,通過(guò)互聯(lián)網(wǎng)信息的及時(shí)獲取和主動(dòng)呈現(xiàn),為廣大用戶提供實(shí)用和便利的搜索服務(wù)。
二、發(fā)展勢(shì)頭
據(jù)站長(zhǎng)之家、安卓論壇、丁香園等多家網(wǎng)站發(fā)布的流量來(lái)路數(shù)據(jù),360搜索已快速超越搜狗、谷歌和騰訊搜搜,成為僅次于百度的中國(guó)第二大搜索引擎。此前,360綜合搜索在8月16
日低調(diào)上線。在沒(méi)有任何市場(chǎng)宣傳的情況下,眾多網(wǎng)站站長(zhǎng)發(fā)現(xiàn)來(lái)自該搜索引擎的流量呈爆發(fā)式增長(zhǎng),短短5天時(shí)間就超越搜狗等老牌搜索引擎。業(yè)界認(rèn)為,360旗下?lián)碛袛?shù)量龐大的瀏覽器和網(wǎng)址導(dǎo)航用戶,隨著360綜合搜索全面鋪開(kāi),其市場(chǎng)份額仍有較大上升空間。
站長(zhǎng)之家流量來(lái)路數(shù)據(jù)顯示,最近一天,通過(guò)360搜索訪問(wèn)該網(wǎng)站的獨(dú)立IP達(dá)到11280個(gè),超過(guò)騰訊SOSO(8706)、搜狗(6603)和谷歌(3414),占百度流量的14%;安卓論壇的數(shù)據(jù)則顯示,360搜索同樣是該論壇第二大來(lái)源站點(diǎn)。在此前由搜狗團(tuán)隊(duì)發(fā)布的評(píng)測(cè)報(bào)告中,360搜索品質(zhì)在上線第一天已略優(yōu)于騰訊SOSO。創(chuàng)新工場(chǎng)董事長(zhǎng)兼CEO李開(kāi)復(fù)認(rèn)為,360第一個(gè)版本做到這樣的地步很不容易,以后隨著更多數(shù)據(jù)和調(diào)整還有進(jìn)步空間。
三、未來(lái)趨勢(shì)
360搜索目前還只是測(cè)試版,它的研發(fā)人員大部分來(lái)自于騰訊搜搜的離職員工而360搜索除了帶有搜搜的基因之外還抄襲了百度搜狗等互聯(lián)網(wǎng)搜索引擎的功能和設(shè)計(jì),因此它的功能并不是特別的好用而目前360已經(jīng)對(duì)360安全衛(wèi)士和360安全瀏覽器用戶的搜索引擎做出了默認(rèn)更改為360搜索的指令因而360搜索獲得了大約10%的市場(chǎng)份額,但是很多網(wǎng)友對(duì)于360的這一做法并不滿意而對(duì)于360搜索的結(jié)果和功能也并不買(mǎi)賬,所以360搜索的未來(lái)依舊是個(gè)變數(shù)。
四、搜索特點(diǎn) 1、360綜合搜索引擎就是集合了其他搜索引擎,將多個(gè)單一的搜索引擎放在一起,提供了統(tǒng)一的搜索頁(yè)面,當(dāng)用戶搜索關(guān)鍵詞的時(shí)候他會(huì)把用戶搜索的東西在百度,谷歌,等其他搜索引擎上的資源進(jìn)行二次加工,去掉重復(fù)的,重新排序,經(jīng)過(guò)整理后在給客戶呈現(xiàn)。比如搜索“SEO”這個(gè)詞360的綜合搜索就會(huì)在不同搜索引擎搜索該詞的結(jié)果,然后根據(jù)一些算法把這些資源進(jìn)行排序,用戶還可以自己轉(zhuǎn)跳到百度或者谷歌上,去查看內(nèi)容,目前還沒(méi)有發(fā)現(xiàn)的有沒(méi)有360的搜索引擎的抓去內(nèi)容,雖然綜合搜索和單一的搜索引擎還是有一定的差別,但是360這一舉動(dòng)證實(shí)了360想要做搜索引擎的野心。
2、搜索結(jié)果排名近似百度。搜索結(jié)果整體上和BD的排名結(jié)果有65%雷同,360綜合搜索給老域名和信息發(fā)布網(wǎng)站和列表網(wǎng)站的權(quán)重高。
3、受關(guān)注程度現(xiàn)階段還不夠。當(dāng)前在BD搜索360的下拉框里沒(méi)有360搜索,這說(shuō)明現(xiàn)階段的影響力度不夠,關(guān)注度也是有限的。4、360產(chǎn)品的捆綁效果。和騰訊產(chǎn)品與QQ綁定一樣,建立在免費(fèi)的安全衛(wèi)士和殺毒軟件基礎(chǔ)上的360產(chǎn)品,也擁有著龐大的用戶群。后期360肯定會(huì)把360綜合搜索捆綁進(jìn)他的安全衛(wèi)士里面
5、關(guān)于產(chǎn)品
圖片搜索:360調(diào)用的即刻搜索,百度和谷歌則自有 圖片搜索:360調(diào)用的即刻搜索,百度和谷歌則自有; 視頻搜索:360、百度、谷歌都自由;
地圖、新聞搜索:360調(diào)用百度的,百度谷歌自有
四、優(yōu)化推測(cè)
1、入駐360導(dǎo)航網(wǎng)站
360搜索引擎之所以流量可以非常迅速的增長(zhǎng),很大的因素是來(lái)自于它的導(dǎo)航網(wǎng)站,它的搜索引擎標(biāo)題里面都沒(méi)有擺脫360網(wǎng)址導(dǎo)航的字樣,也是想要把它網(wǎng)址導(dǎo)航的用戶能夠更好的引導(dǎo)到搜索引擎上面。這也就是說(shuō)360搜索的流量來(lái)源有較大部分是來(lái)自于它的導(dǎo)航網(wǎng)站,所以入駐到它的導(dǎo)航網(wǎng)站會(huì)很大的影響到360搜索的用戶,增加我們網(wǎng)站被搜索的概率。
2、入駐360購(gòu)物商城
目前360搜索的排名原理還很有待研究,不過(guò)它對(duì)于自己購(gòu)物平臺(tái)給予了人工的干預(yù),排在所有網(wǎng)站的前面,所以360搜索對(duì)于它購(gòu)物平臺(tái)流量的增加是很大的。所以入駐到360購(gòu)物商城就等于是在關(guān)鍵詞排名上占據(jù)了絕對(duì)的優(yōu)勢(shì)。而且目前入駐到360商城的商家并不是非常多,在同品類下面競(jìng)爭(zhēng)并不大,所以入駐之后,排名和流量會(huì)有相當(dāng)?shù)谋U?。只是它在搜索?yè)給予展示的商品的原則還比較混亂,抓不到太多的規(guī)律。
3、增加百度優(yōu)化的力度
360搜索的優(yōu)化現(xiàn)在還無(wú)法去處理,不過(guò)在360搜索當(dāng)中可以看到很多百度的產(chǎn)品,或許是因?yàn)橐黾佑脩趔w驗(yàn)的原因,而且在搜索的結(jié)果當(dāng)中,很多關(guān)鍵詞上與百度是有類似的展示的。所以加大百度的搜索推廣,對(duì)于360的搜索流量來(lái)說(shuō)應(yīng)該是有所幫助。至少在360搜索導(dǎo)航上列出的百度新聞、百度圖片、百度知道等平臺(tái)上加大推廣力度是一定會(huì)增加360搜索流量的。4、360其他平臺(tái)廣告投放
360搜索廣告目前還沒(méi)有推出,不過(guò)畢竟360的搜索流量現(xiàn)在大多數(shù)還是來(lái)自于它其他的產(chǎn)品,能夠增加它其他平臺(tái)上用戶的關(guān)注度,對(duì)于被搜索的機(jī)會(huì)有很大的幫助。
五、與百度 谷歌相比較
360比較傾向于百度,百度前3頁(yè)內(nèi) 360都會(huì)給予好的排名 baidu和google都在前兩頁(yè) 那么360會(huì)直接給排到第1頁(yè)很靠前 網(wǎng)站域名年齡參考值很小 這一點(diǎn)有別于百度 網(wǎng)站每天更新,隔天快照 很容易進(jìn)360首頁(yè) 內(nèi)容相關(guān)性在排名中影響不大
六、技術(shù)特點(diǎn)
1、工作原理
360搜索引擎有自己的網(wǎng)頁(yè)抓取程序(spider)。Spider順著網(wǎng)頁(yè)中的超鏈接,連續(xù)地抓取網(wǎng) 頁(yè)。被抓取的網(wǎng)頁(yè)被稱之為網(wǎng)頁(yè)快照。由于互聯(lián)網(wǎng)中超鏈接的應(yīng)用很普遍,理論上,從一定范圍的網(wǎng)頁(yè)出發(fā),能搜集到絕大多數(shù)的網(wǎng)頁(yè)。
2、處理網(wǎng)頁(yè)
360搜索引擎抓到網(wǎng)頁(yè)后,還做大量的預(yù)處理工作,提供檢索服務(wù)。其中,最重要的就是提取關(guān)鍵詞,建立索引文件。其他還包括去除重復(fù)網(wǎng)頁(yè)、分詞(中文)、判斷網(wǎng)頁(yè)類型、分析超鏈接、計(jì)算網(wǎng)頁(yè)的重要度/豐富度等。
3、提供檢索服務(wù)
用戶輸入關(guān)鍵詞進(jìn)行檢索,搜索引擎從索引數(shù)據(jù)庫(kù)中找到匹配該關(guān)鍵詞的網(wǎng)頁(yè);為了用戶便 于判斷,除了網(wǎng)頁(yè)標(biāo)題和URL外,還會(huì)提供一段來(lái)自網(wǎng)頁(yè)的摘要以及其他信息。
第二篇:課堂開(kāi)心辭典——搜索引擎綜合實(shí)踐活動(dòng)
課堂開(kāi)心辭典
——《網(wǎng)上信息檢索策略與技巧》教學(xué)設(shè)計(jì)
4附:表1和競(jìng)賽題目
表
1競(jìng)賽題目 第一組:
1.中國(guó)月球探測(cè)計(jì)劃的名稱是()。2.請(qǐng)列舉出至少四種常見(jiàn)的毒品。3.當(dāng)今人類面臨的五大問(wèn)題是()。
4.昆蟲(chóng)和軟體動(dòng)物的肌肉組織分別是()5.《水滸傳》中,有兩位打虎英雄,在沂嶺殺四虎的是
6.自古以來(lái),漢字的書(shū)報(bào)是豎排的。1955年1月1日,有一家報(bào)紙首先實(shí)行橫排。這家報(bào)紙是。7.ISO14000系列標(biāo)準(zhǔn)是國(guó)際標(biāo)準(zhǔn)化組織制定的有關(guān)()的系列標(biāo)準(zhǔn)。8.對(duì)違法犯罪受到刑事處罰的未成年人,由什么機(jī)構(gòu)予以強(qiáng)制性教育改造? 9.奧林匹克勛章何時(shí)設(shè)立的,分哪幾種?
10.2004年雅典奧運(yùn)會(huì),中國(guó)女排勇奪冠軍,她們上次奪冠是在第幾屆奧運(yùn)會(huì)上?
6第二組:
1.在2004年的第九屆國(guó)際天文奧賽上,中國(guó)隊(duì)獲得()塊獎(jiǎng)牌。2.拘留是不是我國(guó)刑法規(guī)定的五種主刑之一? 3.環(huán)境污染的來(lái)源主要有哪四個(gè)方面? 4.兩棲動(dòng)物的排泄器官是()。5.《三國(guó)演義》中“煮酒論英雄”的主要人物是________。6.聯(lián)合國(guó)的六種工作語(yǔ)言是
7.酸雨是指pH值的大氣降水。
8.對(duì)未成年人犯罪案件,新聞報(bào)道不得披露該未成年人的姓名、住所、照片等,這是哪部法律規(guī)定的? 9.北京申辦口號(hào)是什么?
10.香港將承辦北京奧運(yùn)會(huì)哪個(gè)項(xiàng)目的比賽? 第三組 1.“蟹狀星云”在梅西葉星云星團(tuán)表中的編號(hào)是()。2.制約人們行為和調(diào)節(jié)人們關(guān)系的兩大社會(huì)規(guī)范是什么? 3.爆米花含有______________污染物。4.蝙蝠能產(chǎn)生超聲波的部位在_________
5.請(qǐng)寫(xiě)出《水滸傳》中最典型的反面人物6.《普通話水平測(cè)試等級(jí)標(biāo)準(zhǔn)》將普通話水平劃分為
7.噪聲的來(lái)源主要有交通噪聲、工業(yè)噪聲、建筑施工噪聲和社會(huì)噪聲。人耳開(kāi)始感到疼痛的聲音叫做痛閾,其聲級(jí)為_(kāi)__分貝左右。
8.駕駛自行車、電動(dòng)自行車、三輪車在路段上橫過(guò)機(jī)動(dòng)車道,應(yīng)當(dāng)怎么做? 9.中國(guó)第一塊奧運(yùn)會(huì)金牌獲得者是誰(shuí)? 10.請(qǐng)列舉北京奧運(yùn)會(huì)的6座協(xié)辦城市? 第四組
1.中國(guó)發(fā)現(xiàn)近地小行星最多的單位是()。2.機(jī)械加工用的三棱刮刀是不是屬于管制刀具? 3.城鎮(zhèn)環(huán)境空氣質(zhì)量一般執(zhí)行________級(jí)標(biāo)準(zhǔn)。
4.一種被稱為“公孫樹(shù)”和“活化石”的雌雄異株植物叫_________ 5.魯達(dá)在打死鄭屠后,逃到五臺(tái)山出家,法名為6.依據(jù)《漢語(yǔ)拼音方案》,普通話的聲調(diào)有7.汽車尾氣是全球范圍最嚴(yán)重的污染源。8.高速公路限速標(biāo)志標(biāo)明的最高時(shí)速是()公里 9.2008吉祥物福娃的名字分別是什么? 10.奧林匹克宗旨的高度概括是什么? 第五組
1.銀河在哪兩個(gè)()相鄰的星座之間穿過(guò)?
2.盜竊公私財(cái)物價(jià)值人民幣多少元以上被稱為數(shù)額特別巨大? 3.我國(guó)第一個(gè)自然保護(hù)區(qū)是千島湖自然保護(hù)區(qū)? 4.最早的苔蘚植物起源于()5.《紅樓夢(mèng)》中向傳統(tǒng)的男尊女卑的思想挑戰(zhàn)的人物是誰(shuí)? 6.國(guó)家通用語(yǔ)言——普通話的標(biāo)準(zhǔn)音指的是
7.蟲(chóng)眼越多的菜說(shuō)明沒(méi)有施用農(nóng)藥,所以更安全。是否正確? 8.禁止未成年人進(jìn)入網(wǎng)吧是哪部法律規(guī)定的? 9.北京奧運(yùn)會(huì)開(kāi)幕式將在哪個(gè)體育館舉行?
10.中國(guó)男子第一個(gè)獲得奧運(yùn)會(huì)金牌的運(yùn)動(dòng)員是誰(shuí)?中國(guó)女子第一個(gè)獲得奧運(yùn)會(huì)金牌的運(yùn)動(dòng)員是誰(shuí)?
第三篇:搜索引擎實(shí)驗(yàn)報(bào)告
電子科技大學(xué)
實(shí)驗(yàn)報(bào)告
學(xué)生姓名:羅佳學(xué)號(hào):2014120101013
指導(dǎo)教師:湯志偉
一、實(shí)驗(yàn)室名稱:
電子政務(wù)可視化實(shí)驗(yàn)室
二、實(shí)驗(yàn)項(xiàng)目名稱:
搜索引擎學(xué)習(xí)課程
三、實(shí)驗(yàn)原理:
搜索引擎框限定
四、實(shí)驗(yàn)?zāi)康模?/p>
百度的使命是“讓人們更便捷地獲取信息,找到所求”。Google的使命的是“整合全球信息,讓人人皆可訪問(wèn)并從中受益。” 搜索引擎自己標(biāo)榜的使命寫(xiě)的比較宏大,其實(shí)簡(jiǎn)單就說(shuō)是:用戶搜索任何關(guān)鍵詞時(shí)都能找需要的信息。
學(xué)會(huì)運(yùn)用這些搜索引擎的各種便捷方法,能讓我們節(jié)省很多時(shí)間和精力,帶來(lái)最滿意的用戶體驗(yàn)
五、實(shí)驗(yàn)內(nèi)容:
采取一定的技術(shù)手段、方式和方法獲取信息
六、實(shí)驗(yàn)器材(設(shè)備、元器件):
筆記本電腦,百度
七、實(shí)驗(yàn)步驟:
根據(jù)題意,對(duì)每一步提示進(jìn)行操作。截圖進(jìn)行分析
八、實(shí)驗(yàn)數(shù)據(jù)及結(jié)果分析:
(1)簡(jiǎn)單查詢 查詢電子科技大學(xué)
(2)“”雙引號(hào)完全匹配查詢
查詢成都小吃,沒(méi)有用雙引號(hào)時(shí)出現(xiàn)了很多美食鑒賞類的
查詢“成都小吃”,結(jié)果就是完整的(3)-減號(hào)——排除查詢
查詢白百何會(huì)出現(xiàn)很多和陳羽凡有關(guān)系的消息
查詢白百何 –陳羽凡,就不會(huì)出現(xiàn)陳羽凡的消息
(4)空格——“與”邏輯
查詢?nèi)朗锾一ǜ枨螺d
查詢白百何陳羽凡(5)| 分隔符——“或”邏輯 查詢成都大學(xué)
查詢成都|大學(xué)
(6)filetype ——指定文件類型 查詢學(xué)生名單
查詢學(xué)生名單filetypePDF
(7)intitle ——限定搜索標(biāo)題 查詢瓊瑤
查詢intitle:瓊瑤
(8)site ——限定搜索站點(diǎn) 查詢白百何出軌
查詢白百何出軌site: http://weibo.com/
(9)inurl ——限定搜索地址 查詢白百何出軌
查詢白百何出軌inurl:騰訊
(10)短語(yǔ)檢索 查詢“北京大學(xué)”
查詢“北京”“大學(xué)”
九、實(shí)驗(yàn)結(jié)論: 隨著計(jì)算機(jī)的普及以及信息工程的日益發(fā)展,從網(wǎng)上獲取信息已經(jīng)成為人們的日常生活和工作一個(gè)重要途徑,互聯(lián)網(wǎng)如今已成為一個(gè)資源不斷豐富的平臺(tái),整個(gè)互聯(lián)網(wǎng)逐漸成為一個(gè)信息量超大的資源存儲(chǔ)空間。
因此怎樣有效而又快捷的從海量數(shù)據(jù)中獲取所需的信息就成為一件困難的事情,搜索引擎的出現(xiàn)正是為了解決“信息豐富,獲取困難”的問(wèn)題的一種信息檢索服務(wù)。搜索引擎被稱為是一個(gè)信息處理和獲取的黑盒子,通過(guò)一定的規(guī)則在互聯(lián)網(wǎng)中爬取信息資源以及對(duì)信息進(jìn)行處理和提取,對(duì)外提供接口方便用戶查詢,從而起到指導(dǎo)用戶獲取信息的作用,主要由采集信息、組織并處理信息和查詢接口三部分組成。搜索引擎對(duì)于用戶來(lái)說(shuō)就是一個(gè)為其提供信息搜索功能的查詢工具。搜索引擎所具有的研究?jī)r(jià)值、實(shí)用價(jià)值以及商業(yè)價(jià)值是其在當(dāng)今信息時(shí)代獲得成功的重要因素。
十、總結(jié)及心得體會(huì):
學(xué)會(huì)使用簡(jiǎn)單的搜索技巧,來(lái)提高自己工作效率
十一、對(duì)本實(shí)驗(yàn)過(guò)程及方法、手段的改進(jìn)建議:
1、建議使用Google搜索,結(jié)果更準(zhǔn)確和方便
2、搜索時(shí)要明確關(guān)鍵詞,找到最簡(jiǎn)單的方法。
報(bào)告評(píng)分: 指導(dǎo)教師簽字:
第四篇:信息檢索與搜索引擎課程報(bào)告
《信息檢索搜索引擎技術(shù)》
期末考試報(bào)告
學(xué) 期:2016-2017學(xué)年第一學(xué)期
任課教師:毛存禮 專業(yè)年級(jí): 計(jì)科133 學(xué) 號(hào):201310405339、201310405326、201310405330、201310405325 學(xué)生姓名:李然、毛子銘、張倩、黃楓
目錄
一、系統(tǒng)概述................................................................................................................................3
二、系統(tǒng)需求分析........................................................................................................................3 2.1功能需求分析....................................................................................................................3
三、程序?qū)崿F(xiàn)................................................................................................................................4 3.1 爬蟲(chóng)的實(shí)現(xiàn).......................................................................................................................4 3.1.1 對(duì)網(wǎng)頁(yè)進(jìn)行分析...................................................................................................4 3.1.2編寫(xiě)爬蟲(chóng)................................................................................................................5 3.2索引的實(shí)現(xiàn)........................................................................................................................7 3.2.1分詞的實(shí)現(xiàn)............................................................................................................7 3.2.2索引的建立............................................................................................................8 3.2.3檢索索引................................................................................................................9 3.3向量空間模型的實(shí)現(xiàn)......................................................................................................10 3.3.1向量空間模型概述..............................................................................................10 3.3.2建立向量空間模型..............................................................................................11 3.4利用Lucene打分機(jī)制對(duì)文檔打分................................................................................13
四、測(cè)試......................................................................................................................................14
五、心得體會(huì)..............................................................................................................................17
一、系統(tǒng)概述
隨著互聯(lián)網(wǎng)的迅猛發(fā)展、WEB信息的增加,用戶要在信息海洋里查找自己所需的信息,就像大海撈針一樣,搜索引擎技術(shù)恰好解決了這一難題。搜索引擎是指互聯(lián)網(wǎng)上專門(mén)提供檢索服務(wù)的一類網(wǎng)站,這些站點(diǎn)的服務(wù)器通過(guò)網(wǎng)絡(luò)搜索軟件或網(wǎng)絡(luò)登錄等方式,將Intenet上大量網(wǎng)站的頁(yè)面信息收集到本地,經(jīng)過(guò)加工處理建立信息數(shù)據(jù)庫(kù)和索引數(shù)據(jù)庫(kù),從而對(duì)用戶提出的各種檢索做出響應(yīng),提供用戶所需的信息或相關(guān)指針。
用戶的檢索途徑主要包括自由詞全文檢索、關(guān)鍵詞檢索、分類檢索及其他特殊信息的檢索。本系統(tǒng)基于HTMLUNIT框架,構(gòu)建爬蟲(chóng),基于LUCENE框架,構(gòu)建索引,利用向量空間模型向量化表示文檔間的相關(guān)性,利用LUCENE給相關(guān)文檔打分。
二、系統(tǒng)需求分析
2.1功能需求分析
該系統(tǒng)分為四個(gè)功能模塊:
(1)爬蟲(chóng)模塊(2)索引模塊(3)向量化表示模塊(4)打分模塊 具體實(shí)現(xiàn)分工如下:
①爬蟲(chóng)模塊:該模塊采用Htmlunit框架,主要負(fù)責(zé)爬取網(wǎng)頁(yè)內(nèi)容,在本地建立文檔庫(kù),以便于索引功能模塊,將文檔庫(kù)里的文檔內(nèi)容建立成索引。(毛子銘所做)
②索引模塊:該模塊采用Lucene框架,功能分為兩塊:一是建立索引,將爬取的內(nèi)容建立成索引。二是檢索索引,即提供給用戶檢索索引。(張倩所做)
③向量化表示模塊:該模塊采用向量空間模型,其功能是將查詢文本和文檔向量化表示,以一種直觀的表示方法,展示出文檔間的相似度。(李然、黃楓合做)
④打分模塊:該模塊采用Lucene打分系統(tǒng),計(jì)算查詢文本和文檔的相似度,并對(duì)其文檔打分。(李然、黃楓合做)
三、程序?qū)崿F(xiàn)
3.1 爬蟲(chóng)的實(shí)現(xiàn)
3.1.1 對(duì)網(wǎng)頁(yè)進(jìn)行分析
(1)我們首先,對(duì)網(wǎng)頁(yè)進(jìn)行分析,昆工新聞上每一則新聞,都有相應(yīng)的鏈接,通過(guò)點(diǎn)擊鏈接查看相應(yīng)的新聞。
<1>昆工新聞網(wǎng)頁(yè)截圖
<2>新聞內(nèi)容截圖
(2)在瀏覽器中,查看新聞網(wǎng)的代碼,確定我們所需要的內(nèi)容并用XPATH表達(dá)式定位其內(nèi)容。
<3>新聞代碼截圖
3.1.2編寫(xiě)爬蟲(chóng)
(1)在這里,我們使用了HtmlUnit作為我們爬蟲(chóng)的框架,并指定內(nèi)容,對(duì)昆工新聞網(wǎng)進(jìn)行爬取。
<4> 部分代碼展示
(2)編寫(xiě)XPATH表達(dá)式,定位所抓取的內(nèi)容,在爬取過(guò)程中,首先要找到新聞的標(biāo)題,然后,再模擬點(diǎn)擊標(biāo)題的動(dòng)作,進(jìn)入新聞頁(yè)面。
(3)爬取內(nèi)容,并將其寫(xiě)入文本文檔中。
<5> 寫(xiě)入文檔
<6>爬取內(nèi)容
3.2索引的實(shí)現(xiàn)
3.2.1分詞的實(shí)現(xiàn)
(1)在建立索引之前,分詞是必不可少的步驟,我們所采用的是基于Lucene框架的IK分詞技術(shù)分詞。
<7> 部分代碼展示
(2)對(duì)爬取的內(nèi)容,進(jìn)行分詞測(cè)試。
<9>測(cè)試
3.2.2索引的建立
(1)索引的建立,我們也是基于Lucene框架建立的倒排索引,分詞技術(shù)的不同索引的差別也是很大,因此,分詞技術(shù)的選取一定要合理。
<10> 部分代碼展示
3.2.3檢索索引
(1)在這里,我們對(duì)爬取好的內(nèi)容,已經(jīng)建立好了索引,我們分別測(cè)試了“宇宙”、“人民”這兩關(guān)鍵詞進(jìn)行檢索??梢钥匆?jiàn),符合“人民”這個(gè)關(guān)鍵詞的文檔有2個(gè),符合“宇宙”這個(gè)關(guān)鍵詞的文檔不存在。
<12> 索引
<13> 索引結(jié)果
3.3向量空間模型的實(shí)現(xiàn)
3.3.1向量空間模型概述
向量空間模型將文檔映射為一個(gè)特征向量V(d)=(t1,ω1(d);?;tn, ωn(d)),其中ti(i=1,2, ?,n)為一列互不雷同的詞條項(xiàng),ωi(d)為ti在d中的權(quán)值, 一般被定義為ti在d中出現(xiàn)頻率tfi(d)的函數(shù),即。
在信息檢索中常用的詞條權(quán)值計(jì)算方法為 TF-IDF 函數(shù),其中N為所有文檔的數(shù)目,ni為含有詞條ti的文檔數(shù)目。TF-IDF公式有很多變種,下面是一個(gè)常用的TF-IDF公式:
根據(jù)TF-IDF公式,文檔集中包含某一詞條的文檔越多,說(shuō)明它區(qū)分文檔類別屬性的能力越低,其權(quán)值越??;另一方面,某一文檔中某一詞條出現(xiàn)的頻率越高,說(shuō)明它區(qū)分文檔內(nèi)容屬性的能力越強(qiáng),其權(quán)值越大。兩文檔之間的相似度可以用其對(duì)應(yīng)的向量之間的夾角余弦來(lái)表示,即文檔di,dj的相似度可以表示為:
進(jìn)行查詢的過(guò)程中,先將查詢條件Q進(jìn)行向量化,主要依據(jù)布爾模型:當(dāng)ti在查詢條件Q中時(shí),將對(duì)應(yīng)的第i坐標(biāo)置為1,否則置為0,即:
從而文檔d與查詢Q的相似度為:
根據(jù)文檔之間的相似度,結(jié)合機(jī)器學(xué)習(xí)的一些算法如神經(jīng)網(wǎng)絡(luò)算法,K-近鄰算法和貝葉斯分類算法等,可以將文檔集分類劃分為一些小的文檔子集。
在查詢過(guò)程中,可以計(jì)算出每個(gè)文檔與查詢的相似度,進(jìn)而可以根據(jù)相似度的大小,將查詢的結(jié)果進(jìn)行排序。
向量空間模型可以實(shí)現(xiàn)文檔的自動(dòng)分類和對(duì)查詢結(jié)果的相似度排序,能夠有效提高檢索效率;它的缺點(diǎn)是相似度的計(jì)算量大,當(dāng)有新文檔加入時(shí),則必須重新計(jì)算詞的權(quán)值。
3.3.2建立向量空間模型
(1)將文檔的前十五個(gè)關(guān)鍵字作為key并將文件的內(nèi)容作為value存Treemap中
<14> 部分代碼展示
(2)求兩個(gè)詞項(xiàng)的并集
<15> 部分代碼展示
(3)求兩個(gè)詞項(xiàng)的交集
<15> 部分代碼展示
(4)計(jì)算文章相似度
<16> 部分代碼展示
(5)計(jì)算公式:
3.4利用Lucene打分機(jī)制對(duì)文檔打分
(1)在這里,我們是基于Lucene框架,利用其自帶打分系統(tǒng),對(duì)查詢文本和文檔計(jì)算它們的相似度,再進(jìn)行打分。
Lucene打分公式如下:
(2)計(jì)算查詢文本(TermQuery)與文檔的相似度進(jìn)行打分。
(3)在查找“人民”這兩個(gè)關(guān)鍵詞后出現(xiàn)兩個(gè)相關(guān)文檔,它們分別的得分為0.47782254和0.3901917,這說(shuō)明第一個(gè)文檔更符合查詢
<17> 打分
四、測(cè)試
<18> 測(cè)試截圖1
<19> 測(cè)試截圖2
<20> 測(cè)試截圖3
<21> 測(cè)試截圖4
<22> 測(cè)試截圖5
<23> 測(cè)試截圖6
<24> 測(cè)試截圖7
<25> 測(cè)試截圖8
<26> 測(cè)試截圖9
五、心得體會(huì)
此次報(bào)告要求實(shí)現(xiàn)第一個(gè)信息檢索系統(tǒng),涉及到多線程編程、排序、網(wǎng)絡(luò)爬蟲(chóng)等多項(xiàng)技術(shù)。多線程是提高效率的一個(gè)非常重要的途徑,比如計(jì)算機(jī)并行計(jì)算等,本次實(shí)驗(yàn)完成了多線程的任務(wù),對(duì)網(wǎng)絡(luò)間通信以及搜索引擎如何實(shí)現(xiàn)向海量用戶在很短時(shí)間內(nèi)提供服務(wù)有了更深刻的認(rèn)識(shí)。通過(guò)實(shí)驗(yàn)我也認(rèn)識(shí)到了多線程編程的邊緣。在下一步的研究學(xué)習(xí)之中有很大助力。
在此基礎(chǔ)之上建立檢索,通過(guò)對(duì)于索引的檢索,一方面可以加深對(duì)于索引的深層認(rèn)識(shí),另一方面又可以是我們運(yùn)用知識(shí)與學(xué)習(xí)知識(shí)相結(jié)合,可以使我們學(xué)的更好,運(yùn)用的有理可循。
搜索引擎的處理對(duì)象是互聯(lián)網(wǎng)網(wǎng)頁(yè),日前網(wǎng)頁(yè)數(shù)量不計(jì)其數(shù)。所以搜索引擎首先面臨的問(wèn)題就是:如何能夠設(shè)計(jì)出高效的查詢以及下載系統(tǒng)。網(wǎng)絡(luò)爬蟲(chóng)是搜索引擎中很關(guān)鍵也很基礎(chǔ)的構(gòu)建,通過(guò)網(wǎng)絡(luò)爬蟲(chóng)的設(shè)計(jì),加深了我對(duì)實(shí)驗(yàn)原理的理解,同時(shí)也加強(qiáng)了自身的實(shí)踐能力。
第五篇:2007年國(guó)內(nèi)視頻搜索引擎分析報(bào)告
2007年國(guó)內(nèi)視頻搜索引擎分析報(bào)告
一,背景
互聯(lián)網(wǎng)正在經(jīng)歷著飛速發(fā)展的時(shí)代,在過(guò)去短短的幾年里互聯(lián)網(wǎng)從以telnet,email為代表的粗陋文本時(shí)代,一躍發(fā)展為豐富的寬帶多媒體時(shí)代。互聯(lián)網(wǎng)基礎(chǔ)設(shè)施的快速改善,使我們今天不僅可以通過(guò)互聯(lián)網(wǎng)欣賞到豐富多彩的圖文內(nèi)容,還可以進(jìn)行視頻通訊和網(wǎng)絡(luò)游戲。
網(wǎng)絡(luò)視頻做為一個(gè)行業(yè)進(jìn)入人們的視野是從美國(guó)Youtube的奇跡開(kāi)始的,隨之便一發(fā)而不可收,僅2006年以來(lái),中國(guó)互聯(lián)網(wǎng)行業(yè)如雨后春筍一樣涌出300多家網(wǎng)絡(luò)視頻企業(yè),相當(dāng)于平均每周誕生2家,網(wǎng)絡(luò)上的視頻數(shù)量也已成爆炸式增長(zhǎng)。
在線搜索服務(wù)超越電子郵件,已成為今天網(wǎng)民最常用的互聯(lián)網(wǎng)應(yīng)用。視頻搜索定將成為搜索引擎服務(wù)業(yè)新的競(jìng)爭(zhēng)點(diǎn)。
二,分析對(duì)象
國(guó)內(nèi)的視頻搜索引擎服務(wù)商幾乎都是近1年內(nèi)出現(xiàn)的,大體可分為門(mén)戶類和專業(yè)類兩種。而多數(shù)搜索引擎技術(shù)卻大同小異,這些視頻搜索引擎是否能夠滿足視頻用戶日趨增加的需求?現(xiàn)在已經(jīng)完善到什么程度?未來(lái)會(huì)向哪些方向發(fā)展?讓我們共同體驗(yàn)有可能成為引領(lǐng)此番網(wǎng)絡(luò)視頻革命的先驅(qū)們。
谷歌(http://video.google.cn/)
9月21日正式對(duì)外發(fā)布。有熱門(mén)、幽默、娛樂(lè)、體育、音樂(lè)和動(dòng)畫(huà)六大欄目。并對(duì)當(dāng)天100大視頻進(jìn)行排行。百度(http://video.baidu.com/)
匯集了幾十個(gè)在線視頻分享網(wǎng)站的視頻索引資源而建立。Leexoo(http://004km.cn.yahoo.com/)
搜索結(jié)果均來(lái)自于同一個(gè)視頻網(wǎng)站,所以不計(jì)入分析隊(duì)列。搜搜(http://video.soso.com/)
搜索技術(shù)和搜索結(jié)果均套用Openv的數(shù)據(jù),所以不計(jì)入分析隊(duì)列。三,分析
為了更好的對(duì)以上具有代表性的視頻搜索引擎有個(gè)更深入的了解,現(xiàn)以一些網(wǎng)民和行業(yè)共同關(guān)注的數(shù)據(jù)對(duì)其進(jìn)行評(píng)測(cè),舉例說(shuō)明。1,搜索結(jié)果數(shù)量:
方法:通過(guò)在幾個(gè)網(wǎng)站輸入“美女”、“搞笑”、“nba”等常用視頻搜索關(guān)鍵字,統(tǒng)計(jì)其返回的實(shí)際有效搜索結(jié)果數(shù)(通過(guò)一直向下翻頁(yè),去掉重復(fù)結(jié)果)。結(jié)果數(shù)愈多,代表搜索結(jié)果越豐富。谷歌:標(biāo)注結(jié)果與可顯示結(jié)果數(shù)不符,平均搜索結(jié)果量約1000。百度:標(biāo)注結(jié)果與可顯示結(jié)果數(shù)不符,平均搜索結(jié)果量約2000。Leexoo:平均搜索結(jié)果量約40000。
Openv:標(biāo)注結(jié)果與可顯示結(jié)果數(shù)不符,平均搜索結(jié)果量約1100。Pcpie:標(biāo)注結(jié)果與可顯示結(jié)果數(shù)不符,平均搜索結(jié)果量約3500。搜狗:標(biāo)注結(jié)果與可顯示結(jié)果數(shù)不符,平均搜索結(jié)果量約2000。愛(ài)問(wèn):標(biāo)注結(jié)果與可顯示結(jié)果數(shù)不符,平均搜索結(jié)果量約1000。
小結(jié):Leexoo的數(shù)據(jù)相比而言更真實(shí)。雖然網(wǎng)民對(duì)于搜索結(jié)果很少翻到10頁(yè)以后,但是這絕不說(shuō)明搜索引擎可以肆無(wú)忌憚的狂編出幾百萬(wàn)的虛構(gòu)數(shù)據(jù),再者,對(duì)于內(nèi)容表現(xiàn)更為豐富且更加強(qiáng)調(diào)娛樂(lè)性的視頻而言,用戶對(duì)傳統(tǒng)文本搜索結(jié)果很少翻到10頁(yè)以后的這一行為習(xí)慣也正在改變??傊瑢?duì)搜索引擎服務(wù)商而言,也許你們索引庫(kù)有很多內(nèi)容,但是你們還是應(yīng)該按照用戶能看得到的內(nèi)容數(shù)目告訴用戶。
2,搜索內(nèi)容豐富:
方法:通過(guò)在幾個(gè)網(wǎng)站輸入“輸入法”、“螺絲”、“autocad”等非常用視頻搜索關(guān)鍵字,統(tǒng)計(jì)其返回的實(shí)際有效搜索結(jié)果數(shù)。結(jié)果數(shù)愈多,代表搜索結(jié)果越豐富。
谷歌:標(biāo)注結(jié)果與可顯示結(jié)果數(shù)不符,平均搜索結(jié)果量約300。百度:標(biāo)注結(jié)果與可顯示結(jié)果數(shù)不符,平均搜索結(jié)果量約800。Leexoo:平均搜索結(jié)果量約20。Openv:平均搜索結(jié)果量約30。
Pcpie:標(biāo)注結(jié)果與可顯示結(jié)果數(shù)不符,平均搜索結(jié)果量約30。搜狗:標(biāo)注結(jié)果與可顯示結(jié)果數(shù)不符,平均搜索結(jié)果量約400。愛(ài)問(wèn):標(biāo)注結(jié)果與可顯示結(jié)果數(shù)不符,平均搜索結(jié)果量約200。
小結(jié):這個(gè)結(jié)果可見(jiàn)傳統(tǒng)大公司的實(shí)力和積累。百度不愧是中文第一搜索引擎。Pcpie,Openv,Leexoo的規(guī)模還是比較小。
3,搜索結(jié)果信息豐富程度和用戶體驗(yàn) 支持的用“Y”表示,不支持的用“N”表示
比較項(xiàng)目 谷歌 視頻代表圖片 Y Title Y
N 描述信息
N 格式
N 大小
Y 時(shí)長(zhǎng)
視頻上網(wǎng)時(shí)間 N 視頻觀看次數(shù) N
N 視頻預(yù)覽
視頻摘要幀 Y
小結(jié):
百度 Y Y N N N N N N N N Leexoo Openv Y N Y Y Y Y Y N Y N Y N Y N Y N Y Y Y N Pcpie
Y Y N N N N N N Y N 搜狗 Y Y N N N N N N N N 愛(ài)問(wèn) Y Y N N N Y Y N N N
1、從這張表,可以看出來(lái)各個(gè)視頻搜索的技術(shù)特點(diǎn),傳統(tǒng)文本搜索引擎服務(wù)商,對(duì)視頻的搜索結(jié)果,仍是以文本表現(xiàn)方式為主,幾乎都不提供更能體現(xiàn)視頻內(nèi)容特點(diǎn)的視頻預(yù)覽和視頻摘要,反而是Leexoo這種新興的以視頻處理技術(shù)見(jiàn)長(zhǎng)的小公司,更能在搜索結(jié)果中體現(xiàn)視頻本身的特點(diǎn)。
2、這張表,反映出不同視頻搜索引擎服務(wù)商對(duì)于用戶在視頻搜索方面的體驗(yàn)的把握程度。網(wǎng)絡(luò)視頻以用戶上傳為主,其文本描述信息極為簡(jiǎn)單甚至沒(méi)有,或者干脆“文不對(duì)題”。而傳統(tǒng)文本搜索引擎服務(wù)商,仍是以擅長(zhǎng)的文字表現(xiàn)為主,但由于搜索結(jié)果中不能體現(xiàn)視頻內(nèi)容特征,主導(dǎo)用戶點(diǎn)擊行為的仍然是排序。而Leexoo這種新興的視頻搜索服務(wù)商,由于其結(jié)果中對(duì)于每一個(gè)視頻結(jié)果均給出了7幀摘要幀圖片,以及一段視頻的預(yù)覽,用戶可以不必通過(guò)文本,直接通過(guò)圖片以及視頻預(yù)覽片斷可以更直觀地選擇視頻。顯然,這種方式對(duì)視頻搜索用戶而言更加友好,更加直觀,顛覆了傳統(tǒng)文本搜索所建立的按照排序來(lái)點(diǎn)擊搜索結(jié)果的用戶行為習(xí)慣。
3、百度等搜索引擎甚至連視頻的文本描述信息都沒(méi)有給出來(lái)。
4、傳統(tǒng)文本搜索引擎服務(wù)商在視頻搜索的技術(shù)和用戶體驗(yàn)方面,落后于新興的服務(wù)商。業(yè)內(nèi)傳言,百度甚至沒(méi)有自己的視頻搜索蜘蛛,只是每天向各個(gè)視頻網(wǎng)站索要其視頻索引信息來(lái)提供搜索服務(wù),從結(jié)果來(lái)看,有一定的依據(jù)。
4,搜索準(zhǔn)確性和有效性:
通過(guò)輸入不同關(guān)鍵詞的搜索結(jié)果進(jìn)行分析。
谷歌:根據(jù)視頻內(nèi)容的文本信息(標(biāo)題、說(shuō)明、標(biāo)簽等)進(jìn)行分類顯示。顯示最相關(guān)的結(jié)果,而省略了部分與已顯示的結(jié)果相似的條目。百度:根據(jù)視頻內(nèi)容的文本信息進(jìn)行分類顯示。
Leexoo:通過(guò)對(duì)視頻內(nèi)容的視覺(jué)特征和文本信息分析而顯示出相應(yīng)的結(jié)果。準(zhǔn)確率頗高。Openv:通過(guò)Autonamy的技術(shù)在電視類視頻的搜索上有很高準(zhǔn)確率。Pcpie:通過(guò)測(cè)試,準(zhǔn)確率不是很高,遠(yuǎn)沒(méi)有達(dá)到號(hào)稱按幀搜索的精度。搜狗:根據(jù)視頻內(nèi)容的文本信息進(jìn)行分類顯示。愛(ài)問(wèn):根據(jù)視頻內(nèi)容的文本信息進(jìn)行分類顯示。
小結(jié):Leexoo的視頻特征分析技術(shù)在視頻搜索上占有了絕對(duì)的優(yōu)勢(shì)。Openv則依靠Autonamy的語(yǔ)音識(shí)別技術(shù)在電視類視頻上取得了領(lǐng)先。其他的搜索引擎則只能依靠對(duì)標(biāo)簽等文字信息的分析進(jìn)行檢索。Pcpie號(hào)稱“幀搜索”而實(shí)際精準(zhǔn)度卻很難說(shuō)服大眾。
5,可搜索的視頻分類。
支持的用“Y”表示,不支持的用“N”表示
比較項(xiàng)目 在線視頻 手機(jī)視頻 P2P視頻 谷歌 Y N N 百度 Y N N Leexoo Openv Y Y Y N Y N Pcpie
Y Y N 搜狗 Y N N 愛(ài)問(wèn) Y N N
小結(jié):視頻搜索引擎應(yīng)該是廣義的對(duì)互聯(lián)網(wǎng)上所有的視頻文件進(jìn)行搜索的引擎。而不是窄意的只對(duì)以flash視頻為代表的在線視頻的搜索。Leexoo對(duì)互聯(lián)網(wǎng)上三大類視頻都做了索引。Pcpie只對(duì)手機(jī)視頻和在線視頻加以區(qū)分,其他搜索引擎依然最基本的搜索格式。
6,搜索來(lái)源廣泛性
通過(guò)輸入不同“site:網(wǎng)址”或通過(guò)關(guān)鍵詞查詢組合進(jìn)行分析。
谷歌:內(nèi)容來(lái)源約20個(gè)。百度:內(nèi)容來(lái)源約40個(gè)。Leexoo:內(nèi)容來(lái)源約70個(gè)。Openv:內(nèi)容來(lái)源約70個(gè)。Pcpie:內(nèi)容來(lái)源約30個(gè)。搜狗:內(nèi)容來(lái)源約40個(gè)。愛(ài)問(wèn):內(nèi)容來(lái)源約40個(gè)。
小結(jié):Leexoo在全國(guó)號(hào)稱有300余家視頻網(wǎng)站中收錄了約1/4,基本功頗為扎實(shí)。Openv的內(nèi)容來(lái)源分為電視類視頻和網(wǎng)絡(luò)類視頻兩部分,其電視類視頻占總視頻來(lái)源大約2/3。其他搜索引擎則基本在一個(gè)水平線上,唯有谷歌剛剛步入視頻搜索這個(gè)行列,該做的事還真的很多。
7,特色功能 谷歌:
1,搜索結(jié)果支持rss訂閱。2,視頻內(nèi)容的評(píng)級(jí)和舉報(bào)。
3,部分視頻內(nèi)容具有縮略圖功能。百度:
1,搜索結(jié)果矩陣顯示,每頁(yè)多達(dá)20個(gè)。2,內(nèi)容較為全面的視頻專題。Leexoo:
1,搜索結(jié)果支持視頻片段預(yù)覽。
2,搜索結(jié)果提供按內(nèi)容變換而截取的7個(gè)預(yù)覽圖片。3,搜索結(jié)果去除部分重復(fù)視頻。
4,提供圖片搜索視頻及視頻搜索視頻服務(wù)。5,提供不良視頻舉報(bào)功能。Openv:
1,搜索結(jié)果支持矩陣和列表兩種顯示方式。2,搜索結(jié)果支持視頻片段預(yù)覽。Pcpie:
1,首頁(yè)有搜索和門(mén)戶兩種模式。2,提供放映大廳和上傳視頻服務(wù)。搜狗:
1,搜索結(jié)果矩陣顯示,每頁(yè)多達(dá)20個(gè)。2,搜索關(guān)鍵詞排行榜。
3,支持在結(jié)果中搜索功能。愛(ài)問(wèn):
1,搜索結(jié)果支持按相關(guān)性和按時(shí)間排序兩種顯示方式。2,搜索結(jié)果提供搜索視頻和搜索專輯兩種選項(xiàng)。
小結(jié):顯示樣式和排序方式的變化已不足以區(qū)分搜索引擎有何質(zhì)的改變,所以多數(shù)搜索引擎其實(shí)都處于同一檔次上。其中谷歌的搜索結(jié)果支持rss訂閱是一個(gè)創(chuàng)新,但不會(huì)成為其領(lǐng)先于其他搜索引擎的技術(shù)壁壘;Pcpie的頭像搜索也僅僅是個(gè)初級(jí)的模型,并沒(méi)有真正的使用。視頻和文本的最大不同就在于視頻是非結(jié)構(gòu)化的數(shù)據(jù),能否做到脫離標(biāo)題,標(biāo)簽等具有誘惑性的說(shuō)明而直接去對(duì)實(shí)質(zhì)內(nèi)容進(jìn)行分析,并給網(wǎng)民以真實(shí)的反饋,這將成為搜索引擎質(zhì)變的門(mén)檻。真正具有質(zhì)變潛質(zhì)的是Leexoo,搜索結(jié)果提供按內(nèi)容變換而截取的7個(gè)預(yù)覽圖片,說(shuō)明了其技術(shù)可以做到按視頻內(nèi)容進(jìn)行搜索,而提供圖片搜索視頻及視頻搜索視頻服務(wù)則是進(jìn)一步證明了此能力。
8,界面友好程度
谷歌:默認(rèn)搜索結(jié)果頁(yè)面占據(jù)頁(yè)面顯示面積上部的1/4來(lái)做自己的欄框,即使有“收起”和“移除”選項(xiàng),也顯得是那么不的協(xié)調(diào)。用戶有時(shí)候不能直接完整觀看視頻,需要下拉。
百度:頁(yè)面清晰,整潔。搜索列表頁(yè)面每頁(yè)最多顯示20個(gè)視頻內(nèi)容并顯示一幀概況圖。
Leexoo:頁(yè)面清晰。既延續(xù)了傳統(tǒng)的搜索引擎顯示樣式,又突破性的開(kāi)拓了符合視頻展示的方式。Openv:頁(yè)面清晰,分類明確。Pcpie:頁(yè)面清晰,分類詳細(xì)。
搜狗:頁(yè)面清晰,整潔。搜索列表頁(yè)面每頁(yè)最多顯示20個(gè)視頻內(nèi)容并顯示一針概況圖。愛(ài)問(wèn):搜索結(jié)果分兩列顯示,側(cè)重于頁(yè)面左側(cè)。
小結(jié):搜索引擎是個(gè)內(nèi)容的入口,一般給人以清晰,簡(jiǎn)單的感覺(jué)即可。在這方面幾大搜索引擎都有各自的優(yōu)勢(shì)。百度和搜狗的頁(yè)面樣式非常相似,簡(jiǎn)單又清晰;Leexoo的按視頻內(nèi)容截取的7個(gè)關(guān)鍵幀顯示方式比較有特色;Openv和Pcpie的分類比較準(zhǔn)確和詳細(xì)。但是谷歌在這方面做的還不夠好,不像是Google這個(gè)品牌做的,有點(diǎn)像個(gè)人站長(zhǎng)做的,不夠大氣。愛(ài)問(wèn)最好也適當(dāng)調(diào)整版面。
9,用戶體驗(yàn)
谷歌:UI粗糙,內(nèi)容較少。不太符合谷歌這種大品牌的定位。
百度:內(nèi)容較豐富,頁(yè)面簡(jiǎn)單,相信這兩點(diǎn)賺了不少印象分。但是對(duì)內(nèi)容的描述信息不夠全面。
Leexoo:是一個(gè)可以改變用戶習(xí)慣的視頻搜索引擎。使用戶的焦點(diǎn)不再是按自上而下的順序?qū)ふ宜P(guān)注的內(nèi)容。而是全面的概覽后直接選取所需,節(jié)省了大量時(shí)間,從而提高搜索效率。其圖片搜索視頻和視頻搜索視頻服務(wù)還有待觀察。Openv:電視類視頻專題做的頗具特色。首頁(yè)的電視墻做得很眩,不過(guò)實(shí)際用處不大,反而因此令首頁(yè)打開(kāi)較慢。Pcpie:翻頁(yè)條在右側(cè)別具一格。搜索準(zhǔn)確度有待提高。搜狗:同百度一樣的樣式,區(qū)分在于各自的品牌實(shí)力。
愛(ài)問(wèn):新浪播客的視頻占據(jù)了絕大多數(shù),更多是新浪的站內(nèi)視頻搜索。
小結(jié):除去做電視類視頻搜索的Openv不說(shuō),目前用戶體驗(yàn)最好的是百度和搜狗。最有競(jìng)爭(zhēng)潛力的是Leexoo。其搜索結(jié)果以視覺(jué)特征方式展現(xiàn),提供視頻的摘要幀圖片和視頻預(yù)覽片斷的方式,有可能會(huì)改變用戶對(duì)視頻搜索結(jié)果的瀏覽習(xí)慣,這是非常具有創(chuàng)造性的。不過(guò)Openv在1年半時(shí)間更換了4次網(wǎng)頁(yè)風(fēng)格,Pcpie在不到1年時(shí)間內(nèi)更換了4次網(wǎng)頁(yè)風(fēng)格。這對(duì)于用戶體驗(yàn)來(lái)說(shuō),不是個(gè)很好的做法。
10,更新頻率
方法:通過(guò)列舉最新發(fā)生的熱點(diǎn)視頻,觀察被搜索引擎收錄的時(shí)間,來(lái)統(tǒng)計(jì)視頻搜索引擎的更新頻率。谷歌:1天 百度:2天 Leexoo:1天 Openv:1天 Pcpie:至少3天以上 搜狗:2天以上 愛(ài)問(wèn):1小時(shí)
小結(jié):視頻搜索引擎的基本更新頻率是1天,Leexoo、Openv、谷歌都做到了這個(gè)平均值,愛(ài)問(wèn)確實(shí)表現(xiàn)頗為出色,而大于1天的則需要努力了。
11,技術(shù)實(shí)力
支持的用“Y”表示,不支持的用“N”表示
比較項(xiàng)目 谷歌
Y 文本搜索視頻
圖片/視頻搜索視頻 N 內(nèi)容采集的智能抓取 Y
N 視覺(jué)特征索引
視頻概念和段落識(shí)別 N
N 視頻自動(dòng)分類
N 自動(dòng)聚合和查重
有害視頻檢測(cè)過(guò)濾 N
百度 Y N N N N N N N Leexoo Openv Y Y Y N Y N Y N Y N Y N Y N Y N Pcpie 搜狗
Y Y N N Y N N N N N N N Y N Y N 愛(ài)問(wèn)
Y N N N N N N N
小結(jié):由于視頻搜索和文本搜索的本質(zhì)不同,按照文本搜索的模式來(lái)做視頻搜索肯定是不對(duì)的。Leexoo由于掌握了視頻搜索所要求的基本技術(shù),所以獲得了領(lǐng)先優(yōu)勢(shì),并且是門(mén)檻級(jí)的優(yōu)勢(shì),谷歌等傳統(tǒng)搜索引擎還有很多待于完善。Openv和Pcpie邁出了一小步,由此更加證明了視頻搜索是具有技術(shù)門(mén)檻,需要有真實(shí)實(shí)力的產(chǎn)品。
12,支持格式
基本都是以flv為主,并包括目前網(wǎng)上主流的視頻格式rm, rmvb, wmv, asf, mpg, mpeg, avi,3gp,mov等。
13,被文本搜索引擎收錄的情況(site:)
Google 谷歌:45 百度:20,900 Leexoo:7,350 Openv:6,820 Pcpie:72,500 搜狗:80,100 愛(ài)問(wèn):383,000
百度 谷歌:12 百度:402,000 Leexoo:4,350 Openv:184 Pcpie:73,300 搜狗:138 愛(ài)問(wèn):109
小結(jié):所有視頻搜索引擎從被收錄的網(wǎng)頁(yè)數(shù)量上看,google的文本搜索引擎收錄的明顯大于百度 Pcpie在搜索引擎優(yōu)化(SEO)方面下了功夫,在兩大文本搜索引擎中,表現(xiàn)相對(duì)不錯(cuò)。
Gogole文本搜索引擎對(duì)自己的視頻搜索引擎只收錄了區(qū)區(qū)45個(gè),可被評(píng)為2007最無(wú)私的企業(yè)。而百度正好相反,胳膊肘絕不外拐,不知道是技術(shù)水平與google有差距?還是出于商業(yè)策略的考慮。
14,視頻搜索排行榜
谷歌:提供每天更新的前100個(gè)搜索排行。百度:無(wú)搜索排行榜
Leexoo:提供兩種排行:一是將視頻自動(dòng)分為9類,提供這9類視頻中每天最熱門(mén)的視頻排行榜;二是整合9大熱門(mén)視頻網(wǎng)站的搜索排行榜。
Openv:提供12種類型的分類排行榜。Pcpie:無(wú)搜索排行榜 搜狗:無(wú)搜索排行榜 愛(ài)問(wèn):無(wú)搜索排行榜
小結(jié):作為一個(gè)全網(wǎng)的視頻搜索引擎來(lái)講,能站在全視頻行業(yè)角度去對(duì)視頻內(nèi)容,網(wǎng)民搜索行為進(jìn)行分析,是最基本的要求。最直觀的外在表現(xiàn)就是視頻搜索排行榜?,F(xiàn)只有三家提供視頻搜索排行榜:谷歌對(duì)當(dāng)天的搜索內(nèi)容進(jìn)行排行,稍顯不夠全面。Leexoo的排行相對(duì)不錯(cuò)。Openv提供的搜索排行榜偏向于電視類媒體,這正是他們的強(qiáng)項(xiàng)。
還有些其他參數(shù)在這里就不詳細(xì)一一列舉。
四,總結(jié)
谷歌:目前在其搜索網(wǎng)站上沒(méi)有什么體現(xiàn)視頻搜索方面的新技術(shù),據(jù)說(shuō),Google的視頻采集爬蟲(chóng)尚處于初級(jí)階段,需要針對(duì)每一家視頻網(wǎng)站開(kāi)發(fā)專門(mén)的采集器。
與.COM的Google視頻搜索相比,可是被閹割的厲害,甚至連提交收錄視頻網(wǎng)站的最基本功能都沒(méi)有,做個(gè)除了搜索什么功能都沒(méi)有純粹的“視頻搜索引擎”。而說(shuō)到搜索,最可笑的是谷歌連自家Google Video以及Youtube的視頻內(nèi)容都不收錄。如此疲于趕場(chǎng)式的谷歌視頻搜索,真是讓所視頻搜索用戶貽笑大方。百度:目前在其搜索網(wǎng)站上沒(méi)有什么體現(xiàn)視頻搜索方面的新技術(shù),其視頻索引主要來(lái)自于各個(gè)視頻網(wǎng)站每天直接給百度的貢獻(xiàn)——百度還沒(méi)有自己的網(wǎng)絡(luò)視頻爬蟲(chóng)。百度曾跟Autonomy合作,希望采用后者的技術(shù),但是后者同時(shí)是Openv的核心技術(shù)提供商。最近傳聞,百度還在四處尋找和采購(gòu)新的視頻搜索與分析技術(shù)。沒(méi)有過(guò)多的修飾,沒(méi)有過(guò)多的步驟,一切從簡(jiǎn)。
Leexoo:從網(wǎng)絡(luò)視頻爬蟲(chóng)、采集、分析到索引,擁有全線核心技術(shù),發(fā)展?jié)摿Ρ容^大?;蛟S不是最大的,但絕對(duì)是最有潛力的,因?yàn)榧夹g(shù)實(shí)在高出一截,因?yàn)閷?duì)視頻的理解確實(shí)夠深刻。Openv:視頻搜索引擎技術(shù)來(lái)自國(guó)際上領(lǐng)先的非結(jié)構(gòu)化搜索技術(shù)提供商Autonomy,但是,Autonomy的技術(shù)是對(duì)音頻的分析,對(duì)于視頻搜索引擎還不存在缺陷,同時(shí),Openv在網(wǎng)絡(luò)視頻的爬蟲(chóng)技術(shù)上還是空白。另外,由于核心技術(shù)受制他人,難以保證及時(shí)響應(yīng)中國(guó)互聯(lián)網(wǎng)視頻搜索用戶的需求。事實(shí)上,Openv已經(jīng)更多的轉(zhuǎn)變?yōu)橐粋€(gè)面向電視臺(tái)的搜索技術(shù)服務(wù)提供商+視頻分享網(wǎng)站。
電視視頻與網(wǎng)絡(luò)視頻的結(jié)合,是一大特點(diǎn),到底能有多大市場(chǎng),還有待于時(shí)間檢驗(yàn)。Pcpie:具有視頻分享網(wǎng)站類似的廣告模式,具有視頻搜索引擎相近的功能。號(hào)稱按幀搜索,結(jié)果比標(biāo)簽搜索還不準(zhǔn)確。在視頻搜索領(lǐng)域里尚缺乏核心競(jìng)爭(zhēng)優(yōu)勢(shì)。值得一提的是技術(shù)研發(fā)團(tuán)隊(duì)在哪里,似乎是海外????? 搜狗:雖然與百度基本相同,但是在結(jié)果中的二次搜索功能可以很方便的把搜索結(jié)果再次細(xì)分,搜狗的技術(shù)特點(diǎn)體現(xiàn)在了細(xì)微之處,可謂用心良苦。愛(ài)問(wèn):包括熱門(mén)推薦、最新上傳等等。愛(ài)問(wèn)視頻搜索并不是要做視頻搜索引擎,而是想以“視頻搜索”吸引用戶過(guò)來(lái)嘗試,再以此為基礎(chǔ)創(chuàng)建一個(gè)視頻分享的社區(qū)。
目前來(lái)看,最好的視頻搜索是百度,其在內(nèi)容、用戶體驗(yàn)、頁(yè)面等方面占據(jù)優(yōu)勢(shì),這得益于其在國(guó)內(nèi)文本搜索領(lǐng)域里的統(tǒng)治地位。但是致命的弱點(diǎn)是其未能突破文字搜索轉(zhuǎn)換成視頻搜索的技術(shù)門(mén)檻,在視頻搜索領(lǐng)域缺乏最基本的技術(shù)支撐??梢灶A(yù)見(jiàn)未來(lái)的視頻搜索行業(yè)中,Leexoo將會(huì)是最強(qiáng)有力的競(jìng)爭(zhēng)者,其是以對(duì)視頻特征分析的技術(shù)構(gòu)建行業(yè)壁壘,提高搜索精準(zhǔn)度,進(jìn)而影響用戶體驗(yàn)。搜索引擎是以技術(shù)為主導(dǎo)的產(chǎn)品,Leexoo已經(jīng)具備顛覆視頻搜索行業(yè)的基本潛質(zhì)。
2006年視頻行業(yè)呈現(xiàn)了超強(qiáng)的發(fā)展勢(shì)頭,2007年視頻網(wǎng)站之間的競(jìng)爭(zhēng)變得越發(fā)激烈,而視頻搜索引擎的對(duì)決會(huì)為時(shí)不遠(yuǎn),誰(shuí)能更好的滿足網(wǎng)民的需求,誰(shuí)又能引領(lǐng)視頻搜索行業(yè)的方向性發(fā)展。讓我們拭目以待,不過(guò)還是先祝愿大家都盡情發(fā)揮自己的優(yōu)勢(shì),一路走好。