您的位置:新文秘網(wǎng)>>調(diào)研報(bào)告/保密/>>正文

搜索引擎調(diào)查報(bào)告探測(cè)大眾心中的秘密隱私

發(fā)表時(shí)間:2006/1/9 11:40:58


  二月初,珍妮·杰克遜()因?yàn)樽吖馐录仙秊樗阉鞯娜藲夤谲,其搜索?qǐng)求達(dá)到總數(shù)的,創(chuàng)下了搜索關(guān)鍵詞的歷史最高記錄。這一數(shù)字是艷星曾經(jīng)所創(chuàng)記錄的倍,是歌星小甜甜布萊妮的倍。
  
  互聯(lián)網(wǎng)上的搜索引擎已經(jīng)成為反映大眾趣味和關(guān)注焦點(diǎn)的最好工具,
  也許比任何其他調(diào)查統(tǒng)計(jì)都更為真實(shí)。
  
  高頻詞與社會(huì)熱點(diǎn)
  
  縱觀歷史,熱門詞匯反映了短期內(nèi)大眾關(guān)注的焦點(diǎn),長(zhǎng)期來看可以連綴出世事的發(fā)展脈絡(luò)。美國(guó)康奈爾大學(xué)的研究人員曾經(jīng)做過一項(xiàng)調(diào)查,通過統(tǒng)計(jì)年后每年的美國(guó)國(guó)情咨文的用詞,發(fā)現(xiàn)了不同歷史時(shí)期的熱門詞匯。例如美國(guó)獨(dú)立戰(zhàn)爭(zhēng)期間出現(xiàn)頻率最高的是“民兵”和“英軍”;而在年到年這段時(shí)間內(nèi),“原子彈”則被反復(fù)地提起。
  
  如今,搜索引擎聲稱自己知道大眾心中的秘密。搜索引擎不只是被動(dòng)地答疑解惑;事實(shí)上,各大搜索引擎提供了包羅萬象的統(tǒng)計(jì)數(shù)據(jù),這些結(jié)果也許十分有趣。認(rèn)為:雖然計(jì)算機(jī)并不懂歷史,但是可以通過統(tǒng)計(jì)(網(wǎng)頁(yè)訪問記錄)、和網(wǎng)
……(新文秘網(wǎng)http://jey722.cn省略679字,正式會(huì)員可完整閱讀)…… 
列入搜索目錄,在結(jié)果頁(yè)面中直接提供了相關(guān)鏈接。
  
  搜索如何實(shí)現(xiàn)
  
  “已向英特網(wǎng)搜索。共有項(xiàng)查詢結(jié)果,這是第~項(xiàng)。搜索用時(shí)秒!泵,體現(xiàn)著以為代表的搜索引擎的快捷和高效。這一切,又是如何實(shí)現(xiàn)的呢?
  
  通常情況下,一間機(jī)房只能擺放臺(tái)服務(wù)器,但是的機(jī)房?jī)?nèi)可以容納臺(tái)服務(wù)器,因?yàn)樗鼈兌际遣鸬袅藱C(jī)殼和部分零件的裸機(jī)。和他們將機(jī)器的外殼拆掉,再卸下沒用的芯片和零件使整機(jī)體積縮小,而且容易維護(hù),當(dāng)然也節(jié)省了租用機(jī)房的花銷。使用了超過一萬臺(tái)的服務(wù)器,并將其分散到五個(gè)不同地區(qū)的機(jī)房?jī)?nèi),用以應(yīng)付浩如煙海的網(wǎng)絡(luò)信息。
  
  為了對(duì)每一次搜索請(qǐng)求做出快速的反應(yīng),搜索引擎在前期下足了功夫。它們?cè)诤笈_(tái)不停地重復(fù)三步操作。第一步,搜索引擎會(huì)不斷的利用爬蟲()程序搜集互聯(lián)網(wǎng)上所有可達(dá)的網(wǎng)頁(yè),無論是公開的還是隱藏的—只要曾被訪問過,就會(huì)招致“爬蟲”上身。這樣,定期外出的“爬蟲”就為搜索引擎囤積起一個(gè)海量數(shù)據(jù)庫(kù)。由于“爬蟲”外出遵循一定的周期,有時(shí)可能跟不上網(wǎng)頁(yè)更新的速度,所以的“網(wǎng)頁(yè)快照”會(huì)出現(xiàn)與目標(biāo)頁(yè)面不盡相同的情況。第二步,另一個(gè)程序會(huì)統(tǒng)計(jì)出緩存網(wǎng)頁(yè)()中各個(gè)字詞出現(xiàn)的頻率。第三步,根據(jù)詞頻概括出頁(yè)面的中心思想和段落大意,再按照不同的關(guān)鍵詞提煉出索引目錄。用戶的每一次搜索請(qǐng)求都是基于這些索引計(jì)算而得,因此響應(yīng)異常迅速。
  
  無論的專利技術(shù),還是百度全球獨(dú)有的“超鏈分析”技術(shù),其大致想法都差不多:統(tǒng)計(jì)每個(gè)網(wǎng)頁(yè)被其它網(wǎng)頁(yè)鏈接指向的情況,次數(shù)越多則級(jí)別越高,排名也就越靠前。有的搜索引擎專家指出,搜索算法上比更為準(zhǔn)確。指的是根據(jù)用戶點(diǎn)擊搜索結(jié)果而再次做出的統(tǒng)計(jì)。有的頁(yè)面可能通過開始的計(jì)算被排在結(jié)果的第八頁(yè),但是通過查看每條鏈接的屬性,引擎可以將用戶點(diǎn)擊多而且瀏覽成功的頁(yè)面提到前面來。、和百度等搜索引擎都老老實(shí)實(shí)地統(tǒng)計(jì)了每一次點(diǎn)擊,而則非常直接,不做任何再次統(tǒng)計(jì)。
  
  很多服務(wù)網(wǎng)站認(rèn)同這樣一個(gè)觀點(diǎn),用戶是懶惰的。根據(jù)點(diǎn)擊情況做出的統(tǒng)計(jì),很多用戶一般只看完搜索結(jié)果的第一頁(yè),并不瀏覽后續(xù)頁(yè)面。因此一些網(wǎng)站把更多的搜索結(jié)果顯示在第一頁(yè)上,比如,它的“第一頁(yè)”有項(xiàng)。而新浪則把“和盤托出”的服務(wù)形式發(fā)展到了登峰造極,在情人節(jié)當(dāng)天搜索“鮮花”,一下子就跳出了個(gè)網(wǎng)站鏈接。但是、和百度等搜索引擎依然堅(jiān)持簡(jiǎn)潔的作風(fēng),每頁(yè)只顯示條搜索結(jié)果。
  
  除了搜索算法的不同,各家搜索引擎也在細(xì)化服務(wù),推出了日趨豐富的搜索功能,比如大家鐘愛的圖像搜索。其實(shí),的圖像功能也十分優(yōu)秀,它還同時(shí)支持音頻、視頻以及下載站點(diǎn)的搜索。
  
  整合搜索引擎
  
  那么,用戶是否不得不逐一訪問每個(gè)搜索引擎以得到最好的搜索結(jié)果呢?也許不必。搜索整合技術(shù)可以一次性地提供盡可能多的信息。
  
  搜索整合()如果譯作“后搜索”,可能聽起來更時(shí)髦一些,不過這就無法體現(xiàn)其重新梳理搜索結(jié)果這一標(biāo)志性的功能。通常的搜索是從龐雜的網(wǎng)絡(luò)資源中按照某個(gè)線索分門別類的提取信息,而則是在其他搜索引擎的發(fā)現(xiàn)結(jié)果之上進(jìn)行再加工,可謂是搜索的搜索。
  
  當(dāng)用戶向搜索整合引擎輸入關(guān)鍵詞之后,它即向若干個(gè)獨(dú)立工作的搜索引擎同時(shí)發(fā)送搜索請(qǐng)求,并從它們的網(wǎng)頁(yè)數(shù)據(jù)庫(kù)中檢索出所需的信息。搜索整合引擎沒有建立自己的網(wǎng)頁(yè)數(shù)據(jù)庫(kù),它的一切數(shù)據(jù)都來自其他的搜索引擎;所以,整合的結(jié)果也不會(huì)比其他任何一家搜索引擎的結(jié)果更好。但是,它可以將用戶從重復(fù)性勞動(dòng)中解放出來,同時(shí)提供更有條理的搜索結(jié)果—這也是研發(fā)之初的理想。
  
  目前搜 ……(未完,全文共2998字,當(dāng)前僅顯示1905字,請(qǐng)閱讀下面提示信息。收藏《搜索引擎調(diào)查報(bào)告探測(cè)大眾心中的秘密隱私》