免费播放片45分钟播放软件-免费观看60分钟高清电视剧-免费观看电视在线高清第一集-免费观看在线高清电视剧

全國服務熱線:400-080-4418

您現在的位置是:首頁 > 新聞資訊 > 網站建設常識

關于搜索引擎中文搜索的研究2010/2/8 16:21:38 瀏覽:29

  目前的主要搜索引擎的模式都是,用戶輸入一些關鍵字或者句子,無論是那種,搜索引擎都會首先對用戶的輸入進行分詞,這樣可以增加搜索結果的準確性,這是和普通數據庫搜索的不同點,然后搜索引擎去海量的索引庫去查找這些和用戶輸入相關的信息,顯示的結果會包含網頁的相關摘要。

  中文搜索引擎相關的技術包含:中文分詞、網絡蜘蛛、索引庫、網頁摘要的提取、網頁相似度、信息的分類。

  1、中文分詞

  中文分詞一直是中文搜索引擎的關鍵點,中文不同英文,英文每個單詞是用空格分開,而中文一個句子往往是一些詞的連結,沒有分割符,人可以很容易的看懂句子的意思,但是計算機很難開懂。

  目前我了解的中文分詞方法,幾乎都是有自己的中文詞典,分詞時去詞典匹配,達到分詞目的,分詞的好壞,和詞典關系很大。

  2、網絡蜘蛛

  網絡蛛蛛是指對浩瀚網絡抓取信息的程序,他們往往是多線程,不分晝夜的抓取網絡信息,同時要防止對某個站點抓取過快,導致信息提供方服務器過載。

  網絡蜘蛛的基本原理:先從一個起始頁面開始抓取,獲取此頁面內容,摘要,然后提取頁面所有連接,蜘蛛接著抓取這些連接,一直源源不斷的抓取。這些只是基本原理,實際應用要復雜很多,你可以試著自己寫一個蜘蛛,我曾經用PHP寫過。

  3、索引庫

  搜索引擎都不會用已經成型的數據庫系統,他們是自己開發的類似數據庫功能的東西。

  搜索引擎需要保存大量網頁信息,快照,關鍵字索引,所以數據量特別大。

  4、網頁摘要的提取

  網頁摘要是指對某個網頁信息的總結,搜索引擎搜索結果里,往往會有網頁標題下面,會有些介紹,讓搜索者很容易的發現此文章是不是想要的信息。

  5、網頁相似度

  網上經常有很多內容一樣的網站,比如說同一條新聞,各大門戶網站都會發布,它們的新聞內容都是一樣的。還有一些個人網站,尤其是偷別人網站資料的網站,和別人網站搞的一模一樣,這樣的網站毫無意義,搜索引擎會自動區分,降低其權值。

  目前我研究的計算網頁相似度的幾種方法如下:

  1)根據網頁摘要來比較,如果多個網頁摘要的md5值一樣,證明這些網頁有很高的相似性。

  2)根據網頁出現關鍵詞,按照詞頻排序,可以取N個詞頻高的,如果md5值一樣,證明這些網頁有很高的相似性。

  6、信息的自動分類

  網絡的信息實在是太龐大了,如何對其進行分類,是搜索引擎面臨的難題。要讓計算機對數據自動分類,先要對計算機程序進行培訓。

 

服務網絡

關于我們

網至普專注于網站建設/網站優化,始終追求 “您的滿意,我的追求!”。懂您所需、做您所想!我們一直在思考如何為客戶創造更大的價值,讓客戶更省心!立足上海,服務全國。服務:上海,北京,廣州,深圳,成都,杭州,南京,蘇州,無錫等地

查看更多 >>

聯系我們

Copyright 2008 © 上海網至普信息科技有限公司 All rights reserved. 滬ICP備11006570號-13 滬公網安備 31011402007386號


關于我們 | 聯系我們 | 網站建設

返回頂部