?
首頁(yè) >新聞動(dòng)態(tài) > 行業(yè)動(dòng)態(tài)
時(shí)間:2010-07-08來(lái)源:網(wǎng)騎士
搜索引擎基本原理三大階段:排序、索引、抓取。
抓取
搜索引擎會(huì)拋出一種被稱作“機(jī)器人,蜘蛛”的軟件根據(jù)一定的規(guī)則掃描互聯(lián)網(wǎng)上面的網(wǎng)站 ,沿著網(wǎng)頁(yè)的鏈接從一個(gè)網(wǎng)頁(yè)到另一個(gè)網(wǎng)頁(yè),從一個(gè)網(wǎng)站到另一個(gè)網(wǎng)站,獲得頁(yè)面HTML代碼,并存入數(shù)據(jù)庫(kù)。為了采集到最新的資料,會(huì)繼續(xù)回訪已抓取過(guò)的網(wǎng)頁(yè)。
索引
由分析索引系統(tǒng)程序?qū)κ占貋?lái)的網(wǎng)頁(yè)進(jìn)行分析,提取相關(guān)網(wǎng)頁(yè)信息,根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計(jì)算,得到每一個(gè)網(wǎng)頁(yè)針對(duì)頁(yè)面文字中及超鏈中每一個(gè)關(guān)鍵詞的相關(guān)度,然后用這些相關(guān)信息建立網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)。
排序
當(dāng)用戶輸入關(guān)鍵詞搜索后,由搜索系統(tǒng)程序從網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁(yè)。因?yàn)樗邢嚓P(guān)網(wǎng)頁(yè)針對(duì)該關(guān)鍵詞的相關(guān)度早已算好,所以只需按照現(xiàn)成的相關(guān)度數(shù)值排序,相關(guān)度越高,排名越靠前。最后返回給用戶。