404的處理方式及對SEO的影響

摘要:404的處理方式及對SEO的影響

 

HTTP 狀態碼
404:服務器找不到指定的資源,請求的網頁不存在(譬如瀏覽器請求的網頁被刪除或者移位,但不排除日後該鏈接有效的可能性);
410:請求的網頁不存在(注意:410表示永久性,而404表示臨時性);
200:服務器成功返回請求的網頁;
301:網址永久性重定向
302:網址臨時性重定向
注意:大部分搜索引擎將“404”與“410”狀態同等對待,如Google。 (參見Matt Cutts的說明)
 
對HTTP404狀態碼的理解
HTTP 404 錯誤意味著鏈接指向的網頁不存在,即原始網頁的URL失效,這種情況經常會發生,很難避免,比如說:網頁URL生成規則改變、網頁文件更名或移動位置、導入鏈接拼寫錯誤等,導致原來的URL地址無法訪問;當Web 服務器接到類似請求時,會返回一個404 狀態碼,告訴瀏覽器要請求的資源並不存在。但是,Web服務器默認的404錯誤頁面,無論Apache還是IIS,均十分簡陋、呆板且對用戶不友好,無法給用戶提供必要的信息以獲取更多線索,無疑這會造成用戶的流失。
因此,很多網站均使用自定義404錯誤的方式以提供用戶體驗避免用戶流失。一般而言,自定義404頁面通用的做法是在頁面中放置網站快速導航鏈接、搜索框以及網站提供的特色服務,這樣可以有效的幫助用戶訪問站點並獲取需要的信息。
 
HTTP404對SEO的影響
自定義404錯誤頁面是提供用戶體驗的很好的做法,但在應用過程中往往並未註意到對搜索引擎的影響,譬如:錯誤的服務器端配置導致返回“200”狀態碼或自定義404錯誤頁面使用Meta Refresh導致返回“302”狀態碼。正確設置的自定義404錯誤頁面,不僅應當能夠正確地顯示,同時,應該返回“404”錯誤代碼,而不是“200”或“302”。雖然對訪問的用戶而言,HTTP狀態碼究竟是“404”還是“200”來說並沒有什麼區別,但對搜索引擎而言,這則是相當重要的。
 
(一)自定義404錯誤頁返回“200”狀態碼
當搜索引擎蜘蛛在請求某個URL時得到“404”狀態回應時,即知道該URL已經失效,便不再索引該網頁,並向數據中心反饋將該URL表示的網頁從索引數據庫中刪除,當然,刪除過程有可能需要很長時間;而當搜索引擎得到“200”狀態回應時,則會認為該url是有效的,便會去索引,並會將其收錄到索引數據庫,這樣的結果便是這兩個不同的url具有完全相同的內容:自定義404錯誤頁面的內容,這會導致出現複製網頁問題。對搜索引擎而言,特別是Google,不但很難獲得信任指數TrustRank,也會大大降低Google對網站質量的評定。 (為什麼會出現返回“200”狀態碼的情況??請參看下面內容“自定義404錯誤頁面的基本原則”)
 
我一直在使用Google Sitemap,當我們提交XML格式網站地圖文件時,Google會驗證我們的身份以確保是網站合法的管理者。驗證方式有兩種:上傳指定名稱的html頁到網站根目錄或者在網頁meta區域添加一個標識身份的meta標籤。我通常是使用上傳html網頁的方式,但Google卻提示我網站根目錄下找不到這個網頁(實際上我已上傳,並且通過瀏覽器可以訪問),這是一個很可怕的問題。
 
(二)自定義404錯誤頁使用Meta Refresh返回“302”狀態碼
常常看到許多網站的自定義404錯誤頁面採取類似這樣的形式:首先顯示一段錯誤信息,然後,通過Meta Refresh將頁面跳轉到網站首頁、網頁地圖或其他類似頁。根據具體實現方式不同,這類404頁面可能返回“200”狀態碼,也可能返回“302”,但不論哪種,從SEO技術角度看,均不是一種合適的選擇。
 
對“200”狀態的情況我們上面已經談過,那麼,當404頁面返回“302”時,搜索引擎會怎麼對待呢?從理論上說,對“302”錯誤,搜索引擎認為該網頁是存在的,只不過臨時改變了地址,仍然會索引收錄該頁,這樣,同樣會出現類似於“200”狀態碼時的重複文本問題;其次,以google為代表的主流搜索引擎對302重定向的適用範圍要求越來越嚴格,這類不當使用302重定向的情況存在很大的風險。
 
確保自定義404錯誤頁面能夠返回“404”狀態碼
在自定義404錯誤頁面設置完畢後,一定要檢查一下其是不是能夠正確地返回“404”狀態碼。可以使用Server Header檢查工具,輸入一個不存在網頁的url,查看一下HTTP Header的返回情況,確信其返回的是“404 Not found”。
 
404錯誤的處理方式
(一)定制404錯誤頁面的基本原則
首先應明確的是,404錯誤應工作在服務器級而不是網頁級。對定制使​​用動態頁面如PHP腳本類型的404頁時,必須確保在PHP執行前服務器已經順利地送出“404”狀態碼,不然,一旦執行到了ISAPI級別,返回的狀態碼便只能是“200”或其他如“302”之類的重定向狀態碼了。
其次,在自定義網站的404錯誤頁面時,對設置的錯誤頁面URL鏈接應使用相對路徑而不是絕對路徑,而且自定義404頁面應該放在網站根目錄下。儘管無效鏈接可能是多種形式的URL,但當發生404訪問錯誤時,WEB服務器會自動將其轉到自定義的當404錯誤頁中,這跟URL的形似沒有關係。
(二)Apache下設置404錯誤頁面
為Apache Server設置404錯誤頁面的方法很簡單,只需在.htaccess 文件中加入如下內容即可:ErrorDocument 404 /notfound.php
注意:
1.切記不要將404錯誤轉向到網站主頁,否則可能會導致主頁在搜索引擎中消失
2.切記不要使用絕對URL(例如:http://www.webjx.com/nofound.php形式),如果使用絕對URL返回的狀態碼是“302”+“200”(已測試)
 
(三)IIS/ASP.net下設置404錯誤頁面
首先,修改應用程序根目錄的設置,打開“web.config” 文件編輯,在其中加入如下內容:


  
    
      
    
  

注:上文例中“error.aspx”為系統默認的404頁面,“notfound.aspx”為自定義的404頁面,使用時請修改相應文件名。
然後,在自定義的404頁面“notfound.aspx”中加入:

<%
  Response.StatusCode = 404;
  Response.Status = "404 Not Found";
%>
這樣,便可以保證IIS能夠正確地返回“404”狀態碼
 
(四)在IIS/ASP.net下設置404靜態頁面
設置靜態404錯誤頁面的方法則比較簡單,在IIS管理器中右鍵單擊要管理的網站,打開“屬性”中的“自定義錯誤信息”頁,為“404”設定相應的錯誤信息頁即可。不過,此處在“消息類型”中一定要選擇“文件”或“默認值”,而不要選擇“URL”,不然,將導致返回“200”狀態碼。