Robots協議瞭解:
Robots檔(也稱為爬蟲協定、機器人協定等),它的全稱是“網络爬蟲排除標準”(Robots Exclusion Protocol),網站通過 Robots 協定告訴搜尋引擎哪些頁面可以抓取,哪些頁面不能抓取。
搜尋引擎機器人訪問網站時,首先會尋找網站根目錄有沒有robots.txt檔,如果有這個檔就根據文件的內容確定收錄範圍,如果沒有就按預設訪問以及收錄所有頁面。
另外,當搜索蜘蛛發現不存在 robots.txt 檔時,會產生一個 404 錯誤日誌在伺服器上,從而增加伺服器的負擔,因此為網站添加一個 robots .txt 檔還是很重要的。
如何編寫和使用robots.txt
大概瞭解 Robots 協定的作用后,下面具體說一下網站如何編寫 robots.txt 檔。
WordPress 網站預設在瀏覽器中輸入:http(s):// 您的域名/robots.txt ,會顯示如下內容:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
這是由 WordPress 自動生成的,意思是告訴搜尋引擎不要抓取後台程序檔。
但這些設置還是遠遠不夠的,比較完整的 WordPress 網站 robots.txt 文件內容如下:可以參考。
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /*/comment-page-*
Disallow: /*?replytocom=*
Disallow: /category/*/page/
Disallow: /tag/*/page/
Disallow: /*/trackback
Disallow: /feed
Disallow: /*/feed
Disallow: /comments/feed
Disallow: /?s=*
Disallow: /*/?s=*
Disallow: /attachment/
Sitemap: https://www.xxx.com/sitemap.xml
具體使用:新建一個名稱為 robots.txt 文字檔,將上面的內容放進去,然後上傳到網站根目錄即可。
協定各項作用瞭解:
Disallow: /wp-admin/
、Disallow: /wp-content/
和Disallow: /wp-includes/
用於告訴搜尋引擎不要抓取後台程式文件頁面。Disallow: /*/comment-page-*
和Disallow: /*?replytocom=*
禁止搜尋引擎抓取評論分頁等相關連結。Disallow: /category/*/page/
和Disallow: /tag/*/page/
禁止搜尋引擎抓取收錄分類和標籤的分頁。Disallow: /*/trackback
禁止搜尋引擎抓取收錄 trackback 等垃圾資訊Disallow: /feed
、Disallow: /*/feed
和Disallow: /comments/feed
禁止搜尋引擎抓取收錄 feed 連結,feed 只用於訂閱本站,與搜尋引擎無關。Disallow: /?s=*
和Disallow: /*/?s=*
禁止搜尋引擎抓取站內搜尋結果Disallow: /attachment/
禁止搜尋引擎抓取附件頁面,比如毫無意義的圖片附件頁面。
上面只是些基本的寫法,當然還有很多,不過夠用了。