Robots協議瞭解：

Robots檔（也稱為爬蟲協定、機器人協定等），它的全稱是“網络爬蟲排除標準”（Robots Exclusion Protocol），網站通過 Robots 協定告訴搜尋引擎哪些頁面可以抓取，哪些頁面不能抓取。

搜尋引擎機器人訪問網站時，首先會尋找網站根目錄有沒有robots.txt檔，如果有這個檔就根據文件的內容確定收錄範圍，如果沒有就按預設訪問以及收錄所有頁面。

另外，當搜索蜘蛛發現不存在 robots.txt 檔時，會產生一個 404 錯誤日誌在伺服器上，從而增加伺服器的負擔，因此為網站添加一個 robots .txt 檔還是很重要的。

如何編寫和使用robots.txt

大概瞭解 Robots 協定的作用后，下面具體說一下網站如何編寫 robots.txt 檔。

WordPress 網站預設在瀏覽器中輸入：http(s):// 您的域名/robots.txt ，會顯示如下內容：

User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/

這是由 WordPress 自動生成的，意思是告訴搜尋引擎不要抓取後台程序檔。

但這些設置還是遠遠不夠的，比較完整的 WordPress 網站 robots.txt 文件內容如下：可以參考。

User-agent: * Disallow: /wp-admin/ Disallow: /wp-content/ Disallow: /wp-includes/ Disallow: /*/comment-page-* Disallow: /*?replytocom=* Disallow: /category/*/page/ Disallow: /tag/*/page/ Disallow: /*/trackback Disallow: /feed Disallow: /*/feed Disallow: /comments/feed Disallow: /?s=* Disallow: /*/?s=* Disallow: /attachment/

Sitemap: https://www.xxx.com/sitemap.xml
具體使用：新建一個名稱為 robots.txt 文字檔，將上面的內容放進去，然後上傳到網站根目錄即可。

協定各項作用瞭解：

Disallow： /wp-admin/、Disallow： /wp-content/ 和 Disallow： /wp-includes/
用於告訴搜尋引擎不要抓取後台程式文件頁面。
Disallow： /*/comment-page-* 和 Disallow： /*？replytocom=*
禁止搜尋引擎抓取評論分頁等相關連結。
Disallow： /category/*/page/ 和 Disallow： /tag/*/page/
禁止搜尋引擎抓取收錄分類和標籤的分頁。
Disallow: /*/trackback
禁止搜尋引擎抓取收錄 trackback 等垃圾資訊
Disallow： /feed、Disallow： /*/feed 和 Disallow： /comments/feed
禁止搜尋引擎抓取收錄 feed 連結，feed 只用於訂閱本站，與搜尋引擎無關。
Disallow： /？s=* 和 Disallow： /*/？s=*
禁止搜尋引擎抓取站內搜尋結果
Disallow: /attachment/
禁止搜尋引擎抓取附件頁面，比如毫無意義的圖片附件頁面。

上面只是些基本的寫法，當然還有很多，不過夠用了。

溫馨提示：本文最後更新於2024-02-07 13:56:16，某些文章具有時效性，若有錯誤或已失效，請在下方留言或聯絡NGame。

版權聲明 1 如果您喜歡本站，不花錢捐贈本站的方法>點廣告就是最好的方法～
2 有問題請聯繫站長加群，版權下架/違規處理，軟體打不開/閃退/報錯
3 這些資訊可能會説明你：下載幫助 | 報毒說明 | 進站必看
4 本站資源存儲在OneDrive網盤，如發現連結失效，請聯繫我更新
5 本站資源均來源於網路，只作學習交流使用，版權歸原作者所有，請於下載后24小時內刪除，若作商業用途，請聯繫原作者授權，由於未授權發生的侵權行為與本站無關，若本站侵犯了您的權益，請聯繫本站刪除，郵箱： ngame@ningyungame.com