robots.txt vs. meta robots!測試工具和教學帶你一次了解!

robots.txt vs. meta robots!測試工具和教學帶你一次了解!
Welly SEO 編輯部

Welly SEO 編輯部

2022-08-22更新

2022-01-13發佈

SEO優化

# 技術SEO

# SEO優化

# SEO做法

robots.txt是什麼?程式碼怎麼寫?與meta robots有什麼不同?要如何使用robots.txt/meta robots才能準確與Google爬蟲溝通?不論是設定或撰寫,本篇都有完整概念與教學。

robots.txt是什麼?超詳盡概念、用途、規則與撰寫範例!

之前的文章曾提過Google在新網站架設後會先經過檢索Crawl與建立索引Index,後續才會進入SEO排名競爭行列(還不了解的讀者可以先查看:「SEO是什麼」這篇文章!)

那今天如果你的網站剛好有這些問題,例如:

  • 有網頁正在進行測試,或部分網頁還沒建立完成
  • 內容重複性太高,或是被索引對網站沒有幫助,例如後台
  • 內容可能會對SEO排名有不良影響,例如內容相同但網址不同的兩個頁面

那是不是可以請Google不要對這些網頁建立索引呢?今天就來跟大家聊聊關於robots.txt Google是怎麼運作的,也教大家如何使用。

何謂robots.txt?是機器人還是文檔?robots.txt 用途有哪些?

robots.txt本身是一種含有特定規則的簡易文字檔,內容主要是告訴「搜尋引擎檢索器」你的網站上有哪些是「不要檢索」的頁面;robots.txt 用途主要是為了「避免龐大的資訊量影響網站的速度」,通常也有部分機率不會被索引或出現在搜尋結果頁面上。

1.為什麼robots.txt僅有部分機率「不會被索引」?

  • 原因一:並不是所有的搜尋引擎都會支援robots.txt內的指令。
  • 原因二:對搜尋引擎來說,robots.txt只是參考,並沒有強制力。
  • 原因三:每種搜尋引擎檢索器解讀指令的方式不同,遇到無法解讀的會忽略,導致指令無法全面實行。
  • 原因四:如果別的網站上有連結到robots.txt 封鎖的網頁,那檢索器還是會將封鎖的內容建立索引。

舉例來說,你有一個秘密,雖然Google跟你聊天(檢索)時你拒絕告知(使用robots.txt )這個秘密,但A知道你的秘密,只要Google認識了A,就可以從他口中得知並記住(建立索引)你的秘密。

所以如果真的有特定的網頁或內容完全不想要被搜尋引擎發現或索引的話,不建議使用robots.txt 封鎖的方式,使用meta robots可能會是更好的選擇,這項工具下面第二大段會談到。

2.robots.txt 的指令有包含哪些內容?

  • 網頁:重要性較低或重複性質高的網頁
  • 媒體:網站或網頁中的照片、影片、音檔
  • 資源:網頁中不重要的指令碼或特定樣式等

3.提交robots.txt給Google是必備流程嗎?

答案:不是!

假如你的網站內容都能被Google檢索與建立索引,那麼可以不用提交,讓Google檢索器依照習慣去檢索所有網頁並建立索引;如果有提交robots.txt,Google檢索器才會盡量依照你的指令去執行檢索流程。

robots.txt 設定要注意什麼?要按照規則Google才會理你喔!

1.建立robots.txt

建立robots.txt的注意事項

  • 請使用文書軟體(Word)以外的文字編輯器建立robots.txt檔案,例如:記事本、Notepad、TextEdit、vi和emacs等工具;至於文書軟體是由於容易因符號不相容而在檢索過程中出現問題,所以不建議使用。
  • 內容必須以CR、CR/LF或LF分隔行列才有效,如果是無效的行列,Google會選擇忽略。
  • 儲存robots.txt檔案時,必須選擇UTF-8編碼,並存成純文字檔案。
  • 檔名必須是robots.txt
  • 目前robots.txt 檔案的容量大小有強制規定,最多為500KiB,一旦超過的話,Google會選擇忽略那些超標的內容。

2.放置或變更robots.txt

放置或變更robots.txt的規則

  • robots.txt 檔案必須放在網站目錄的最上層並設定公開。
  • Google若沒有辦法判定robots.txt的內容,例如檔案錯誤或本身就不支援,可能會直接忽略指令。
  • 若要變更robots.txt,可以在更新後重新提交給Google,以加快程序。
  • Google收到robots.txt變更後的生效時間不固定,只能透過重新提交檔案來加快流程,沒辦法保證多久會好。

robots.txt怎麼寫?不怕!用robots.txt example一步步帶你釐清!

robots.txt中的每個程式碼都有它代表的含意與指令,我們先從每一小區塊開始拆解,當所有的細節都了解後,撰寫就會變得很輕鬆!

robots.txt 內容解析

  • User-agent:填寫檢索器的名稱,看是針對個別對象(Googlebot、bingbot、Yahoo! Slurp等)還是所有檢索器(用「*」表示)都共用,字母大小寫沒有限制。
  • Allow:必須填寫完整路徑,告訴檢索器哪些網頁或檔案內容歡迎檢索,指令的大小寫會有影響。
  • Disallow:必須填寫完整路徑,告訴檢索器哪些網頁或檔案內容不希望它來檢索,指令的大小寫會有影響。
  • Crawl-delay:可設定檢索器來訪的最短時間間隔秒數,必須以阿拉伯數字填寫。
  • Sitemap:填寫Sitemap檔案的完整路徑,有區分大小寫。

★robots.txt撰寫案例

所有的檢索器都可以檢索全部網站內容:

  • User-agent: *
  • Allow:

所有的檢索器都不能檢索全部網站內容:

  • User-agent: *
  • Disallow:

特定的檢索器可以檢索全部網站內容(以Googlebot為例):

  • User-agent: Googlebot
  • Allow:

特定的檢索器不可以檢索全部網站內容:

  • User-agent: Googlebot
  • Disallow:

特定檢索器可以檢索特定的網站內容:

  • User-agent: Googlebot
  • Allow: /images/
  • Allow: /private/

所有檢索器都不能檢索特定路徑的網站內容:

  • User-agent: *
  • Disallow: /images/
  • Disallow: /private/

特定檢索器不能檢索特定路徑的網站內容:

  • User-agent: Googlebot
  • Disallow: /images/
  • Disallow: /private/

基本上不會特別寫「全部檢索器可以檢索所有網站內容」,因為這是檢索器本來就會做的事情。

robots.txt 測試工具哪裡找?怎麼使用?1分鐘免費教學!

當建立好robots.txt檔案並上傳到網站後台後,如果想要檢測自己的robots.txt有沒有問題、是不是成功的封鎖了檢索器,可以利用Google Search Console提供的「robots.txt 測試工具」來進行測試。

robots.txt 測試工具怎麼用?

  1. 首先搜尋robots.txt 測試工具並開啟連結
  2. 在robots.txt 測試工具中提交網址
  3. 滑動測試結果,瀏覽robots.txt程式碼有無錯誤警告
  4. 在網頁底部的文字方塊中輸入想測試的網頁網址
  5. 在右側的下拉選單中選取想要模擬的檢索器
  6. 點選「測試」 按鈕進行測試
  7. 查看「測試」 按鈕顯示「已允許」還是「已封鎖」
  8. 如發現有誤,可以在測試工具的頁面進行robots.txt檔案的測試編輯
  9. 調整完後將變更處複製貼到網站的robots.txt檔案中

請注意:robots.txt 測試工具僅提供檢測功能,即便編輯也不會對檔案做出實際上的更動,所以在測試工具上調整完後一定要記得修改原本上傳到網站後台的robots.txt檔案才會生效。

meta robots是什麼?跟robots.txt有什麼不同?怎麼寫?

接下來要介紹的Google meta robots是另一項工具,會有人搜尋「html meta robots」是因為它的程式碼像html,而且看起來非常簡單,但是指令背後的涵義與排列組合必須要全盤了解後才能充分掌握,至於它與robots.txt的差異下面也會進行說明!

保護網頁的秘密武器:探索meta robots的好用功能!

相較於robots.txt限制Google等檢索器進行「檢索」,meta robots則是更明確下令「不准建立索引」,也就是即便Google爬到該網頁,也不會將內容建立索引,就不用怕自己的網頁會出現在搜尋結果。

不過要使用meta robots也相對較費力,必須要在「不想被建立索引的網頁head底下」手動新增相關標籤,有幾個頁面需要封鎖,就要手動添加幾次!

針對這幾個點,我們可以整理出robots.txt與meta robots的比較表:

robots.txtmeta robots
主要功用防止檢索器「檢索」特定網頁或資訊內容防止檢索器對特定網頁內容「建立索引」
撰寫方式使用文字編輯器撰寫成robots.txt後上傳到網站新增在該網頁的head下方
使用程式碼
  • User-agent
  • Allow
  • Disallow
  • Crawl-delay
  • Sitemap
  • meta name
  • content
  • index
  • noindex
  • follow
  • nofollow
  • 簡單快速上手!meta robots程式碼功能解析與範例!

    meta robots程式碼功能解析

    • meta name:填寫檢索器的名稱
    • content:填寫網頁是否允許建立索引,下令meta noindex或是index nofollow等
    • index:允許建立索引的頁面就下令meta robots index網頁
    • noindex:下令meta robot noindex就可以禁止它建立索引
    • follow:有些內容會加入同網站其他網頁或不同網站的連結,如果沒有下令meta robots nofollow,Google就可以追蹤該網頁上的連結
    • nofollow:只要下令meta nofollow,就等同禁止追蹤該網頁上的連結

    (更多nofollow介紹,歡迎參考:《nofollow是什麼?不想權重被瓜分?這項SEO技術非懂不可!》)

    ★meta robots撰寫範例

    • 下令meta robots index follow,表示允許建立索引與追蹤連結,但即便沒有特別下令meta index follow,根據預設值,檢索器也會做這個選擇。

    下令meta robots index follow,表示允許建立索引與追蹤連結,但即便沒有特別下令meta index follow,根據預設值,檢索器也會做這個選擇

    • 只下令meta no follow,表示雖允許建立索引,但不允許追蹤連結

    只下令meta no follow,表示雖允許建立索引,但不允許追蹤連結

    • 只下令noindex,表示雖該頁面不允許建立索引,但網頁中的連結可以正常追蹤及建立索引

    只下令noindex,表示雖該頁面不允許建立索引,但網頁中的連結可以正常追蹤及建立索引

    • 下令noindex nofollow就是從建立索引到追蹤連結都不允許

    下令noindex nofollow就是從建立索引到追蹤連結都不允許

    如果您喜歡我們的文章歡迎分享,若有SEO相關問題也可以查看其他文章,若想進一步了解Welly的服務,歡迎點擊下方按鈕,將有專人跟您聯繫!

    最值得擁有的專業行銷團隊!現在就與Welly一起透過SEO優化提升業績吧!

    熱門文章

    編輯精選

    最新文章