robots.txt 是什麼?如何妥善應用並提升排名效應!

robots.txt 是什麼?如何妥善應用並提升排名效應!

搜尋引擎最佳化包含了技術 SEO,這其中有很多部分需要執行,而需要檢查和優化的內容之一就是 robots.txt。robots.txt 看似只是一個簡單的網站文件,不過假如設定錯誤可能會導致負面 SEO 問題,從而對搜尋排名和流量產生負面影響。

什麼是 robots.txt?

robots.txt 是一個純文本檔案,並放於網站的根目錄,這是向搜尋爬蟲提供有關抓取和索引過程的說明指示。搜尋引擎訪問網站時,他們會做的第一件事是查找並檢查 robots.txt 的內容。根據文件中指定的規則,它們會將可抓取的內容來源建立索引。

網站還沒有 robots.txt 怎麼辦?

如果缺少 robots.txt 文件,搜尋引擎爬蟲會假設可以對網站的所有公開網頁進行爬取並加以索引。

robots.txt 格式不正確怎麼辦?

如果搜尋引擎因為設定錯誤而無法理解文件的內容,它們仍然可以訪問網站並忽略 robots.txt。

阻止搜尋引擎訪問網站怎麼辦?

這是個大問題,因為搜尋引擎可能不會索引該網站,並且逐漸地刪除已經索引的任何頁面。

網站是否真的需要 robots.txt?

是的,即使不想排除網站的任何頁面,也會需要有 robots.txt。

如何正確使用 robots.txt?

robots.txt 的最常見的用法如下:

1、 不阻止搜尋引擎訪問網站
例如,查看以下的 robots.txt 並注意規則,這些語句指示搜尋引擎爬蟲可以所有網頁內容。請注意,可以把*當作通用符號。

User-agent: *
Allow: /

2、 阻止訪問特定頁面

各種搜尋引擎的爬蟲將嘗試對整個網站進行爬取並索引,對於大型網站,爬取和建立索引可能是非常耗費資源的過程,所以會造成嚴重的性能問題。在這種情況下,可以利用 robots.txt 限制對網站某部分的訪問,也就是對 SEO 並不重要的內容。這樣,不僅可以減少服務器上的負擔,還可以使整個索引過程更快。

User-agent: *
Allow: /
Disallow: /abc/
Disallow: /def/
Disallow: /ghi/

關於 robots.txt 的注意事項

1、添加到 robots.txt 中的任何規則只是指令,這不意味著搜尋引擎必須遵守規則。

在大多數情況下,它們會遵守,但是如果不希望包含在被索引的內容,最好的方法還是用密碼保護特定的頁面。

2、即使阻止了頁面被爬取,但如果該頁面具有來自其他已被索引的頁面連結,它仍然可能出現在搜尋結果中。換句話說,將頁面添加到 robots.txt 並不能保證該頁面被刪除或不會出現在網路上。

除了使用密碼保護頁面之外,另一種方法是使用頁面指令,在需要被隱藏的頁面的<head>中都添加了以下代碼:<meta name=”robots” content=”noindex”>

robots.txt 如何工作?

設定的結構非常簡單,最常見的是:User-agent、 Disallow、Allow、Sitemap。

User-agent:指定哪些搜尋爬蟲需要考慮這些指令。可以使用*來代表所有搜尋引擎爬蟲,也可以指定搜尋器的名稱,請參考以下的說明。

User-agent: * (包括所有爬蟲)
User-agent: Googlebot (僅針對 Google 爬蟲)

Disallow:指示不要抓取網站的哪一部分,可以是特定的文件或網頁,請參考以下的例子:
Disallow: /images/
Disallow: /*.jpg$

Allow:該指令明確告知可以訪問哪些頁面或檔案,這僅適用於 Google 爬蟲。

即使不允許爬取某個資料夾,也可以使用 Allow 來允許特定的子資料夾。例如,可以禁止訪問存放照片的路徑,但允許訪問位於照片之下的某個資料夾。

User-agent: *
Disallow: /photos
Allow: /photos/product/

Sitemap:這可以用來指定你的 xml 網站地圖的位置。即使沒有指定 xml 網站地圖的位置,搜尋引擎通常仍然可以找到它。例如,可以使用以下命令:Sitemap: https://meseo.tw/sitemap.xml

重要提示: robots.txt 能區分大小寫。這意味著,如果添加此指令 Disallow:/File,它是不會阻擋 /file。

如何創建 robots.txt?

創建 robots.txt 很容易,只需要開啟記事本,輸入各項指令後上傳到網站根目錄。不過在創建 robots.txt 之前,首先要做的是檢查是否已有此檔案。

最簡單的方法是在瀏覽器打開一個新頁籤,然後輸入:https://你的網域 /robots.txt(如:https://mrseo.tw/robots.txt)

如果看到與以下內容類似的內容,則表明已經有 robots.txt,也不需要再創建。

User-agent: *
Allow: /
Sitemap: https://example.com/sitemap.xml

以上情況也是 robots.txt 應具有的基本內容,這樣所有搜尋爬蟲都可以無障礙地訪問網站。

結論&最後我想說

請確保檔名為 robots.txt,需要全部保持小寫。而且 robots.txt 應該始終位於網站根目錄,而不應位於任何文件夾中。

雖然創建與使用的方式很容易,但是請不要輕易忽略它,畢竟這不需要花費大量的時間或資源才能做到,不過卻是很多網站所缺乏的。

記得,執行這項技術 SEO 是沒有任何壞處的,重要的是要採取改善行動。

SEO 先生 林杰銘 Jay Lin
專注於數位行銷手法,期望透過顧問和教學服務,協助資源有限的中小企業增強自身數位行銷力,致力讓所需企業都能透過網路開發更多客戶,讓潛在客戶能快速主動找上門!著有《小資老闆集客行銷術》

發佈留言

在遇到 Jay 老師之前,就買了一大堆網路行銷的書來看,光是 SEO 就買了8本來研究,所以原本對 SEO 就有一點基礎的我,還以為我已經知道很多了,上過老師的課才發現,原來很多更高層次的策略性重點 …我之前根本都不知道,老師還幫我釐清了很多盲點。上過老師的 SEO 課程後,我只能說,這樣的Know How 跟收費真的是太超值啦!

張斯綸
吉他補給創辦人

需要數位行銷協助嗎?

假如你需要任何 SEO 教學都可以聯繫我,包含企業內訓、公開課程、講座和1對1教學。

訂閱最新快訊持續強化你的 SEO 能力!