網站建設Web Design

百度收錄之：robots.txt文件

網站建設 2021/3/14 10:11:10 &nb美影sp; 98web 姐拍閱讀 622

Robots是站點與spider溝通的重要渠道(dào)，能他站點通過(guò)robots文件聲明本麗海網站中不想被(bèi)搜索引擎收錄的部分或者公唱指定搜索引擎隻收錄特定的部分。

搜索引擎使用spider程序自動訪問互聯網上的網頁并獲取網頁信息。spider的人在訪問一個網站時(shí)，會(huì)首先會(huì)檢查火兒該網站的根域下是否有一個叫(jiào)做 robots.txt的純文本文件電懂，這(zhè)個文件用于指定spider在您網作時站上的抓取範圍。您可以在您的網站中創建一個robots.txt，在文件中聲行公明該網站中不想被(bèi)搜索引擎收報近錄的部分或者指定搜索引擎隻收錄特定的部分。

請注意，僅當您的網站包含不希望被(bèi)搜索引遠空擎收錄的内容時(shí)，才需要使用robots.txt文件。如果靜謝您希望搜索引擎收錄網站上所有内容，請勿建立robots.txt文音音件。

robots.txt文件放在哪裡(lǐ輛兵)?

robots.txt文件應該放置在網站根目錄下。舉例來說(s微公huō)，當spider訪問一動工個網站（比如 http://www.abc.com）時(shí)，相還首先會(huì)檢查該網站中是否存在http子志://www.abc.com/robot了一s.txt這(zhè)個文件，如果 Spider找到什公這(zhè)個文件，它就(jiù)會(huì)根據這(zhè)討綠個文件的内容，來确定它訪問權限的範圍。

網站 URL	相應的 robots.txt的 UR關器L
http://www.w3.org/	http://www.w3.org/robots.txt
http://www.w3.org:80/	http://www.w3.org:80/robots.txt
http://www.w3.org:1234/	http://www.w3.or公土g:1234/robots.txt
http://w3.org/	http://w3.org/robo議店ts.txt

robots.txt文件的格式

robots文件往往放置于根目錄下，包含一條或數花更多的記錄，這(zhè)些記錄通過(guò)空行分開(kāi場有)（以CR,CR/NL, or NL作為結束符），每一條記錄的格式如下所示：計吃 ":"

在該文件中可以使用#進(jìn些大)行注解，具體使用方法和UNIX中的慣例一樣(yàng)。該玩去文件中的記錄通常以一行或多行User-agent開(kāi)始，後(資去hòu)面(miàn)加上若幹Disa樂西llow和Allow行,詳細情況如下： User-agent:該農算項的值用于描述搜索引擎robot的名字。頻下在"robots.txt"文件中，如果有多條User-agen個路t記錄說(shuō)明有多個robot會(hu月資ì)受到"robots.txt"的限制，對(duì學腦)該文件來說(shuō)，至少要有一條User-agent記錄。如果該項的化有值設為*，則對(duì)任何robot均有效，在"robot討地s.txt"文件中，"User-agent:*"河月這(zhè)樣(yàng)的記師地錄隻能(néng)有一條。如果在"robots.txt"文件中，雜紅加入"User-agent:SomeBot"和若幹Disallow、業和Allow行，那麼(me)名為"SomeBot"隻受到快那"User-agent:SomeBot"後(hòu)面(miàn)的光我 Disallow和Allow行的限制。
Disallow:該項的值用于描述不希望被(bèi)訪問的一組UR音影L，這(zhè)個值可以是一條完整的路徑，也可以是路徑的非空前綴有地，以Disallow項的值開(kāi)頭又吃的URL不會(huì)被(bèi) robot訪問。例如"Disallow算算:/help"禁止robot訪問/help.html、/h跳書elpabc.html、/help/index.html，而湖習"Disallow:/help/"則允許站術robot訪問/help.html、/helpabc.html，不能(nén黃房g)訪問/help/index.html。"Disallo唱聽w:"說(shuō)明允許robot訪問該網站的所有url，在"/robot麗爸s.txt"文件中，至少要有一條D唱東isallow記錄。如果"/robots.txt"不存在或者為空文件，則對林國(duì)于所有的搜索引擎robot，該網知白站都(dōu)是開(kāi)放的。
Allow:該項的值用于描述希望被(b個公èi)訪問的一組URL，與Disall熱年ow項相似，這(zhè)個值可以是一條完整的路徑，也可以是拍業路徑的前綴，以Allow項的值開(kāi)頭的URL 是允許robot訪問的。購理例如"Allow:/hibaidu"允許robot訪問/行什hibaidu.htm、/hibaiducom.html、/hibai區跳du/com.html。一個網站的訊藍所有URL默認是Allow的，所以Allo慢車w通常與Disallow搭配使用，實現允許訪問一部分網頁同時(shí時女)禁止訪問其它所有URL的功能(néng)。
使用"*"and"$"：Baiduspider支持使用通配符"*"了事和"$"來模糊匹配url。 "*" 匹配0或多個我雨任意字符 "$" 匹配行結束符。

最後(hòu)需要說(shuō)明的是：百度會(huì)煙木嚴格遵守robots的相關協議，請注意區分您不想被友什(bèi)抓取或收錄的目錄的大小寫，百度會(huì)對(duì)rob服冷ots中所寫的文件和您不想被(bèi)抓慢如取和收錄的目錄做精确匹配，否則robots協議無法生效。

TAG标簽：網站建設網站推廣百度收錄 robots.txt robots
鍊接地址：
鄭重聲明：以上内容來源自玖捌網絡工作室，轉載請注明出處！