搜索曆史

清除曆史

熱門搜索

網絡工作室網站建設seo優化小程序

零基礎幹貨

零基礎幹貨

SERVICE CENTER

百度收錄之:robots.txt文件

網站建設 2021/3/14 10:11:10  &nb美影sp; 98web 姐拍   閱讀 622

什麼(me)是robots文件

Robots是站點與spider溝通的重要渠道(dào),能他站點通過(guò)robots文件聲明本麗海網站中不想被(bèi)搜索引擎收錄的部分或者公唱指定搜索引擎隻收錄特定的部分。

搜索引擎使用spider程序自動訪問互聯網上的網頁并獲取網頁信息。spider的人在訪問一個網站時(shí),會(huì)首先會(huì)檢查火兒該網站的根域下是否有一個叫(jiào)做 robots.txt的純文本文件電懂,這(zhè)個文件用于指定spider在您網作時站上的抓取範圍。您可以在您的網站中創建一個robots.txt,在文件中聲行公明 該網站中不想被(bèi)搜索引擎收報近錄的部分或者指定搜索引擎隻收錄特定的部分。


請注意,僅當您的網站包含不希望被(bèi)搜索引遠空擎收錄的内容時(shí),才需要使用robots.txt文件。如果靜謝您希望搜索引擎收錄網站上所有内容,請勿建立robots.txt文音音件。


robots.txt文件放在哪裡(lǐ輛兵)?

robots.txt文件應該放置在網站根目錄下。舉例來說(s微公huō),當spider訪問一動工個網站(比如 http://www.abc.com)時(shí),相還首先會(huì)檢查該網站中是否存在http子志://www.abc.com/robot了一s.txt這(zhè)個文件,如果 Spider找到什公這(zhè)個文件,它就(jiù)會(huì)根據這(zhè)討綠個文件的内容,來确定它訪問權限的範圍。

網站 URL

相應的 robots.txt的 UR關器L

http://www.w3.org/

http://www.w3.org/robots.txt

http://www.w3.org:80/

http://www.w3.org:80/robots.txt

http://www.w3.org:1234/

http://www.w3.or公土g:1234/robots.txt

http://w3.org/

http://w3.org/robo議店ts.txt


robots.txt文件的格式

robots文件往往放置于根目錄下,包含一條或數花更多的記錄,這(zhè)些記錄通過(guò)空行分開(kāi場有)(以CR,CR/NL, or NL作為結束符),每一條記錄的格式如下所示: 計吃 ":"

在該文件中可以使用#進(jìn些大)行注解,具體使用方法和UNIX中的慣例一樣(yàng)。該玩去文件中的記錄通常以一行或多行User-agent開(kāi)始,後(資去hòu)面(miàn)加上若幹Disa樂西llow和Allow行,詳細情況如下: User-agent:該農算項的值用于描述搜索引擎robot的名字。頻下在"robots.txt"文件中,如果有多條User-agen個路t記錄說(shuō)明有多個robot會(hu月資ì)受到"robots.txt"的限制,對(duì學腦)該文件來說(shuō),至少要有一條User-agent記錄。如果該項的化有值設為*,則對(duì)任何robot均有效,在"robot討地s.txt"文件中,"User-agent:*"河月這(zhè)樣(yàng)的記師地錄隻能(néng)有一條。如果在"robots.txt"文件中,雜紅加入"User-agent:SomeBot"和若幹Disallow、業和Allow行,那麼(me)名為"SomeBot"隻受到快那"User-agent:SomeBot"後(hòu)面(miàn)的光我 Disallow和Allow行的限制。
Disallow:該項的值用于描述不希望被(bèi)訪問的一組UR音影L,這(zhè)個值可以是一條完整的路徑,也可以是路徑的非空前綴有地,以Disallow項的值開(kāi)頭又吃的URL不會(huì)被(bèi) robot訪問。例如"Disallow算算:/help"禁止robot訪問/help.html、/h跳書elpabc.html、/help/index.html,而湖習"Disallow:/help/"則允許站術robot訪問/help.html、/helpabc.html,不能(nén黃房g)訪問/help/index.html。"Disallo唱聽w:"說(shuō)明允許robot訪問該網站的所有url,在"/robot麗爸s.txt"文件中,至少要有一條D唱東isallow記錄。如果"/robots.txt"不存在或者為空文件,則對林國(duì)于所有的搜索引擎robot,該網知白站都(dōu)是開(kāi)放的。
Allow:該項的值用于描述希望被(b個公èi)訪問的一組URL,與Disall熱年ow項相似,這(zhè)個值可以是一條完整的路徑,也可以是拍業路徑的前綴,以Allow項的值開(kāi)頭的URL 是允許robot訪問的。購理例如"Allow:/hibaidu"允許robot訪問/行什hibaidu.htm、/hibaiducom.html、/hibai區跳du/com.html。一個網站的訊藍所有URL默認是Allow的,所以Allo慢車w通常與Disallow搭配使用,實現允許訪問一部分網頁同時(shí時女)禁止訪問其它所有URL的功能(néng)。
使用"*"and"$":Baiduspider支持使用通配符"*"了事和"$"來模糊匹配url。 "*" 匹配0或多個我雨任意字符 "$" 匹配行結束符。

最後(hòu)需要說(shuō)明的是:百度會(huì)煙木嚴格遵守robots的相關協議,請注意區分您不想被友什(bèi)抓取或收錄的目錄的大小寫,百度會(huì)對(duì)rob服冷ots中所寫的文件和您不想被(bèi)抓慢如取和收錄的目錄做精确匹配,否則robots協議無法生效。


TAG标簽:網站建設網站推廣百度收錄robots.txtrobots
鍊接地址:
鄭重聲明:以上内容來源自玖捌網絡工作室,轉載請注明出處!

兼顧高品質與個性化的界面(miàn)設計

網站無須三方授權 · 安全穩定、維護方便

玖捌網絡工作室
18972931619
掃碼獲取最新報價
0.052733