秒速飞艇充值中心

  魔貝課凡這節課來學習第二階段名詞解釋里邊的技術部分,主要講解robots的概念,還有robots的演示。  我們先來看robots的概念,文本文件,它其實就是一個協議,魔貝課凡講解:spid

秒速飞艇充值中心  魔貝課凡這節課來學習第二階段名詞解釋里邊的技術部分,主要講解robots的概念,還有robots的演示。

  我們先來看robots的概念,文本文件,它其實就是一個協議,魔貝課凡講解:spider爬蟲什么可以抓取,什么不可以抓取秒速飞艇充值中心。我們知道搜索引擎是不產出內容的,它會派出大量的爬蟲來抓取我們網站的內容,網站有些內容是不允許它抓取的,有些內容是可以讓它抓取的,所以我們要寫一個規則來限制。一般搜索引擎會遵循這個規則,也就是這個文本協議,但是百度往往會跳過這個規則。robots協議就相當于一個公司門口貼的公告,這個公告會允許哪些人可以進入,哪些人免進。

robots協議怎么做
robots文件國內很多人喜歡叫做“蘿卜絲”文件

  robots文件是以txt結尾的文檔,存于網站的根目錄,這個就是robots文本協議。搜索引擎爬蟲訪問網站的第一站就會看這個協議,然后遵循協議去抓取文件,所以我們要屏蔽一些無用信息節省蜘蛛資源,以及屏蔽一些隱私信息不公布于網絡,這樣不至于搜索引擎把你的內容全部都給你抓取過去。屏蔽掉無用信息的話,把更多的爬蟲引向有用頁面,從而提升你的收錄。后面的課程中會詳細給大家講寫法,屏蔽哪些文件,開放哪些文件。

這就是robots文件的位置,在根目錄
這就是robots文件的位置,在根目錄

  我們回到桌面打開瀏覽器,打開我們的演示站點www.moocfan.com,我們在網址后方輸入一個斜杠,然后輸入robots.txt,回車訪問,這里就是我們seo教學演示站點里邊的robots文件。這里是允許所有的爬蟲來訪問,不允許訪問的是這個目錄,還有這一個目錄,這兩個目錄是我們網站的重要兩個目錄。這里僅僅屏蔽掉的是程序里面的一些函數文件、動態文件等。

本站的robots文件
robots寫法示例

  接下來再演示一個屏蔽了百度爬蟲的網站,也就是萬能的淘寶網。回到瀏覽器里面輸入www.taobao.com/robots.txt,我們看到這里他屏蔽掉的百度的寫法是這樣子,這是淘寶的一個政策,整站不允許百度來爬取,因為它壓根就不需要搜索引擎流量。而且百度向來是違反robots協議抓取,所以淘寶還要在服務器里設置一些屏蔽措施。

  可能很多同學不知道這個該怎么用,簡單講一下。我們該如何使用百度站長平臺生成robots文件?方法很簡單,就是桌面上建立一個txt文檔,然后把這個名字改成robots,然后通過ftp工具上傳到空間。里邊的內容你可以直接去模仿其他網站,或者直接用百度站長平臺功能生成,如果你已經有了賬號可以直接登錄,如果沒有賬號,就去注冊一個。選擇驗證過的站點,檢測更新就出來了,怎么寫一目了然。

robots檢測更新

  我們一般用到的都是不允許抓取,比如說不允許所有的爬蟲抓取整站,只需要Disallow: /,然后點擊創建就可以了。Disallow: /是不允許所有的網爬蟲來抓取,可以直接把文件保存到桌面上,自己動手試試。當然了,你也可以復制內容到自己建的robots文件里,它和淘寶的蘿卜絲文件是一樣的。另外還可以不允許所有的爬蟲來訪問具體的一個目錄,比如說我們有一個目錄是admin目錄,寫成Disallow: /admin/,爬蟲就不會抓取這個目錄了。

手把手教你做robots協議
國內的幾個爬蟲都挺垃圾的

  還可以不允許抓取目錄中的第一篇文章,直接“Disallow: /鏈接地址"就行了,創建后搜索引擎就不會再抓取這篇文章了。根目錄下不要存在兩個以上的robots文件,我們要刪掉其中一個,不然會對搜索引擎爬取造成困擾,對seo也不好。

秒速飞艇充值中心  我們把這個協議通過ftp上傳到網站根目錄,這個協議就開始生效了,這里講了robots的概念及以及操作方法。

  本文robots.txt文件作用由SEO講師團隊原創編輯,我們專注于SEO培訓,所以專業。


發表評論