常见问题

# 如何设置网站robot.txt文件？

### 什么是robot.txt文件，robot.txt文件有什么用？

robot.txt是在网站根目录下的一个文件，搜索引擎通过一种程序“蜘蛛”（又称spider），自动访问互联网上的网页并获取网页信息，而搜索引擎爬行网站第一个访问的文件就是robots.txt文件，所以我们可以在这个文件中声明该网站中不想被蜘蛛访问的部分，这样，该网站的部分或全部内容就可以不被搜索引擎访问和收录了，也可以通过robots.txt指定使搜索引擎只收录指定的内容。

### 如何设置robot.txt文件

可以直接在网站根目录创建命名为robot.txt文件，米拓建站系统自带robot.txt文件，且设置如下：

User-agent: *                              允许所有搜索引擎访问抓取
    Disallow: /admin/                          禁止抓取台管理员登陆文件夹
    Disallow: /cache/                          禁止抓取网站缓存页面
    Disallow: /config/                         禁止访问网站数据配置页面
    Disallow: /include/                        禁止抓取老版本系统方法目录
    Disallow: /public/                         禁止抓取系统公共文件
    Disallow: /install/                        禁止抓取网站安装页面
    Disallow: /templates/                      禁止抓取模板文件
    Disallow: /upload/                         禁止抓取上传文件页面
    Disallow: /member/                         禁止抓取会员中心页面
    
    Sitemap: https://www.metinfo.cn/sitemap.xml  允许蜘蛛爬行的网站地图

注意：后台管理员登陆文件夹修改后，robot.txt文件中的后台文件夹名称不会自动修改，目的是为了不泄露后台登陆地址，从而确保网站安全。

#### 使用用法介绍

米拓建站系统提供一个直接在网站后台修改robot.txt文件的应用插件，可以直接在线修改，无需通过[FTP工具](http://help.metinfo.cn/faq/273.html "FTP工具")链接到网站服务器操作，简单方便快捷。

到网站可视化后台——增值服务——官方商城——应用中搜索robots
![](../upload/201810/153904894486612.jpg)
安装好后，打开应用即可在线编辑
![](../upload/201810/153904901738455.jpg)

**了解设置方法：**

**1、禁止所有搜索引擎访问网站的任何部分**

User-agent: *
    Disallow: /
	
**2、允许所有的robot访问**

User-agent: *
    Disallow:
（或者也可以建一个空文件 "/robots.txt" file）

**3、禁止某个搜索引擎的访问**

User-agent: BadBot
    Disallow: /
    
**4、允许某个搜索引擎的访问**

User-agent: Baiduspider
    Disallow:
    User-agent: *
    Disallow: /
**	
5、假设某个网站有三个目录对搜索引擎的访问做了限制，可以这么写：**

User-agent: *
        Disallow: /admin/
        Disallow: /cache/
        Disallow: /config/
需要注意的是，对每一个目录必须分开声明，而不要写成：“Disallow: /admin/ /config/”。