删除URL (一):URL与目录
来源:谷歌黑板报 时间:2010-05-13 13:13:00
现在互联网上的内容五花八门无奇不有。有时您发表了一些不该发表的内容——比如一气之下发了篇博文,事后却后悔不已;又如无意间泄露了保密数据等。大多数情况下,只要删除内容或限制访问,内容就不再出现在搜索结果中了。然而,如果您迫不及待地想删除一些不愿为人所知、但已经被Google索引的内容,可以使用我们的URL删除工具;只要符合特定条件(下面将讨论),就能将内容从我们的搜索结果中迅速删除。我们将发表一系列博文,教您如何成功地删除各种内容以及如何避免常见错误。在第一个博文中,我将讨论一些基本情况:删除单个URL,删除整个目录或网站,重新添加已删除的内容。
删除单个URL
一般而言,为了成功执行删除请求,相关URL的主人——无论是您本人还是其他人——必须表示同意删除该内容。对于单个URL而言,可以有三种方式表示同意:
通过robots.txt file拦截页面阻止其被搜索
通过noindex元标签拦截页面阻止其被索引
通过返回一个404或410状态码表示当前页面不存在
在提交删除请求之前,可以先查看一下该URL是否已经被拦截:
robots.txt: 使用站长工具中的Fetch as Googlebot或Test robots.txt功能,查看该URL是否已经被拒绝访问。
noindex元标签: 您可以使用Fetch as Googlebot来确保元标签出现在标签之间。如果想查看一个用站长工具无法核对的页面,可以在浏览器中打开该URL,点击查看>网页资源,确保元标签位于标签之间。
404 / 410状态码:可以使用Fetch as Googlebot,或者Live HTTP Headers或web-sniffer.net之类的工具来确认该URL确实返回了正确的代码。有时,“已删除”的页面可能会显示“404”或“无法找到该页面”,但却在页头返回一个200状态码。因此最好使用适当的页头核对工具复查一遍。
如果您已经从网页上删除了不想要的内容,但还没有用以上方法拦截该页面,还是不能将该URL从我们的搜索结果中完全删除。如果发表该内容的网站不属于您,上述情况就会很常见,在删除URL系列文章的第二部分中我们将谈到如何应对这种情况。
如果一个URL符合以上任意一个条件,您可以访问http://www.google.com/webmasters/tools/removals,输入您想要删除的URL,选择“站长已经拦截该页面”选项,就能将其删除。注意:应输入包含该内容的URL,而非Google搜索出显示内容的URL。比如,应该输入
http://www.example.com/embarrassing-stuff.html
而非
http://www.google.com/search?q=embarrassing+stuff
本文还详细介绍了如何确保输入正确的URL。请记住,如果您没有告诉我们给困扰您的准确URL,我们也无法删除您不想要的内容。
删除整个目录或网站
要想成功地删除整个目录或网站,必须在该网站的robots.txt file中拒绝访问该目录或网站。比如,要删除http://www.example.com/secret/目录,robots.txt file需要包含:
User-agent: *
Disallow: /secret/
根目录返回一个404状态码,但这还不够,因为即使目录返回了一个404状态码,但仍然有可能在下面显示文件。使用robots.txt拦截一个目录(或整个网站)能确保该目录(或网站)下的所有URL都被拦截。可以使用站长工具中的Fetch as Googlebot或Test robots.txt功能来测试目录是否被完全拦截。
只有通过验证的网站所有人才能请求删除站长工具中的整个网站或目录。想要请求删除一个目录或网站,先进入相关网站,然后点击网站配置 》 抓取工具访问 》 删除 URL。如果您进入了网站的根目录,且希望删除该URL,您需要确认希望删除整个网站。如果您进入的是子目录,应选择下拉菜单中的“删除目录”选项。
重新添加内容
您可以随时取消删除自己网站的请求,包括其他人提交的请求。为此,您必须是站长工具中通过验证的网站所有人。一旦您通过验证,可以进入网站配置 》 抓取工具访问 》 删除 URL(或 》他人提交),点击您想取消的请求旁边的“取消”按钮。
还有问题吗?我们将发表其他关于如何将内容从Google搜索结果中删除的系列博文,请静候更新。