>找出Google隐藏的秘密

大家经常能看到Samuel比较早的发布Google新的服务,这是为什么呢?

一个原因就是Samuel比较注意Google,时常关注国外网站对Google的报道,以及Google自身的Announcement。

还有一个非常重要的原因就是Google自己泄露了天机。

大家知道,搜索引擎会爬行收录发布的网站,那么要限制搜索引擎的访问,就会在robots.txt文件中加入disallow项。

正是这个robots.txt泄露了Google隐藏的秘密。

在浏览器中打开http://www.google.com/robots.txt(Samuel缩略了中间一部分,用......代替了)

User-agent: *
Allow: /searchhistory/
Disallow: /news?output=xhtml&
Allow: /news?output=xhtml
Disallow: /search
Disallow: /groups
Disallow: /images
……
Disallow: /notebook/search?
Disallow: /music
Disallow: /browsersync
Disallow: /call

大家从最后一行就可以看到google新的服务Google Call,以及倒数第3行的Google Music。

是不是很有趣?

其实,由于robots.txt的作用很大,国外大部分网站都会维护这个文件,因此很多hacker/cracker都把robots.txt作为一个突破口。
关于robots.txt的使用,大家可以去 robotstxt.org 查看。