现实意义上的搜索引擎是1990年由蒙特利尔大学学生Alan Emtage开发的Archie。虽然当时World Wide Web还未出现,但网络中文件传输已经相当频繁,而且由于大量的文件散布在各个不同的FTP服务器中,形成了巨量的信息源。Alan的Archie依靠脚本程序搜索网络上的文件,再对其进行索引,供使用者查询。由于Archie深受用户欢迎,受其启发,美国内华达高教系统计算服务中心于1993年开发了另一个类似的搜索工具,该搜索工具除了能索引文件外,还能检索网页。

搜索引擎

当时,“爬虫”一词十分流行,“爬虫”是指快速不间断地执行某项任务的程序。由于专门用于检索信息的机器人程序像蜘蛛一样在网络间爬来爬去,因此,搜索引擎机器人程序也被称为蜘蛛程序。世界上第一个监测互联网发展规模的机器人程序是Matthew Gray开发的World wide Web Wanderer。刚开始它只用于统计互联网上服务器的数量,后来发展成为能够检索网站域名。与Wanderer相对应,Martin Koster于1993年10月创建了ALIWEB,它是Archie的HTTP版本。ALIWEB不使用机器人程序,而是靠网站主动提交信息来建立自己的链接索引,类似雅虎分类目录。

随着互联网的快速发展,检索新出现的网页变得越来越困难,因此,在MatthewGray的Wanderer基础上,将传统的蜘蛛程序作了改进。其设想是,既然所有网页都可能存在指向其他网站的链接,那么从跟踪一个网站的链接开始,就有可能检索整个互联网。到1993年年底,一些基于此原理的搜索引擎开始纷纷涌现,其中以JumpStation、The World Wide Web Worm(Goto的前身,也就是今天Overture,已被雅虎收购),和Repository-Based Software Engineering(RBSE) spider最负盛名。然而JumpStation和WWW Worm只是以搜索工具在数据库中找到匹配信息的先后次序排列搜索结果,因此毫无信息关联度可言。而RBSE是第一个在搜索结果排列中引入关键字串匹配程度概念的搜索引擎。现代意义上的搜索引擎最早出现于1994年7月。当时,Michael Mauldin将John Leavitt的蜘蛛程序接入到其索引程序中,创建了大家现在熟知的Lycos。同年4月,斯坦福大学的两名博士生,David Filo和美籍华人杨致远(Jerry Yang)共同创办了超级目录索引雅虎,并成功地使搜索引擎的概念深入人心。从此搜索引擎进入了高速发展的时期。目前,互联网上有名有姓的搜索引擎已达数百家,其检索的信息量也今非昔比。例如,Google号称数据库中存放的网页已达40亿!