分类 搜索引擎 下的文章

此稿是本人去年在“课前三分钟”的讲稿,现在看来里面的一些句子十分荒谬,现在就当笑话看吧。(有些话在当时改稿的时候删掉了,这边用删除线表示出来)


网络是当今世界我们所熟悉而又不太熟悉的事物。你晓得互联网是怎么运作的吗?我们是怎么上网的?搜索引擎是如何管理如此多的网页的?你的心中也许有许多这样的疑问,希望本次演讲能给你解答这些疑问。

当你在浏览器输入网址并回车,你的手机就通过自身的编辑器对网址、IP地址等等上网信息进行编码调制。简单来说,就是这样,这些信息翻译成机器之间可以交流的语言,其目的是防止数据丢失。然后将数据打包发给你旁边的路由器。路由器先通过查询域名服务器,再将这个信息发给基站。基站其实就是路边熟见的铁塔,它们是移动互联网的桥梁。基站会像神经元一样一路将信息进行传递,直到最后的基站将信息转发给缓存有网站信息的机房,机房会先访问元服务器。什么是元服务器?像百度网盘之类将下载速度视为命根的网站,在将文件存储到服务器时,会先对文件进行分片,也就是将一个文件分成许多个小文件。这些文件碎片存储在不同服务器中。哪个碎片存储在哪个服务器的元数据就存储在元服务器里面。元数据会帮助找到并回传文件碎片,手机内存解调,最后从手机屏幕上显示出来。如果你在此之后点了点按钮或链接,又要重复以上步骤,将网页来回传送。以上仅为绕开电信运营商,且网站有进行缓存的理想状态。

这便上网的过程,万维网通信的基石。

在中国,我们上网便要问度娘。百度是个什么呢?百度在经济学家和法学家眼中是公司、是经济体,在网虫眼里是一个上网方式,而在我眼中是搜索引擎、网络地图、网上订餐等等的结合。而百度搜索值得一提。我们在五年级制作网页的时候,就知道百度的搜索功能是通过表单实现的。什么是表单?就是输入框。其大部分就像填空题里的横线。当你在输入框输入鸡你太美并点击百度一下的时候,百度还仅仅知道你想要关于这类的网页。在此后的1秒内,百度要通过服务器的脚本进行检索、排序、呈现。

我们不讲专业性较高的检索,来谈排序是如何进行的吧。有用过百度的都知道,百度搜索结果的第一名不是百度自家的产品,就是知乎、哔哩哔哩、爱奇艺之类的知名站点。这主要是由什么导致的呢?权重。

权重是什么呢?首先你要了解搜索引擎的目的是什么?是为了让人找到更有用的信息的。权重设置的目的也是这样。一般来说,此前内容权威、优质的网站,此后也会产生权威、优质的内容。搜索引擎将他们赋予高的权重,在下次收入改网站的网页的时候会优先考虑,在搜索呈现中的排名也会靠前。简单来说,高权重相当于一个搜索引擎给网站的糖果、VIP。而降低权重也是搜索引擎对网站比较常见的处罚方式。

现在越来越多的用户使用搜索引擎作为上网的门户,越来越多的网站依靠搜索引擎获得网站流量。搜索引擎也开始承担起引导互联网向好向上发展的重任。

即使有了权重,但搜索引擎直接将包含鸡你太美字符的网页显示出来,也未必太过低级。百度需要让服务器知道鸡你太美的意思。

到这个时候,我们需要离开网络领域,进入人工智能领域。(后面那些话太扯淡了,我都不好意思打出来。事实告诉我们,门外汉是讲不了门里面的故事的)

百度会定期让机器去学习新的网络用语,比如已经收入词典的给力。这样做可以让搜索引擎适应起日新月异的网络潮流、跟上时代、守住市场。

我的演讲到此结束,谢谢大家。


真的,打完这个搞真的非常不可思议。想起自己曾经会花费一个中午的时间来写这个稿,感觉非常佩服曾经的自己。我写完稿之后,还没有上台之前,同学们就开始嘲讽:“这不是课前三分钟,这次课前三十分钟。”

所谓搜索引擎,就是根据用户需求与一定算法,运用特定策略从互联网检索出制定信息反馈给用户的一门检索技术。

百度百科对搜索引擎的定义

这是搜索引擎的定义,我们将它概括总结后得到:搜索引擎就是帮助人们在网上找到想要内容的一种东西。

此处说的一种东西,代表着能帮助人们找到想要内容的不只有搜索引擎,在只有用键盘打字的时代,导航网站也承担着这个任务(它大大的方便了当时人们的上网生活,hao123就是一个非常成功的案例)。

现在存在的搜索引擎都可以为我们找到东西,只不过是存在寻找速度快慢的不同,这也是当今搜索引擎比较好坏的标准。

那么如何才能让我们找到东西呢?搜索引擎大概涉及两个要素:内容广度和所呈现的内容精确度。

为什么没有内容质量呢?因为你在搜索的时候可能在乎的不是内容质量。比如说:你想找搜索引擎的定义,然后就搜搜索引擎的定义,然后你此刻想要得到的就是搜索引擎的定义是什么,而不是诸多百度问答里面的那些拓展资料“搜索引擎的发展历程、主要的搜索引擎”等等。但搜索引擎的定义很短,很难被搜索引擎认为是优质内容,所以说我们在搜索的时候可能不会对内容质量那么在乎,只要我们能得到答案就可以。

搜索引擎之内容广度

链接可以帮助搜索引擎发现页面,从而进行爬取。可以这样说:互联网就是因为链接而连结起来的。在谷歌发布的一篇博文中,谷歌说目前索引的网页数量已经达到一万亿。搜索引擎(Google)的内容广度已经初步得到了保证。

但是如果网站上面还有一部分页面没有被收录,而在Google Search Console上又没有这个页面不被索引的信息,那么就说明你网站的链接结构出现了问题。

搜索引擎之内容精确度

谷歌有很多种因素来共同判断一个页面是否与搜索词相关。根据奶爸建站笔记里的210个SEO建议之页面级因素中的第36条“出战链接主题”,我们可以知道Google可以根据页面指向链接的主题来判断这个页面内容的主题。如果我们在页面里面指向一些与主题相关的页面,那就可以让谷歌更好的了解我们,从而提升液面与搜索词相关性。

一是浏览器禁用JS,看一下访问页面时是什么情况。如果禁用JS后重要内容看不到了,那么搜索引擎也可能看不到。不要寄希望于搜索引擎会青睐你的网站而去执行JS。

SeoZac的这句话警醒了我,搜索引擎可没都渲染JavaScript。也就是说,JS所展示的内容,搜索引擎不一定能看到。

我将浏览器禁用JavaScript,然后访问我的网站。除了搜索和菜单栏无法调起外,其它功能正常。(可能WordPress也意识到这个问题)

我继续去访问其他网站,发现了一些问题。

通过JS可以不用切换页面即可实现「查看更多」,但展示更多内容需要点击按钮。首先,使用JS就把不渲染的爬虫淘汰了,再接着,几乎所有爬虫都不会点击按钮……这也同时使不加载Javascript或Webview版本过低的用户断了去路。

JS可以修改html文本,这时使用JS的链接不友好。我在检查友链网站的时候发现:可能是因为webview的原因,又或是JS的缘故,网站上的友链竟是文本。

大部分JS会拖慢网页加载。请在添加一个JS时思考它是否必要。一个博客网站必要的就是内容,一个在线商城必要的就是购物车。如果非要装百度自动提交、头条自动收录、360自动收录、百度统计之类的非必要JS文件,请考虑加上async。

最后,暴躁老哥告诉我们网站不能花里胡哨。