神鸟电子书 > 经管其他电子书 > 揭密搜索引擎快速成长路:撬动地球的Google >

第12部分

揭密搜索引擎快速成长路:撬动地球的Google-第12部分


按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!



  这是个设问句,不过为了防止教室里有人没有听出来自己是在自问自答,布林一点也没有停顿。
  “互联网中有数百万个网站,更有数亿张网页。今年最近一次计算的结果是,一共有3亿张,”布林说,“那么,要怎样才能做到成功的搜索呢?事实证明,情况并没有如此糟糕。我们的一样重要武器就是‘摩尔定律’。”
  

神奇的Google(4)
如果要创新的话,最重要、最关键的一点就是要理解摩尔定律的根本原则。20世纪60年代,一名叫做戈登 · 摩尔(Gordon Moore)的工程师,也是英特尔公司的创始人之一,预言说,每年,计算机的处理能力都会成倍增长。如果没有这样的发展趋势,曾经专属于企业、大学和政府的硕大的大型计算机不可能发展成今天的个人电脑,而正是个人电脑赋予了个人巨大的力量。他所预言的发展趋势在之后的多年之间一再得到印证。现在布林要解释的就是摩尔定律是怎样用于创造检索整个互联网的搜索引擎的。
  “在人们制造出这些文本和各种网络文件的时候,磁盘运行的速度也比原来要快得多了。再过几十年,我们可以将所有的人类知识,以及人类制造的一切信息都放进你的口袋里,其中还包括影音文件。”布林信心十足地说道,“所有这些都是可以处理的。你可以把它们储存在某个核心位置,然后像我们现在所做的那样处理它们。”
  布林说,问题是人们不能处理数千条搜索结果。“不幸的是,人的发展却不遵循摩尔定律——他们进化的速度相对比较慢。这是个大问题。确实如此,我们得想办法解决这个问题。”听众中爆发出一阵哄笑。
  从安迪·贝托尔斯海姆那里拿到10万美元的支票,并决定暂时中止攻读斯坦福大学的博士学位之后,布林希望让在座的专家们知道他和拉里前进的大方向。“我们正处在将Google商业化的过程中。在不久的将来,你们将会在Google?郾网站看到它。目前,我们采取了许多措施来优化我们的搜索引擎。不过,我不能在这里讨论具体的细节。”
  通过听取布林的发言,阿利森意识到,同科幻小说一样,谈论搜索引擎远远比毫无瑕疵地实施这些设想容易得多。不过,阿利森有一种感觉,如果真的有人能够做到,那么他们就会是这两个Google的发明者,而且,他们已经上路了。
  Google搜索引擎考虑的因素比当时市场上任何一种搜索引擎都多。它不仅仅依赖单词和链接出现的次数来提供结果,而是将链接和单词的相关信息同其他变量结合起来,创造出一种新的、更有趣的方式来提供更好的搜索结果。比如,根据布林的说法,网页上出现的单词和短语之间的间隔,它们的字体大小,以及它们是大写还是小写都是需要考虑的问题。
  “我们尽量不过度简化信息,”他说,“我们以用户的需要为出发点。为了提供好的搜索结果,我们牺牲了许多计算机处理能力。不过,这是应该付出的代价。”
  要想提供高质量的搜索,不仅仅需要在编写软件时掌握正确的数学方程和等式,而且,非常根本也非常重要的是,需要掌握比市场上现有的搜索引擎使用的硬件都强大得多的计算机处理能力。其他人都忽视了搜索引擎技术配方中这个关键的问题,这对拉里和谢尔盖而言是件好事。从刚刚起步的时候起,他们就认识到,要想为计算机用户提供优质的搜索服务,就必须在计算机设备上投入大笔资金,而过去没有人这样做过。这两个人不但计划开发软件,还打算在计算机网络工程上的每个方面多投入些精力,因为这也是提供最好的搜索结果不可或缺的部分。硬件和软件之间的联系千丝万缕,密不可分,优化它们的结合是必需的。他们知道计算机内存以及其他一些零部件价格在不断降低,而其处理能力却在提高,所以他们可以从中获益。他们可以依赖内部的能力,开发软件,购买零件并自行组装便宜的个人电脑来完成搜索任务。他们设想中的许多做法都是具有历史意义的,因为过去从来没有人设想或实施过以类似的方式来提供高质量的搜索结果。
  在听他们演讲的时候,阿利森回忆起自己在斯坦福大学同布林和佩奇相处的经历。他非常欣赏他们。他们是值得信赖的人,而且他们总是想要做正确的事情。抛开他们的技术知识不谈,你会发现他们是两位有个性的年轻人。这些素质在他们所从事的事业中有着完美的体现。因为,在搜索领域,人们必须首先信任你这个人,才能进一步相信你的产品。在阿利森看来,他们还是兴趣特别广泛的计算机天才,这样的完美结合确保了他们可以在外面广阔的世界中取得成功。他们信仰社会进步,这种信仰在硅谷中意味着,他们偏爱免费的、开放性的软件系统,而不是比尔 · 盖茨和他领导的微软公司所偏爱的封闭性系统。同时,他们的立场也很坚定。
  “他们非常看不惯商业化的美国社会中存在的一些现象,而且他们从来都不会出于谨慎而向人们掩饰他们的不满。”阿利森说道。
  书 包 网 txt小说上传分享

神奇的Google(5)
当佩奇开始做报告的时候,阿利森还是很受震动。拉里是个非常出色的教师,他可以找到某个问题的关键,然后以非技术性的、人人都能够理解的方式解释它。在阿利森看来,拉里是个头脑清晰的人,而且很清楚自己在做什么。
  “每次当你建立一个链接的时候,”拉里对教室里鸦雀无声的听众说道,“你就建立了一个引用。但是如果你像搜索引擎那样开始计算网络上引用的数量,你就会遇到新的问题。网络不像科学文献,任何人都能够制作网页。”
  “一种看待PageRank的方式,”他解释说,“就是把它当成一个用户模型。假设有一个随意的网络冲浪者,从某种意义上来说,它就是一只猴子,每天到处地跑,点击一个又一个链接,但这种乱点行为却不包含智力成分。你也可以说,这与人们在网络上的行为类似。”佩奇停顿了一下,听众们发出窃笑声,然后他又接着讲。
  “从根本上讲,PageRank算法假设,如果有人用链接指向你,那么你就可以分得一部分属于他们的重要性。具体来说,如果一个非常重要的人指向你,这就比一个无关紧要的网站的主人指向你要有价值得多。比如,假如雅虎的主页指向你的网页,这就是件非常了不起的事。即使你只有一个在雅虎主页上的链接,这就已经很好了。要让重要的网站链接你,你要么付很多钱给别人,要么你的网页本身非常不错。而如果你在我的主页上有一个链接,估计没有人会把它当做一回事。”然后,佩奇解释了他是怎么找到产生分等级的搜索结果的配方的。“我们大体上根据那些网页的重要性,为他们赋值。一张网页的等级就由指向它的所有网页的重要性数值的总和来决定。”
  搜索引擎的另外一个重要挑战,佩奇说,就是人们会想方设法地欺骗它来使自己的网站在搜索结果列表中得到一个更高的评级。因此,要赢得这场网络战争,搜索引擎必须要比那些恶意操纵它的网站更高明才行。
  “人们会试图误导搜索引擎,”佩奇说,“有多少人曾经在搜索结果中看到色情内容和其他东西一起出现呢?看到的请举手……OK,我们看到有不少人承认他们看到过。这个问题对于搜索引擎来说非常严重。从根本上讲,人们试图通过让他们的网页出现在每个搜索结果中来赚钱,他们根本不在乎你在搜索什么,他们根本就是什么都不在乎。他们只想为他们的网页争取访问流量,这是个非常严重的问题。”
  在提出问题之后,佩奇解释说,他正在寻求解决的方法。他说,问题的答案就在于充满活力的、不断更新的衡量网站真正重要性的方式,它使网站经营者钻系统空子的难度加大了。而Google总是将终端用户的利益摆在第一位,它一定会做好这项工作的。
  这时,佩奇忍不住又指出了其他搜索引擎技术的另外一个令人遗憾的缺点。“搜索引擎的运行不尽如人意。”佩奇说,“如果你把AltaVista输到另外一个搜索引擎中搜索,你能看到AltaVista的主页吗?很可能不会。而我们很好地解决了这个问题。我们完全依靠自己的力量来解决这些问题。这的确是个非常艰巨的任务。”
  Google运作方式的核心是将复杂的任务分解成小块,然后同时处理它们。凭借正确的数学方程,加上多台个人电脑,布林和佩奇可以创造出一个现代的流水线来处理信息的收集、索引和呈现。同时,根据摩尔定律,他们将来能够以更低的成本获取更强大的计算机处理能力。
  “我们在网络中捕获网页,也就是说,我们走出去下载整个网络。大概每秒钟我们可以下载100张网页,”佩奇说,“要想可靠地完成这个任务是非常复杂的。事实上,我们存储了我们下载的所有信息,因为这对于研究工作非常有价值。我们将整个网络储存在硬盘上,拥有这些信息对于科学研究很有用处。”
  拉里 · 佩奇进一步解释是什么使得Google搜索引擎比其他搜索引擎性能更优越,在座的斯坦福的学生和教授们都聚精会神地听着。
  “当某搜索语句的搜索词数量大于1时,我们会关注网页上这些词之间的距离。”他说。为了实现这个目的,需要由一系列方程式构成的复杂的软件。其他的搜索引擎使用更简化的方式,所以追赶不上网络成长的步伐。Google拥有强大的数学方程式,下载了尽可能多的网页,还非常复杂,这些都使得它与众不同。
  “如果你想要得到更多的信息,你就必须捕获更多的网页,”佩奇说,“这是解决这个问题的简单方式。”
  

神奇的Google(6)
拉里和谢尔盖非常谨慎,尽量不泄露PageRank和Google的所有秘密。在这间教室里,也许就有来自其他公司的间谍,他们不希望有人趁机偷走自己辛勤工作的成果。
  此时,布林决定要活跃一下会场气氛。他说,也许听起来网页捕获和索引的技术性很强,但这些工作仍很有风险,有时甚至是危险的。谢尔盖解释说,在一些网站管理员的眼中,网页捕获爬虫是他们不乐见的入侵者。
  “在进行网页捕获时,”布林说,“我们遇到了很多有趣的事。联系上百万家的网站,就等于联络上百万名网站管理员。这就像是挨家挨户地敲上百万户人家的门,然后把你的电子邮件地址留给他们。要在这个过程中幸存下来,几率有多大呢?我估计,在奥克兰的某些地方你就会受点挫折。”
  布林说,有一小拨“疯狂”的网络管理员认为Google的网页捕获器干扰了自己网站的正常运营,并深受其扰。他们通过规模庞大的电邮攻击来反击,或者威胁要采取法律行动。“他们向我们抗议,试图起诉我们,最后我们不得不放弃在蒙大拿的所有网站。现在,我们又放弃了新加坡的所有网站……时不时地,还会有人联络斯坦福大学的风险管理官员,而在那之前,你甚至不知道世界上有这样一个人存在。不过,当然,现在我们知道了,他联络我们了。所以麻烦总是无休无止的。”
  

10条为G

返回目录 上一页 下一页 回到顶部 0 0

你可能喜欢的