登陆注册
16791100000201

第201章 0202.再次挖角谷歌-Kaltix归心

{时间:2003年3月4日}

{地点:加州-帕洛阿尔托}

无论哪个时候谦虚总是好的,但是过于谦虚有时候难免给人误会。所以面对Kaltix三人组,宁子默并不谦虚。

Kaltix三人组说掌握的技术,确实是针对谷歌的PageRank去做的提升。但Bing同样在网页页面权重方面有自己的专用算法,搜索引擎本质上的共性让Kaltix技术的融入并不存在问题。

问题在于,如何将Kaltix三人组纳入旗下。这可不是简单地把Kaltix三人组挖过来那么简单,而是对谷歌和Bing相对此消彼长的“骚操作”。

既然是此消彼长,宁子默不介意亮亮肌肉。

用迅雷不及掩耳之势,拿下三人!

于是,这一番大数据搜索的延伸场景摆在2003年这个时代,已经不足以用惊艳来形容。

包括霍夫曼在内,办公室里呆着的四人一幅“懵逼”的样子盯着宁子默,让宁子默一时间有种“说过了”的感觉。

确实,刚刚讲的东西对眼前的四人而言。

太超前了!

他们的理解,

或许还跟不上。

没想到赛普突然张了张嘴,小心翼翼地说,“宁,我们三人曾就谷歌搜索引擎讨论过搜索引擎技术的发展。本以为我们的展望已经十分超前,没想到你铺开在我们面前的那副画卷完全超越过我们曾经的想象。”

眼前这位叫做宁的年轻人,不仅仅是大名鼎鼎的PaypalCOO,竟然还是【领赢】和【MySpace】的联合创始人。

他已经在过去的数个项目中展现了他的创造力,却没想到他在搜索引擎这么专业的领域竟然有着超越这个时代的独到见解。

他关注的不仅仅是技术,更是科技,或者说互联网技术在人类文明未来的发展中所起到的关键作用。

如果说以前很多人问自己-搜索引擎可以干什么,自己的回答最多会比宁给出的答案更好一些:

“搜索引擎可以帮你更快速找到更专业、更详尽的答案。”

但是今天过后,赛普觉得他或许会给问出问题的人一个更好的答案。

或者说,今天过后,他突然给不出别人一个答案。

搜索引擎可以做什么?

宁已经讲得清清楚楚,

但那个未来,

离现在确实还很远。

想到这里,赛普鼓起勇气问到,“宁,你说描绘的画卷绝对是搜索引擎未来最值得去探索的发展方向。”

抱歉地点了点头,赛普讪笑着说,“并不是说我不看好你所说的未来,而是我意识到你所说的那个未来,离我们有些远。它一定会用到大量的新技术去实现,而那些技术并不是一个简简单单的团队可以完成的。

甚至就连目前在搜索引擎领域十分领先的谷歌,就算它有足够的技术积累,也不能在短期内达成你所说的那个未来。单单如何将网页文件串联成数据,并以数据库查询的方式来实现搜索,都是个目前短期内难功课的难点。”

“梦想总是要有的,要不然怎么去一步一步实现它?”

宁子默把有关梦想的话变了个说话,就在赛普表态的同时,他已经想到了更深层次的东西。

宁子默明白,有一些人,仅仅只靠画饼是不能完全说服的。

自己必须拿出完全体来对付这帮同样有梦想的年轻人!

宁子默自信地笑笑,乘着抿一口咖啡的时间在脑子里将谷歌搜索的关键技术汇集成册。

把杯子从嘴边拿开的时候,宁子默脑子里有关谷歌搜索关键技术的封印,

已然打开!

“说到搜索,人们往往会简单地认为搜索只是抓取爬虫从网络上抓取的结果。但实际上,搜索并没有人们想象的那么简单。”

宁子默将杯子轻轻地放在桌上,笑着扫了三人一眼,细细地解释到:

“我们谈到大数据搜索,其核心一定是体量极大的数据量。这种体量的数据存储、索引和检索,已经不单单是数据库结构能去实现并解决的。

大数据量的数据存储和搜索一定要有对应的文件存储检索系统,它必定是一个面向大规模数据密集型应用的、可伸缩的分布式文件系统。

我们【Bing】除了在搜索和爬虫上用心外,最核心的部分还是背后那套围绕在BFS(Bing File System)文件系统的核心技术体。这套系统的设计目标,与许多传统的分布式文件系统有很多相同之处。比如,性能、可伸缩性、可靠性以及可用性。

但BFS的还是以应用负载情况和技术环境的分析为基础着重考虑,不管现在还是将来,BFS和早期的分布式文件系统的设想都有明显的不同。所以我们重新审视了传统文件系统在设计上的折衷选择,衍生出了完全不同的设计思路。

首先,组件失效被认为是常态而不是意外。BFS需要管理成百上千存储机器,同时被相当数量的用户终端机访问。BFS组件的数量和质量导致在事实上,任何给定时间内都有可能发生某些组件无法工作,某些组件无法从它们目前的失效状态中恢复。

当我们遇到过各种各样的问题,比如应用程序bug、操作系统的bug、人为失误,甚至还有硬盘、内存、连接器、网络以及电源失效等造成的问题。所以,持续的监控、错误侦测、灾难冗余以及自动恢复的机制必须集成在GFS中。

其次,以通常的标准衡量,我们的文件非常巨大。数GB文件都可能非常普遍。每个文件通常都包含许多应用程序对象,比如web文档。

当我们未来需要处理快速增长并由数亿个对象构成的、数以TB的数据集时,采用管理数亿个KB大小的小文件的方式是非常不明智的,尽管有些文件系统支持这样的管理方式。因此,设计的假设条件和参数,比如I/O操作和Block的尺寸都需要重新考虑。

第三,绝大部分文件的修改是采用在文件尾部追加数据,而不是覆盖原有数据的方式。对文件的随机写入操作在实际中几乎不存在。一旦写完之后,对文件的操作就只有读,而且通常是按顺序读。

大量的数据符合这些特性,比如:数据分析程序扫描的超大的数据集;正在运行的应用程序生成的连续的数据流;存档的数据;由一台机器生成、另外一台机器处理的中间数据,这些中间数据的处理可能是同时进行的、也可能是后续才处理的。

对于这种针对海量文件的访问模式,客户端对数据块缓存是没有意义的,数据的追加操作是性能优化和原子性保证的主要考量因素。

第四,应用程序和文件系统API的协同设计提高了整个系统的灵活性。比如,我们放松了对BFS一致性模型的要求,这样就减轻了文件系统对应用程序的苛刻要求,大大简化了BFS的设计。

BFS还引入了原子性的记录追加操作,从而保证多个客户端能够同时进行追加操作,不需要额外的同步操作来保证数据的一致性。”

端起咖啡又喝了一口,宁子默已经习惯了身边这四人目瞪狗呆的状态。

放下杯子,宁子默再也懒得去解释那些技术细节,但还是提点到:

“BFS一早就规划了四大核心技术体,其中涵盖了第一个部分的分布式基础设施,包含的模块有文件系统(File),分布式锁服务(Chubby)和数据化序列协议(Protocol Buffer)。

而第二部分是分布式大规模数据处理模块,其中包含分布式运算程序的编程框架和对应的数据查询语言。他们或许和SQL和类似,但实际上它应该被称之为DSL(Domain-Specific Language)。

第三部分则是分布式数据库技术,它包含的模块就有分布式数据存储系统(BigTable)和数据库分区系统(Sharding)。

最后一部分当然包含数据中心优化技术,这些技术中包括综合考虑的数据中心高温化,还有电池与服务器相应整合技术等。”

撇了撇嘴,宁子默皱着眉头说,“搜索引擎是一个全盘技术的考虑,但我仅仅只举了一个很简单的例子,并且其应用范围还只是在网页搜索结果当中,并没有提及一整个生态的整体考虑。

但我所说技术方面的内容,远比我现在讲给你们听的内容要复杂的多。每一个单项里都会包含大量工作人员相应的工作成果,确实不是短期内可以去实现的。

但好在我们【Bing】团队的目标明确啊。”

“梦想还是要有的,万一实现了呢?”宁子默撇着嘴挑了挑眉毛。

这个轻挑的动作,在Kaltix三人组的眼里却郑重如斯。

办公室里鸦雀无声,除了必要的眨眼,好半天都没有一个人有多余的动作。

大概是忍受不住这种沉重的气氛,霍夫曼赶忙站起身来,去门口招呼人帮忙添上几杯咖啡。

霍夫曼也算看出来了,宁子默今天多少都带点“火气”,所以平日里一沾即过的风格变得凌厉无比。接连的前瞻和技术开诚布公地公示出来,定然让他斯坦福大学的三位学弟有些承接不住。

待人送来新的咖啡,霍夫曼才赶忙招呼道,“来,先喝点东西消化消化。宁原来在Paypal带团队的时候就是这样的风格,每一次他有一个新的方向时,总是向着那个方向勇往直前。

这么两年来,我从未见他失败过。但为什么不会失败,相信你们刚刚也都看到了。那是因为他在每一个细节的把控方面都已经做到了极致,这才有我们步步为营的每一次胜利。”

赛普明显是三人里边拿主意的那一位,霍夫曼话音刚落,赛普就点了点头。

虽然一直都是那位年轻的宁在说话,但是赛普总是觉得自己的嗓子有些痒。

咳嗽一声看了看身边的同伴,见他们都轻轻地点了点头,赛普清了清嗓子说到,“宁,我们已经清楚地看到你描绘的未来,也如同霍夫曼学长说的那样,明白你在计划的每一个细节都十分重视。

我想,经过你这一番讲述后,我们就只剩下一个问题。那就是,如果我们加入【Bing】,那么在前期这段时间,我们能为【Bing】做些什么?”

成了!

没有多余的感叹。

宁子默在做之前就笃定会是这样的结果,降维打击不仅仅是让人屈服,其实还可以是用能力去征服别人。

要不然人马星的舰队开到地球的时候,为什么总有人类想要成为三体人呢?

当然,赛普他们并不是这样的心思,而是他们被自己说的有些找不到自己的方向了。

既然别人都已经愿意加入团队,宁子默的态度自然温和不少:

“对于整个Bing来讲,从雅虎搜索引擎部门跳槽而来的陆奇先生有足够的能力去掌控大局。但在细枝末节方面,我们需要足够多的专家来实现技术。

和谷歌一样,Bing也有自己的PageRank算法。但目前搜索引擎的优化方面,我们需要专家。这就是我让霍夫曼帮我物色人选的主要目的,而你们就是霍夫曼为我们【Bing】物色的技术专家。所以,我想要听听你们在搜索领域有哪些特长。”

尽管知道Kaltix的技术核心是一套包含三个技术的算法,就算知道这三个技术是二次外推,BlockRank和自适应PageRank。宁子默依旧要做出足够的姿态。

赛普点了点头,笑着说,“好的,宁,那么由我来向你详细的介绍一下我们的Kaltix。”

搜索引擎并不是宁子墨擅长的范围,但前世对谷歌的崇拜驱使宁子默对谷歌的技术有过相当的研究,这些积累的搜索知识让宁子默在和赛普的沟通中并不吃力。

Kaltix是赛普三人基于谷歌核心Page Rank技术的新兴搜索排序技术,它基于个人兴趣的搜索结果排序方式,可以讲搜索引擎速度提升到原有速度的五倍。

它有三项核心技术……

就算知道这些,宁子默细细听完就觉得自己淡定不起来了。

也难怪前世里的谷歌在2004年会有飞速的发展,完全是因为收购并消化了Kaltix的核心技术,而Kaltix对谷歌搜索的提升是显而易见的。

赛普的讲解,让宁子默觉得自己捡到宝了,不由地夸赞到,“你们的技术核心思想是基于用户体验的搜索排序方式,这与我重视旗下产品的“交互体验”几乎是一样的要求。你们技术的核心其实也是‘交互体验’,不仅是技术的提升更是站在用户角度的‘交互体验’的提升。

这样的技术应用非常有理由客户的便捷实用,从此搜索不再是机器式的反馈结果,而是个性化的反馈用户的真正需求。你们做了一件了不起的事情。”

“那你觉得,以我们的能力和技术,我们是否可以加入【Bing】呢?”

看着赛普天真地望着自己,宁子默突然很想笑。

无论如何,这句话都昭示着一个结果。

自己又一次坑了谷歌,

Kaltix小组归心了!

同类推荐
  • 乡野小狂医

    乡野小狂医

    乡下穷小子偶得天眼通神功秘籍,透视、治病、打架、捉鬼、赚钱样样精通。新书《极品虐鬼系统》已发布,欢迎大家品读!
  • 老子是高手

    老子是高手

    这是一个少年寻找自己身世之迷的纯洁故事!
  • 都市之至尊大帝

    都市之至尊大帝

    他是规则破坏者,也是无数人心中的梦魇。他是林行,不管是曾经还是以后,他,都是压得让人喘不过气来的无敌强者……ps:新书《都市之至尊狂婿》已经上传,欢迎新老书友们多多支持,万分感谢!!
  • 最强全能奶爸

    最强全能奶爸

    辱我老婆者,杀。惹我女儿者,咳咳,这个就不杀了,毕竟还有那么多小盆友。哎,等等,那个是哪家的臭小子把你的花给我收回去……他乃雇佣兵界的传说、杀手界的最强、黑暗世界的暗夜王者……总而言之,他是个无所不能的男人。某一日,一封来自神州的信使得他的生活发生了翻天覆地的变化。“粑粑你是负心汉,竟然抛弃灵灵跟妈妈。”风海:“亲生的,这是亲生的。”
  • 爸比,那只鬼又哭了

    爸比,那只鬼又哭了

    “去年今日此门中,人面桃花相映红。人面不知何处去,桃花依旧笑春风!”这首诗,无疑是王川这些年最真实的写照。四年前,大二暑假,女友回家,因遇山洪丧生。如今又是清明节气,王川遥祭相思,意外获得鬼情绪系统。……“哥,求求你饶了我吧,以后我再也不绣花了!”绣花鞋鬼颤颤巍巍,作为一个绣花鞋鬼,手都绣烂了,这事儿何处说理?“您……您别这样……人鬼殊途……姨~妈救我!”贞子浑身颤抖,挣扎着要爬回电视,人间太凶险,我要回阴间。“大侠,我错了!求求你给我来个痛快吧!”僵尸鬼匍匐在地,痛哭流涕,痛不欲生!……“爸比!”等等,这谁家小公主?粉雕玉琢……不对,这是个弃婴小鬼!
热门推荐
  • 翎时桃华

    翎时桃华

    那一年,祁连日落,红袖北来,风华绝代。那一年,塞北孤烟,陌上少年,悠悠回眸。桃之夭夭,灼灼其华;时移世去,翎羽渐丰。五年光阴匆匆,豆蔻年华终虚无。潦潦草草,物是人非,当时不道是寻常。日夜,日亭,日月,日吟。不弃,不离,不舍,不忘。哭哭笑笑,流年似水,一红一蓝即天涯。
  • 网游之巅峰无限

    网游之巅峰无限

    新代网络游戏《寒水逆》第一大帮永恒之巅帮主新手斩龙为钱而卖身退游,因而意外激活了一场真人游戏。一场豪赌,一场无法退出的真人游戏!重回各个网游的巅峰时代!吃鸡!天刀!剑侠情缘!九阴!LOL!无限流游戏有没有搞头?
  • 神江湖之桃之夭夭

    神江湖之桃之夭夭

    这是一个认认真真的作品简介。人有人的江湖,六界众生仙妖魔鬼也有他们的江湖。这个江湖就是追求永生的神江湖。在神江湖里,没有穿越而来的外来者,所有仙家,妖魔,鬼怪,人,皆为零添加,无污染,原汁原味的本土品牌。在这个神江湖里,主打品牌就是来自妖族的一只桃花妖——桃夭夭。桃夭夭在混迹江湖的过程中,有一夜暴富的奇遇,有拜师神尊的幸事,也有爱上不该爱的墨白,惨遭挖心,成为幽冥族一只孤魂野鬼的悲惨遭遇……次推品牌,神尊墨白,法力无边,唯一缺点执念太深,以至于一心为了救回10万年前她,利用和伤害了不该伤害的“她”,到最后,发现真相的他眼泪掉下来……天族太子少宜,魔尊玄冥,天族公主少月,妖族乌妖王,幽冥王幽霖,更多有趣有灵魂的品牌,敬待读者诸君来发现!
  • 比太阳更早升起的

    比太阳更早升起的

    文学的持续生产,也要仰赖于文学最基本部分的建设。这个建设是帮助新人涌现,是期待新人带来的新作品,带来新的感受力,产生出新的思想方法与表达的艺术。《比太阳更早升起的》基于这样一种认识,四川省作协巴金文学院,取得四川省省委宣传部的大力支持,和四川出版集团·四川文艺出版社合作编辑出版“巴金文学院签约作家书系”,着力发掘富于原创能力的新锐作家,资助出版他们在文学创新方面的文学成果。这种举措的唯一目的,就是为四川文学长远的可持续发展,做一些计之长远的人才培养与新的艺术经验积累方面的基础性工作。
  • 重生之挽景留云

    重生之挽景留云

    【一对一,身心双洁,甜宠,结局HE】慕楚重生了,却是重生到楚妧的身上,看着她深爱的人踩着她的尸体登上了皇位,她满目恨意,即使她什么也没有她也定要他血债血偿,可是这仇怎么就简简单单的就报了还有,身边这扒住不动的美男怎么回事?某璟:仇有什么好报的,不如你抱抱我吧,本王能打能抗,还能上床(乖巧脸)!某妧:……说话就说话,动什么手!她没想到名乱天下的容王,表面上一副清冷禁欲,生人不近的样子,在她面前却是,听话乖巧,欲求不满?咳咳后来,万事尘埃落定她才知道,他是她两辈子命定的人。情不知所起,一往而深,缘不知何生,已然痴缠。这是个强强联手虐渣渣,顺带撒狗粮的甜宠故事。
  • 我有超神芯片

    我有超神芯片

    星河寰宇,三千道途。物竞天择,强者留名。辅助修行的超神芯片,让楚赫踏上强者之路。可是,异世与地球到底有何联系?星河之外的强大妖物又因何而来?寰宇之内到底还隐藏着何等秘密?这是属于苍茫界尊的传说,亦是凡人楚赫的成长之路。……古来书友多缄默,唯有品者留其名!新人写书,承蒙不弃,诸君,干杯!
  • 喵系萌妻开挂了

    喵系萌妻开挂了

    尊贵的萧大少救回了一个小可怜。小可怜醒来说要报恩。萧大少满心欢喜的等啊等,可始终也没等来小可怜那啥……相许。病娇大少于是决定化身白莲花主动出击。某一天。萧沐尘惨白着俊颜捂着胃道:“云初,我可能活不了多久了”,说完,他惨淡着脸望向天,喃喃自语,“可怜我连场恋爱都没谈过……”云初心里揪疼,脱口而出,“我是学渣草包你愿意将就不?”正中下怀的某男故作垂眸深思,一分钟后抬眸,“那我勉为其难吧”
  • 奇门风云(3)

    奇门风云(3)

    浩劫之后的江湖,风云再起,如意宝珠出世,祸起萧墙始于三大奇门之遁门。于是奇门遁甲不奇,毒门万毒不毒,刀门铸刃无锋。祸起奇门,顿破江湖微妙的均衡。数年后,一位如“海”般深邃的少年崛起江湖,以杀手的身份横空出世,在血雨腥风之中,破开重重迷雾,以有情的心作无情的杀戮,终在爱情、有情、亲情的“互网”中刺穿仇恨的外衣。雾散云消,真相横阵之际,却给了他一个无法接受的现实。
  • 龙虎中丹诀

    龙虎中丹诀

    本书为公版书,为不受著作权法限制的作家、艺术家及其它人士发布的作品,供广大读者阅读交流。汇聚授权电子版权。
  • 盗墓世家

    盗墓世家

    身为盗墓世家的女儿,我怕黑又怕鬼,某次盗墓时,我不小心砸伤一位俊秀少年,我爹垂涎于他的美色,一心想招他为我的童养婿.天呐,他还这么小,我怎么下得了手!二月初九,宜出行、嫁娶……下斗。寒潮来袭后的深山仿佛被银装素裹在一块冰晶里似的。我深一脚浅一脚慢腾腾地跟着前方队伍,这回下斗的位置据说是二师兄伪装成二道贩子在京城里搞到的,我爹破了半天那丝绢上的密文定出的位置,师兄们把我安顿在附近一个山洞里,我苦兮兮地抱怨:“冰天雪地的,带我这个拖油瓶,何必嘛。”