隋波安撫好了左清泉之后,也答應(yīng)她,等考試周之后,會(huì)讓她負(fù)責(zé)一些相對輕松的工作。
比如公司現(xiàn)在還沒有專門的行政部門。
可以讓她和張軒兩個(gè)人先組成CEO辦公室,兼管公司內(nèi)部行政綜合事務(wù),像法務(wù)、公關(guān)、后勤、文件報(bào)告匯總之類的事情。
這也是一種鍛煉。
可以從這些內(nèi)部的職能工作,讓他們?nèi)娴氖煜ず屠斫夤菊?guī)化運(yùn)作的流程和模式。
等左清泉離開之后,隋波想了想,還是覺得應(yīng)該去看看王川團(tuán)隊(duì)的研發(fā)進(jìn)展。
隨著這段時(shí)間各項(xiàng)目展開,無論是龐勇還是周楓、王川他們都覺得技術(shù)力量不夠,又各自從學(xué)校里拉了一些同學(xué)進(jìn)入團(tuán)隊(duì),整個(gè)技術(shù)團(tuán)隊(duì)擴(kuò)張的很快。
當(dāng)時(shí)隋波在外地,就讓左清泉去找了趙寧,把公司隔壁的兩間辦公室也都租了下來。
周楓、許朝軍帶領(lǐng)的校內(nèi)網(wǎng)開發(fā)團(tuán)隊(duì)和王川帶領(lǐng)的搜索引擎研發(fā)團(tuán)隊(duì),都從原來的辦公室分了出來,易趣那個(gè)辦公室里只留了電商團(tuán)隊(duì)。
新業(yè)務(wù)的研發(fā)團(tuán)隊(duì)分別在兩個(gè)新辦公室里閉關(guān)。
一推開門,隋波有些驚訝的看到,不大的房間里,中間是一張長桌,長桌上一個(gè)緊挨一個(gè)的擺放著十幾臺電腦,將長桌擠得滿滿的。
一幫少年們頭發(fā)亂糟糟,眼圈發(fā)黑,眼睛發(fā)光的盯著電腦屏幕,渾然忘我的噼里啪啦敲打著鍵盤。
桌上的電腦之間就算稍微有點(diǎn)空隙,也都擺滿了方便面火腿腸之類的速食品。
要不是那些電腦屏幕上,顯示的一行行代碼,簡直就是一個(gè)小型黑網(wǎng)吧的現(xiàn)場!
王川坐在最靠里的一臺電腦前,眉頭緊鎖,盯著屏幕,似乎正在思索什么難題。
別看這個(gè)場面,看起來好像是一群泡吧的頹廢網(wǎng)癮少年。
隋波可是清楚,這幫少年們都是計(jì)算機(jī)天才!
王川直接從學(xué)校里拉了不少水木計(jì)算機(jī)國家集訓(xùn)隊(duì)的隊(duì)友來,組成項(xiàng)目團(tuán)隊(duì)攻關(guān)搜索引擎!
隋波想了想,回去找左清泉。
讓她找附近的餐廳預(yù)訂每天的飯菜,送到公司來,再買幾箱飲料、咖啡、面包餅干之類的小食品,放到幾個(gè)研發(fā)團(tuán)隊(duì)的辦公室里。
估計(jì)不僅王川團(tuán)隊(duì),龐勇、周楓他們那兒也都一樣。
這幫技術(shù)男們敲起代碼來,都是沒日沒夜的。
沒有打擾其他人的工作,他悄悄把王川叫出來,在自己辦公室里,和他專門交流研發(fā)情況。
目前搜索引擎項(xiàng)目最大的困難在于,沒有可供參考的對象。
雖然可以參考一些國外的資料和論文,但因?yàn)樯婕暗揭恍┖诵募夹g(shù),是無法通過網(wǎng)絡(luò)查找到的,都需要自行開發(fā)。
隋波點(diǎn)頭表示同意。
這個(gè)時(shí)候Google還不存在呢,要到9月份的時(shí)候,布林和佩奇才會(huì)在加州一個(gè)車庫里開始創(chuàng)業(yè)。
百度更是沒影的事兒,老李還在搜信里混呢。
現(xiàn)階段,無論是國外的Lycos、AltaVista、Infoseek(搜信),雅虎搜索引擎;還是國內(nèi)搜狐推出的所謂全中文搜索引擎,都還是以人工分類目錄為主的網(wǎng)站檢索服務(wù)。
說是搜索引擎,其實(shí)更像是目錄導(dǎo)航網(wǎng)站……
盡管其中一些搜索引擎已經(jīng)有了網(wǎng)頁關(guān)鍵詞檢索、用戶點(diǎn)擊量排序等一些創(chuàng)新,但本質(zhì)上,還是需要大量的人工編輯的目錄式搜索引擎(Directory Search Engine)。
而隋波希望王川團(tuán)隊(duì)開發(fā)的,則是全新的,通過技術(shù)程序,自動(dòng)在互聯(lián)網(wǎng)上通過超鏈接網(wǎng)頁進(jìn)行全文檢索的機(jī)器人搜索引擎(Robot Search Engine)。
這樣的話,就需要從頭做起,開發(fā)一整套完整的技術(shù)體系。
其中包括網(wǎng)絡(luò)爬蟲(Web Crawler)服務(wù)、索引服務(wù)、緩存服務(wù)、日志服務(wù)等幾大模塊,各模塊之間互相影響,構(gòu)成了整個(gè)搜索引擎體系。
從開發(fā)量上,技術(shù)難度是遠(yuǎn)遠(yuǎn)大于目錄式檢索技術(shù)的。
首先說網(wǎng)絡(luò)爬蟲,也稱網(wǎng)絡(luò)蜘蛛(Web Spider),這項(xiàng)技術(shù)是基于Web的自動(dòng)化瀏覽程序,通過網(wǎng)頁鏈接(URL),爬蟲不斷的通過互聯(lián)網(wǎng)中獲得新的網(wǎng)頁數(shù)據(jù),下載頁面數(shù)據(jù)形成后臺數(shù)據(jù)庫。
可以說,網(wǎng)絡(luò)爬蟲抓取數(shù)據(jù)是搜索引擎工作流程的第一步。
爬蟲的體系架構(gòu)直接關(guān)系到搜索引擎每天數(shù)據(jù)的采集量,而抓取策略則關(guān)系到搜索結(jié)果的數(shù)據(jù)質(zhì)量,數(shù)據(jù)的更新策略則關(guān)系到系統(tǒng)資源的利用率。
這只是第一步,采集了大量數(shù)據(jù)信息之后,還需要通過自然語言處理(NLP),將文本信息分解為結(jié)構(gòu)化數(shù)據(jù)和價(jià)值性數(shù)據(jù)。
這里面就又存在一個(gè)問題,目前國外的搜索引擎都是英文分詞,而中文比較特殊,最小單位是字,但具有語義的最小單位是詞。
所以,在中文分詞這一部分,就需要技術(shù)團(tuán)隊(duì)單獨(dú)進(jìn)行開發(fā)。
通過建立詞庫、采用條件隨機(jī)概率分布模型、詞性標(biāo)注、語義相似度、已存句法分析、情感傾向分析等,通過各種模型判斷,讓程序理解抓取到的關(guān)鍵詞中文的語義,才能提高搜索的準(zhǔn)確性和查全率。
這還只是其中比較小的開發(fā)困難。
比如,搜索引擎的核心就是通過海量數(shù)據(jù)抓取后的快速檢索,而抓取的數(shù)據(jù)越多,當(dāng)龐大的數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫里,就需要構(gòu)建快速存取數(shù)據(jù)的分布式存儲(chǔ)架構(gòu)。
再比如,為了讓用戶在最短的時(shí)間內(nèi)獲得想要的搜索結(jié)果,就需要后臺系統(tǒng)不斷的執(zhí)行數(shù)據(jù)抓取和建立索引等操作。
這就需要建立分布式實(shí)時(shí)計(jì)算系統(tǒng),以及對索引結(jié)構(gòu)的構(gòu)建……
王川估計(jì)也是最近開發(fā)中有些郁悶了,一說起來就滔滔不絕。
隋波雖然不太懂他說的一些技術(shù)術(shù)語,但畢竟前世作為用戶也使用了20多年的搜索引擎,接觸的多了,也了解一些基本的知識。
他安靜的聽著王川不斷的講述團(tuán)隊(duì)面臨的一個(gè)個(gè)困難,又是怎么想辦法克服的。
不時(shí)提問兩句,顯得聽的很認(rèn)真。
腦子里卻不斷的在回憶,當(dāng)初Google和百度是有哪些創(chuàng)新的舉措,才一舉成功的?
印象最深的,就是那句“百度更懂中文”,這應(yīng)該就是剛才王川所提的中文分詞了,這塊王川已經(jīng)考慮到了。
至于是不是更進(jìn)一步,先弄個(gè)智能輸入法出來?……
現(xiàn)在團(tuán)隊(duì)的研發(fā)壓力已經(jīng)很大了,暫時(shí)先略過不提。
還有就是百度快照,不過好像這個(gè)功能雖然對用戶而言很有價(jià)值,但爭議很大……
還有就是Google獨(dú)創(chuàng)的PageRank技術(shù)。
這是一種根據(jù)網(wǎng)頁之間的鏈接結(jié)構(gòu)來評價(jià)判斷網(wǎng)頁重要性的排序算法。
想到這里,隋波就提了一下,是否在搜索結(jié)果的排序算法上,可以采用這種模式?
從網(wǎng)頁的鏈接數(shù)量、權(quán)威性、主題相關(guān)性、網(wǎng)頁內(nèi)容的匹配性等多個(gè)方面,綜合分析,進(jìn)行搜索結(jié)果的排序。
王川聽了以后若有所思:“這個(gè)算法我回去研究一下,應(yīng)該沒問題?!?p> 隋波笑道:“技術(shù)上我沒辦法給你太大的幫助,不過我可以從公司激勵(lì)政策和后勤上為團(tuán)隊(duì)鼓勁!
你回去和大家說一下,搜索引擎項(xiàng)目的團(tuán)隊(duì)項(xiàng)目獎(jiǎng)金定在10萬,而且根據(jù)每個(gè)人的表現(xiàn),到時(shí)候還有個(gè)人獎(jiǎng)勵(lì)。
我已經(jīng)讓清泉給你們做好后勤,每天會(huì)定時(shí)讓樓下餐廳送飯菜過來。
另外給你們弄一個(gè)休息間,里面準(zhǔn)備好啤酒、咖啡、飲料和小吃,保證供應(yīng)。
嗯……,再讓她給你們辦公室里配一個(gè)沙發(fā),大家累了可以躺下休息一會(huì)。
王川,這個(gè)項(xiàng)目將會(huì)是公司除了電商平臺,最核心的業(yè)務(wù),還要你多辛苦了!”
王川點(diǎn)頭,一臉的倔強(qiáng):“波總,你放心,我有信心把這個(gè)搜索引擎搞出來!實(shí)際上每當(dāng)解決一個(gè)技術(shù)難題,大家的那種快樂都是無法言表的,公司又給我這么大的支持力度,我一定全力以赴!”
隋波拍拍他的肩膀:“我相信你,你也別著急,和團(tuán)隊(duì)成員要?jiǎng)谝萁Y(jié)合,注意休息,別搞壞了身體,我們還有足夠的時(shí)間來成長!”