導(dǎo)讀:由此可見(jiàn),此次收購(gòu)并非突然,是基于阿里巴巴長(zhǎng)期戰(zhàn)略發(fā)展的需要而為之。
1月8日,彭博社消息稱(chēng),阿里巴巴收購(gòu)了位于德國(guó)柏林的數(shù)據(jù)處理公司Data Artisans。另?yè)?jù)外媒報(bào)道,此次交易金額為1.033億美元(9000萬(wàn)歐元),Data Artisans未就此事置評(píng)。
阿里巴巴官確認(rèn)確有此項(xiàng)投資,并表示,“過(guò)去兩年,阿里巴巴一直是Apache Flink最大貢獻(xiàn)者之一。阿里巴巴將和Data Artisans一起持續(xù)為所有Flink社區(qū)用戶(hù)、合作伙伴和開(kāi)發(fā)者提供更多支持,致力于不斷投資技術(shù)和未來(lái)”,但對(duì)具體金額不作評(píng)論。
Data Artisan 成立于2014年,專(zhuān)門(mén)提供為公司企業(yè)部署大規(guī)模數(shù)據(jù)處理解決方案的服務(wù)。該公司的解決方案可以實(shí)時(shí)管理和部署這類(lèi)數(shù)據(jù),以便客戶(hù)更合理更快速地做出決策。Data Artisans由開(kāi)源數(shù)據(jù)流處理技術(shù)Apache Fink的幾位開(kāi)發(fā)者創(chuàng)辦。
阿里巴巴為什么選擇Apache Flink?
此次收購(gòu),其實(shí)可從阿里巴巴與Apache Flink的不解之緣看出端倪。阿里巴巴計(jì)算平臺(tái)事業(yè)部資深技術(shù)專(zhuān)家莫問(wèn)曾在云棲大會(huì)上發(fā)表演講《阿里巴巴為什么選擇Apache Flink?》,或?yàn)榇舜问召?gòu)埋下了伏筆。
阿里選擇Flink的背景和初衷
隨著人工智能時(shí)代的降臨,數(shù)據(jù)量的爆發(fā),在典型的大數(shù)據(jù)的業(yè)務(wù)場(chǎng)景下數(shù)據(jù)業(yè)務(wù)最通用的做法是:選用批處理的技術(shù)處理全量數(shù)據(jù),采用流式計(jì)算處理實(shí)時(shí)增量數(shù)據(jù)。在絕大多數(shù)的業(yè)務(wù)場(chǎng)景之下,用戶(hù)的業(yè)務(wù)邏輯在批處理和流處理之中往往是相同的。但是,用戶(hù)用于批處理和流處理的兩套計(jì)算引擎是不同的。
因此,用戶(hù)通常需要寫(xiě)兩套代碼。毫無(wú)疑問(wèn),這帶來(lái)了一些額外的負(fù)擔(dān)和成本。阿里巴巴的商品數(shù)據(jù)處理就經(jīng)常需要面對(duì)增量和全量?jī)商撞煌臉I(yè)務(wù)流程問(wèn)題,所以阿里就在想,我們能不能有一套統(tǒng)一的大數(shù)據(jù)引擎技術(shù),用戶(hù)只需要根據(jù)自己的業(yè)務(wù)邏輯開(kāi)發(fā)一套代碼。這樣在各種不同的場(chǎng)景下,不管是全量數(shù)據(jù)還是增量數(shù)據(jù),亦或者實(shí)時(shí)處理,一套方案即可全部支持,這就是阿里選擇Flink的背景和初衷。
Flink的誕生
Flink誕生于歐洲的一個(gè)大數(shù)據(jù)研究項(xiàng)目StratoSphere。該項(xiàng)目是柏林工業(yè)大學(xué)的一個(gè)研究性項(xiàng)目。早期,F(xiàn)link是做Batch計(jì)算的,但是在2014年,StratoSphere里面的核心成員孵化出Flink,同年將Flink捐贈(zèng)Apache,并在后來(lái)成為Apache的頂級(jí)大數(shù)據(jù)項(xiàng)目,同時(shí)Flink計(jì)算的主流方向被定位為Streaming,即用流式計(jì)算來(lái)做所有大數(shù)據(jù)的計(jì)算,這就是Flink技術(shù)誕生的背景。
2014年Flink作為主攻流計(jì)算的大數(shù)據(jù)引擎開(kāi)始在開(kāi)源大數(shù)據(jù)行業(yè)內(nèi)嶄露頭角。區(qū)別于Storm、Spark Streaming以及其他流式計(jì)算引擎的是:它不僅是一個(gè)高吞吐、低延遲的計(jì)算引擎,同時(shí)還提供很多高級(jí)的功能。比如它提供了有狀態(tài)的計(jì)算,支持狀態(tài)管理,支持強(qiáng)一致性的數(shù)據(jù)語(yǔ)義以及支持Event Time,WaterMark對(duì)消息亂序的處理。
Flink在阿里的現(xiàn)狀
Flink是一個(gè)低延遲、高吞吐、統(tǒng)一的大數(shù)據(jù)計(jì)算引擎。在阿里巴巴的生產(chǎn)環(huán)境中,F(xiàn)link的計(jì)算平臺(tái)可以實(shí)現(xiàn)毫秒級(jí)的延遲情況下,每秒鐘處理上億次的消息或者事件。同時(shí)Flink提供了一個(gè)Exactly-once的一致性語(yǔ)義。保證了數(shù)據(jù)的正確性。這樣就使得Flink大數(shù)據(jù)引擎可以提供金融級(jí)的數(shù)據(jù)處理能力。
基于Apache Flink在阿里巴巴搭建的平臺(tái)于2016年正式上線(xiàn),并從阿里巴巴的搜索和推薦這兩大場(chǎng)景開(kāi)始實(shí)現(xiàn)。目前阿里巴巴所有的業(yè)務(wù),包括阿里巴巴所有子公司都采用了基于Flink搭建的實(shí)時(shí)計(jì)算平臺(tái)。同時(shí)Flink計(jì)算平臺(tái)運(yùn)行在開(kāi)源的Hadoop集群之上。采用Hadoop的YARN做為資源管理調(diào)度,以 HDFS作為數(shù)據(jù)存儲(chǔ)。因此,F(xiàn)link可以和開(kāi)源大數(shù)據(jù)軟件Hadoop無(wú)縫對(duì)接。
目前,這套基于Flink搭建的實(shí)時(shí)計(jì)算平臺(tái)不僅服務(wù)于阿里巴巴集團(tuán)內(nèi)部,而且通過(guò)阿里云的云產(chǎn)品API向整個(gè)開(kāi)發(fā)者生態(tài)提供基于Flink的云產(chǎn)品支持。
阿里巴巴自2015 年開(kāi)始改進(jìn)Flink,并創(chuàng)建了內(nèi)部分支Blink,目前服務(wù)于阿里集團(tuán)內(nèi)部搜索、推薦、廣告和螞蟻等大量核心實(shí)時(shí)業(yè)務(wù)。12 月20 日,由阿里巴巴承辦的Flink Forward China 峰會(huì)在北京國(guó)家會(huì)議中心召開(kāi),來(lái)自阿里、華為、騰訊、美團(tuán)點(diǎn)評(píng)、滴滴、字節(jié)跳動(dòng)等公司的技術(shù)專(zhuān)家與參會(huì)者分享了各公司基于Flink 的應(yīng)用和實(shí)踐經(jīng)驗(yàn)。在大會(huì)的主題演講上,阿里巴巴集團(tuán)副總裁周靖人宣布,阿里巴巴內(nèi)部Flink 版本Blink 將于2019 年1 月正式開(kāi)源,之后會(huì)經(jīng)過(guò)社區(qū)討論合并回Flink。
由此可見(jiàn),此次收購(gòu)并非突然,是基于阿里巴巴長(zhǎng)期戰(zhàn)略發(fā)展的需要而為之。