go語言業(yè)務(wù)邏輯 go是什么語言編程

如何實現(xiàn)支持數(shù)億用戶的長連消息系統(tǒng)

此文是根據(jù)周洋在【高可用架構(gòu)群】中的分享內(nèi)容整理而成,轉(zhuǎn)發(fā)請注明出處。

創(chuàng)新互聯(lián)主要從事成都做網(wǎng)站、成都網(wǎng)站建設(shè)、網(wǎng)頁設(shè)計、企業(yè)做網(wǎng)站、公司建網(wǎng)站等業(yè)務(wù)。立足成都服務(wù)平湖,十多年網(wǎng)站建設(shè)經(jīng)驗,價格優(yōu)惠、服務(wù)專業(yè),歡迎來電咨詢建站服務(wù):18980820575

周洋,360手機助手技術(shù)經(jīng)理及架構(gòu)師,負責(zé)360長連接消息系統(tǒng),360手機助手架構(gòu)的開發(fā)與維護。

不知道咱們?nèi)好裁磿r候改為“Python高可用架構(gòu)群”了,所以不得不說,很榮幸能在接下來的一個小時里在Python群里討論golang....

360消息系統(tǒng)介紹

360消息系統(tǒng)更確切的說是長連接push系統(tǒng),目前服務(wù)于360內(nèi)部多個產(chǎn)品,開發(fā)平臺數(shù)千款app,也支持部分聊天業(yè)務(wù)場景,單通道多app復(fù)用,支持上行數(shù)據(jù),提供接入方不同粒度的上行數(shù)據(jù)和用戶狀態(tài)回調(diào)服務(wù)。

目前整個系統(tǒng)按不同業(yè)務(wù)分成9個功能完整的集群,部署在多個idc上(每個集群覆蓋不同的idc),實時在線數(shù)億量級。通常情況下,pc,手機,甚至是智能硬件上的360產(chǎn)品的push消息,基本上是從我們系統(tǒng)發(fā)出的。

關(guān)于push系統(tǒng)對比與性能指標的討論

很多同行比較關(guān)心go語言在實現(xiàn)push系統(tǒng)上的性能問題,單機性能究竟如何,能否和其他語言實現(xiàn)的類似系統(tǒng)做對比么?甚至問如果是創(chuàng)業(yè),第三方云推送平臺,推薦哪個?

其實各大廠都有類似的push系統(tǒng),市場上也有類似功能的云服務(wù)。包括我們公司早期也有erlang,nodejs實現(xiàn)的類似系統(tǒng),也一度被公司要求做類似的對比測試。我感覺在討論對比數(shù)據(jù)的時候,很難保證大家環(huán)境和需求的統(tǒng)一,我只能說下我這里的體會,數(shù)據(jù)是有的,但這個數(shù)據(jù)前面估計會有很多定語~

第一個重要指標:單機的連接數(shù)指標

做過長連接的同行,應(yīng)該有體會,如果在穩(wěn)定連接情況下,連接數(shù)這個指標,在沒有網(wǎng)絡(luò)吞吐情況下對比,其實意義往往不大,維持連接消耗cpu資源很小,每條連接tcp協(xié)議棧會占約4k的內(nèi)存開銷,系統(tǒng)參數(shù)調(diào)整后,我們單機測試數(shù)據(jù),最高也是可以達到單實例300w長連接。但做更高的測試,我個人感覺意義不大。

因為實際網(wǎng)絡(luò)環(huán)境下,單實例300w長連接,從理論上算壓力就很大:實際弱網(wǎng)絡(luò)環(huán)境下,移動客戶端的斷線率很高,假設(shè)每秒有1000分之一的用戶斷線重連。300w長連接,每秒新建連接達到3w,這同時連入的3w用戶,要進行注冊,加載離線存儲等對內(nèi)rpc調(diào)用,另外300w長連接的用戶心跳需要維持,假設(shè)心跳300s一次,心跳包每秒需要1w tps。單播和多播數(shù)據(jù)的轉(zhuǎn)發(fā),廣播數(shù)據(jù)的轉(zhuǎn)發(fā),本身也要響應(yīng)內(nèi)部的rpc調(diào)用,300w長連接情況下,gc帶來的壓力,內(nèi)部接口的響應(yīng)延遲能否穩(wěn)定保障。這些集中在一個實例中,可用性是一個挑戰(zhàn)。所以線上單實例不會hold很高的長連接,實際情況也要根據(jù)接入客戶端網(wǎng)絡(luò)狀況來決定。

第二個重要指標:消息系統(tǒng)的內(nèi)存使用量指標

這一點上,使用go語言情況下,由于協(xié)程的原因,會有一部分額外開銷。但是要做兩個推送系統(tǒng)的對比,也有些需要確定問題。比如系統(tǒng)從設(shè)計上是否需要全雙工(即讀寫是否需要同時進行)如果半雙工,理論上對一個用戶的連接只需要使用一個協(xié)程即可(這種情況下,對用戶的斷線檢測可能會有延時),如果是全雙工,那讀/寫各一個協(xié)程。兩種場景內(nèi)存開銷是有區(qū)別的。

另外測試數(shù)據(jù)的大小往往決定我們對連接上設(shè)置的讀寫buffer是多大,是全局復(fù)用的,還是每個連接上獨享的,還是動態(tài)申請的。另外是否全雙工也決定buffer怎么開。不同的策略,可能在不同情況的測試中表現(xiàn)不一樣。

第三個重要指標:每秒消息下發(fā)量

這一點上,也要看我們對消息到達的QoS級別(回復(fù)ack策略區(qū)別),另外看架構(gòu)策略,每種策略有其更適用的場景,是純粹推?還是推拉結(jié)合?甚至是否開啟了消息日志?日志庫的實現(xiàn)機制、以及緩沖開多大?flush策略……這些都影響整個系統(tǒng)的吞吐量。

另外為了HA,增加了內(nèi)部通信成本,為了避免一些小概率事件,提供閃斷補償策略,這些都要考慮進去。如果所有的都去掉,那就是比較基礎(chǔ)庫的性能了。

所以我只能給出大概數(shù)據(jù),24核,64G的服務(wù)器上,在QoS為message at least,純粹推,消息體256B~1kB情況下,單個實例100w實際用戶(200w+)協(xié)程,峰值可以達到2~5w的QPS...內(nèi)存可以穩(wěn)定在25G左右,gc時間在200~800ms左右(還有優(yōu)化空間)。

我們正常線上單實例用戶控制在80w以內(nèi),單機最多兩個實例。事實上,整個系統(tǒng)在推送的需求上,對高峰的輸出不是提速,往往是進行限速,以防push系統(tǒng)瞬時的高吞吐量,轉(zhuǎn)化成對接入方業(yè)務(wù)服務(wù)器的ddos攻擊所以對于性能上,我感覺大家可以放心使用,至少在我們這個量級上,經(jīng)受過考驗,go1.5到來后,確實有之前投資又增值了的感覺。

消息系統(tǒng)架構(gòu)介紹

下面是對消息系統(tǒng)的大概介紹,之前一些同學(xué)可能在gopher china上可以看到分享,這里簡單講解下架構(gòu)和各個組件功能,額外補充一些當時遺漏的信息:

架構(gòu)圖如下,所有的service都 written by golang.

幾個大概重要組件介紹如下:

dispatcher service根據(jù)客戶端請求信息,將應(yīng)網(wǎng)絡(luò)和區(qū)域的長連接服務(wù)器的,一組IP傳送給客戶端??蛻舳烁鶕?jù)返回的IP,建立長連接,連接Room service.

room Service,長連接網(wǎng)關(guān),hold用戶連接,并將用戶注冊進register service,本身也做一些接入安全策略、白名單、IP限制等。

register service是我們?nèi)謘ession存儲組件,存儲和索引用戶的相關(guān)信息,以供獲取和查詢。

coordinator service用來轉(zhuǎn)發(fā)用戶的上行數(shù)據(jù),包括接入方訂閱的用戶狀態(tài)信息的回調(diào),另外做需要協(xié)調(diào)各個組件的異步操作,比如kick用戶操作,需要從register拿出其他用戶做異步操作.

saver service是存儲訪問層,承擔(dān)了對redis和mysql的操作,另外也提供部分業(yè)務(wù)邏輯相關(guān)的內(nèi)存緩存,比如廣播信息的加載可以在saver中進行緩存。另外一些策略,比如客戶端sdk由于被惡意或者意外修改,每次加載了消息,不回復(fù)ack,那服務(wù)端就不會刪除消息,消息就會被反復(fù)加載,形成死循環(huán),可以通過在saver中做策略和判斷。(客戶端總是不可信的)。

center service提供給接入方的內(nèi)部api服務(wù)器,比如單播或者廣播接口,狀態(tài)查詢接口等一系列api,包括運維和管理的api。

舉兩個常見例子,了解工作機制:比如發(fā)一條單播給一個用戶,center先請求Register獲取這個用戶之前注冊的連接通道標識、room實例地址,通過room service下發(fā)給長連接 Center Service比較重的工作如全網(wǎng)廣播,需要把所有的任務(wù)分解成一系列的子任務(wù),分發(fā)給所有center,然后在所有的子任務(wù)里,分別獲取在線和離線的所有用戶,再批量推到Room Service。通常整個集群在那一瞬間壓力很大。

deployd/agent service用于部署管理各個進程,收集各組件的狀態(tài)和信息,zookeeper和keeper用于整個系統(tǒng)的配置文件管理和簡單調(diào)度

關(guān)于推送的服務(wù)端架構(gòu)

常見的推送模型有長輪訓(xùn)拉取,服務(wù)端直接推送(360消息系統(tǒng)目前主要是這種),推拉結(jié)合(推送只發(fā)通知,推送后根據(jù)通知去拉取消息).

拉取的方式不說了,現(xiàn)在并不常用了,早期很多是nginx+lua+redis,長輪訓(xùn),主要問題是開銷比較大,時效性也不好,能做的優(yōu)化策略不多。

直接推送的系統(tǒng),目前就是360消息系統(tǒng)這種,消息類型是消耗型的,并且對于同一個用戶并不允許重復(fù)消耗,如果需要多終端重復(fù)消耗,需要抽象成不同用戶。

推的好處是實時性好,開銷小,直接將消息下發(fā)給客戶端,不需要客戶端走從接入層到存儲層主動拉取.

但純推送模型,有個很大問題,由于系統(tǒng)是異步的,他的時序性無法精確保證。這對于push需求來說是夠用的,但如果復(fù)用推送系統(tǒng)做im類型通信,可能并不合適。

對于嚴格要求時序性,消息可以重復(fù)消耗的系統(tǒng),目前也都是走推拉結(jié)合的模型,就是只使用我們的推送系統(tǒng)發(fā)通知,并附帶id等給客戶端做拉取的判斷策略,客戶端根據(jù)推送的key,主動從業(yè)務(wù)服務(wù)器拉取消息。并且當主從同步延遲的時候,跟進推送的key做延遲拉取策略。同時也可以通過消息本身的QoS,做純粹的推送策略,比如一些“正在打字的”低優(yōu)先級消息,不需要主動拉取了,通過推送直接消耗掉。

哪些因素決定推送系統(tǒng)的效果?

首先是sdk的完善程度,sdk策略和細節(jié)完善度,往往決定了弱網(wǎng)絡(luò)環(huán)境下最終推送質(zhì)量.

SDK選路策略,最基本的一些策略如下:有些開源服務(wù)可能會針對用戶hash一個該接入?yún)^(qū)域的固定ip,實際上在國內(nèi)環(huán)境下不可行,最好分配器(dispatcher)是返回散列的一組,而且端口也要參開,必要時候,客戶端告知是retry多組都連不上,返回不同idc的服務(wù)器。因為我們會經(jīng)常檢測到一些case,同一地區(qū)的不同用戶,可能對同一idc內(nèi)的不同ip連通性都不一樣,也出現(xiàn)過同一ip不同端口連通性不同,所以用戶的選路策略一定要靈活,策略要足夠完善.另外在選路過程中,客戶端要對不同網(wǎng)絡(luò)情況下的長連接ip做緩存,當網(wǎng)絡(luò)環(huán)境切換時候(wifi、2G、3G),重新請求分配器,緩存不同網(wǎng)絡(luò)環(huán)境的長連接ip。

客戶端對于數(shù)據(jù)心跳和讀寫超時設(shè)置,完善斷線檢測重連機制

針對不同網(wǎng)絡(luò)環(huán)境,或者客戶端本身消息的活躍程度,心跳要自適應(yīng)的進行調(diào)整并與服務(wù)端協(xié)商,來保證鏈路的連通性。并且在弱網(wǎng)絡(luò)環(huán)境下,除了網(wǎng)絡(luò)切換(wifi切3G)或者讀寫出錯情況,什么時候重新建立鏈路也是一個問題??蛻舳税l(fā)出的ping包,不同網(wǎng)絡(luò)下,多久沒有得到響應(yīng),認為網(wǎng)絡(luò)出現(xiàn)問題,重新建立鏈路需要有個權(quán)衡。另外對于不同網(wǎng)絡(luò)環(huán)境下,讀取不同的消息長度,也要有不同的容忍時間,不能一刀切。好的心跳和讀寫超時設(shè)置,可以讓客戶端最快的檢測到網(wǎng)絡(luò)問題,重新建立鏈路,同時在網(wǎng)絡(luò)抖動情況下也能完成大數(shù)據(jù)傳輸。

結(jié)合服務(wù)端做策略

另外系統(tǒng)可能結(jié)合服務(wù)端做一些特殊的策略,比如我們在選路時候,我們會將同一個用戶盡量映射到同一個room service實例上。斷線時,客戶端盡量對上次連接成功的地址進行重試。主要是方便服務(wù)端做閃斷情況下策略,會暫存用戶閃斷時實例上的信息,重新連入的 時候,做單實例內(nèi)的遷移,減少延時與加載開銷.

客戶端保活策略

很多創(chuàng)業(yè)公司愿意重新搭建一套push系統(tǒng),確實不難實現(xiàn),其實在協(xié)議完備情況下(最簡單就是客戶端不回ack不清數(shù)據(jù)),服務(wù)端會保證消息是不丟的。但問題是為什么在消息有效期內(nèi),到達率上不去?往往因為自己app的push service存活能力不高。選用云平臺或者大廠的,往往sdk會做一些?;畈呗裕热绾推渌鸻pp共生,互相喚醒,這也是云平臺的push service更有保障原因。我相信很多云平臺旗下的sdk,多個使用同樣sdk的app,為了實現(xiàn)服務(wù)存活,是可以互相喚醒和保證活躍的。另外現(xiàn)在push sdk本身是單連接,多app復(fù)用的,這為sdk實現(xiàn),增加了新的挑戰(zhàn)。

綜上,對我來說,選擇推送平臺,優(yōu)先會考慮客戶端sdk的完善程度。對于服務(wù)端,選擇條件稍微簡單,要求部署接入點(IDC)越要多,配合精細的選路策略,效果越有保證,至于想知道哪些云服務(wù)有多少點,這個群里來自各地的小伙伴們,可以合伙測測。

go語言開發(fā)問題與解決方案

下面講下,go開發(fā)過程中遇到挑戰(zhàn)和優(yōu)化策略,給大家看下當年的一張圖,在第一版優(yōu)化方案上線前一天截圖~

可以看到,內(nèi)存最高占用69G,GC時間單實例最高時候高達3~6s.這種情況下,試想一次悲劇的請求,經(jīng)過了幾個正在執(zhí)行g(shù)c的組件,后果必然是超時... gc照成的接入方重試,又加重了系統(tǒng)的負擔(dān)。遇到這種情況當時整個系統(tǒng)最差情況每隔2,3天就需要重啟一次~

當時出現(xiàn)問題,現(xiàn)在總結(jié)起來,大概以下幾點

1.散落在協(xié)程里的I/O,Buffer和對象不復(fù)用。

當時(12年)由于對go的gc效率理解有限,比較奔放,程序里大量short live的協(xié)程,對內(nèi)通信的很多io操作,由于不想阻塞主循環(huán)邏輯或者需要及時響應(yīng)的邏輯,通過單獨go協(xié)程來實現(xiàn)異步。這回會gc帶來很多負擔(dān)。

針對這個問題,應(yīng)盡量控制協(xié)程創(chuàng)建,對于長連接這種應(yīng)用,本身已經(jīng)有幾百萬并發(fā)協(xié)程情況下,很多情況沒必要在各個并發(fā)協(xié)程內(nèi)部做異步io,因為程序的并行度是有限,理論上做協(xié)程內(nèi)做阻塞操作是沒問題。

如果有些需要異步執(zhí)行,比如如果不異步執(zhí)行,影響對用戶心跳或者等待response無法響應(yīng),最好通過一個任務(wù)池,和一組常駐協(xié)程,來消耗,處理結(jié)果,通過channel再傳回調(diào)用方。使用任務(wù)池還有額外的好處,可以對請求進行打包處理,提高吞吐量,并且可以加入控量策略.

2.網(wǎng)絡(luò)環(huán)境不好引起激增

go協(xié)程相比較以往高并發(fā)程序,如果做不好流控,會引起協(xié)程數(shù)量激增。早期的時候也會發(fā)現(xiàn),時不時有部分主機內(nèi)存會遠遠大于其他服務(wù)器,但發(fā)現(xiàn)時候,所有主要profiling參數(shù)都正常了。

后來發(fā)現(xiàn),通信較多系統(tǒng)中,網(wǎng)絡(luò)抖動阻塞是不可免的(即使是內(nèi)網(wǎng)),對外不停accept接受新請求,但執(zhí)行過程中,由于對內(nèi)通信阻塞,大量協(xié)程被 創(chuàng)建,業(yè)務(wù)協(xié)程等待通信結(jié)果沒有釋放,往往瞬時會迎來協(xié)程暴漲。但這些內(nèi)存在系統(tǒng)穩(wěn)定后,virt和res都并沒能徹底釋放,下降后,維持高位。

處理這種情況,需要增加一些流控策略,流控策略可以選擇在rpc庫來做,或者上面說的任務(wù)池來做,其實我感覺放在任務(wù)池里做更合理些,畢竟rpc通信庫可以做讀寫數(shù)據(jù)的限流,但它并不清楚具體的限流策略,到底是重試還是日志還是緩存到指定隊列。任務(wù)池本身就是業(yè)務(wù)邏輯相關(guān)的,它清楚針對不同的接口需要的流控限制策略。

3.低效和開銷大的rpc框架

早期rpc通信框架比較簡單,對內(nèi)通信時候使用的也是短連接。這本來短連接開銷和性能瓶頸超出我們預(yù)期,短連接io效率是低一些,但端口資源夠,本身吞吐可以滿足需要,用是沒問題的,很多分層的系統(tǒng),也有http短連接對內(nèi)進行請求的

但早期go版本,這樣寫程序,在一定量級情況,是支撐不住的。短連接大量臨時對象和臨時buffer創(chuàng)建,在本已經(jīng)百萬協(xié)程的程序中,是無法承受的。所以后續(xù)我們對我們的rpc框架作了兩次調(diào)整。

第二版的rpc框架,使用了連接池,通過長連接對內(nèi)進行通信(復(fù)用的資源包括client和server的:編解碼Buffer、Request/response),大大改善了性能。

但這種在一次request和response還是占用連接的,如果網(wǎng)絡(luò)狀況ok情況下,這不是問題,足夠滿足需要了,但試想一個room實例要與后面的數(shù)百個的register,coordinator,saver,center,keeper實例進行通信,需要建立大量的常駐連接,每個目標機幾十個連接,也有數(shù)千個連接被占用。

非持續(xù)抖動時候(持續(xù)逗開多少無解),或者有延遲較高的請求時候,如果針對目標ip連接開少了,會有瞬時大量請求阻塞,連接無法得到充分利用。第三版增加了Pipeline操作,Pipeline會帶來一些額外的開銷,利用tcp的全雙特性,以盡量少的連接完成對各個服務(wù)集群的rpc調(diào)用。

4.Gc時間過長

Go的Gc仍舊在持續(xù)改善中,大量對象和buffer創(chuàng)建,仍舊會給gc帶來很大負擔(dān),尤其一個占用了25G左右的程序。之前go team的大咖郵件也告知我們,未來會讓使用協(xié)程的成本更低,理論上不需要在應(yīng)用層做更多的策略來緩解gc.

改善方式,一種是多實例的拆分,如果公司沒有端口限制,可以很快部署大量實例,減少gc時長,最直接方法。不過對于360來說,外網(wǎng)通常只能使用80和433。因此常規(guī)上只能開啟兩個實例。當然很多人給我建議能否使用SO_REUSEPORT,不過我們內(nèi)核版本確實比較低,并沒有實踐過。

另外能否模仿nginx,fork多個進程監(jiān)控同樣端口,至少我們目前沒有這樣做,主要對于我們目前進程管理上,還是獨立的運行的,對外監(jiān)聽不同端口程序,還有配套的內(nèi)部通信和管理端口,實例管理和升級上要做調(diào)整。

解決gc的另兩個手段,是內(nèi)存池和對象池,不過最好做仔細評估和測試,內(nèi)存池、對象池使用,也需要對于代碼可讀性與整體效率進行權(quán)衡。

這種程序一定情況下會降低并行度,因為用池內(nèi)資源一定要加互斥鎖或者原子操作做CAS,通常原子操作實測要更快一些。CAS可以理解為可操作的更細行為粒度的鎖(可以做更多CAS策略,放棄運行,防止忙等)。這種方式帶來的問題是,程序的可讀性會越來越像C語言,每次要malloc,各地方用完后要free,對于對象池free之前要reset,我曾經(jīng)在應(yīng)用層嘗試做了一個分層次結(jié)構(gòu)的“無鎖隊列”

上圖左邊的數(shù)組實際上是一個列表,這個列表按大小將內(nèi)存分塊,然后使用atomic操作進行CAS。但實際要看測試數(shù)據(jù)了,池技術(shù)可以明顯減少臨時對象和內(nèi)存的申請和釋放,gc時間會減少,但加鎖帶來的并行度的降低,是否能給一段時間內(nèi)的整體吞吐量帶來提升,要做測試和權(quán)衡…

在我們消息系統(tǒng),實際上后續(xù)去除了部分這種黑科技,試想在百萬個協(xié)程里面做自旋操作申請復(fù)用的buffer和對象,開銷會很大,尤其在協(xié)程對線程多對多模型情況下,更依賴于golang本身調(diào)度策略,除非我對池增加更多的策略處理,減少忙等,感覺是在把runtime做的事情,在應(yīng)用層非常不優(yōu)雅的實現(xiàn)。普遍使用開銷理論就大于收益。

但對于rpc庫或者codec庫,任務(wù)池內(nèi)部,這些開定量協(xié)程,集中處理數(shù)據(jù)的區(qū)域,可以嘗試改造~

對于有些固定對象復(fù)用,比如固定的心跳包什么的,可以考慮使用全局一些對象,進行復(fù)用,針對應(yīng)用層數(shù)據(jù),具體設(shè)計對象池,在部分環(huán)節(jié)去復(fù)用,可能比這種無差別的設(shè)計一個通用池更能進行效果評估.

消息系統(tǒng)的運維及測試

下面介紹消息系統(tǒng)的架構(gòu)迭代和一些迭代經(jīng)驗,由于之前在其他地方有過分享,后面的會給出相關(guān)鏈接,下面實際做個簡單介紹,感興趣可以去鏈接里面看

架構(gòu)迭代~根據(jù)業(yè)務(wù)和集群的拆分,能解決部分灰度部署上線測試,減少點對點通信和廣播通信不同產(chǎn)品的相互影響,針對特定的功能做獨立的優(yōu)化.

消息系統(tǒng)架構(gòu)和集群拆分,最基本的是拆分多實例,其次是按照業(yè)務(wù)類型對資源占用情況分類,按用戶接入網(wǎng)絡(luò)和對idc布點要求分類(目前沒有條件,所有的產(chǎn)品都部署到全部idc)

系統(tǒng)的測試go語言在并發(fā)測試上有獨特優(yōu)勢。

對于壓力測試,目前主要針對指定的服務(wù)器,選定線上空閑的服務(wù)器做長連接壓測。然后結(jié)合可視化,分析壓測過程中的系統(tǒng)狀態(tài)。但壓測早期用的比較多,但實現(xiàn)的統(tǒng)計報表功能和我理想有一定差距。我覺得最近出的golang開源產(chǎn)品都符合這種場景,go寫網(wǎng)絡(luò)并發(fā)程序給大家?guī)淼谋憷尨蠹野岩酝鶠榱私档蛷?fù)雜度,拆解或者分層協(xié)作的組件,又組合在了一起。

QA

Q1:協(xié)議棧大小,超時時間定制原則?

移動網(wǎng)絡(luò)下超時時間按產(chǎn)品需求通常2g,3G情況下是5分鐘,wifi情況下5~8分鐘。但對于個別場景,要求響應(yīng)非常迅速的場景,如果連接idle超過1分鐘,都會有ping,pong,來校驗是否斷線檢測,盡快做到重新連接。

Q2:消息是否持久化?

消息持久化,通常是先存后發(fā),存儲用的redis,但落地用的mysql。mysql只做故障恢復(fù)使用。

Q3:消息風(fēng)暴怎么解決的?

如果是發(fā)送情況下,普通產(chǎn)品是不需要限速的,對于較大產(chǎn)品是有發(fā)送隊列做控速度,按人數(shù),按秒進行控速度發(fā)放,發(fā)送成功再發(fā)送下一條。

Q4:golang的工具鏈支持怎么樣?我自己寫過一些小程序千把行之內(nèi),確實很不錯,但不知道代碼量上去之后,配套的debug工具和profiling工具如何,我看上邊有分享說golang自帶的profiling工具還不錯,那debug呢怎么樣呢,官方一直沒有出debug工具,gdb支持也不完善,不知你們用的什么?

是這樣的,我們正常就是println,我感覺基本上可以定位我所有問題,但也不排除由于并行性通過println無法復(fù)現(xiàn)的問題,目前來看只能靠經(jīng)驗了。只要常見并發(fā)嘗試,經(jīng)過分析是可以找到的。go很快會推出調(diào)試工具的~

Q5:協(xié)議棧是基于tcp嗎?

是否有協(xié)議拓展功能?協(xié)議棧是tcp,整個系統(tǒng)tcp長連接,沒有考慮擴展其功能~如果有好的經(jīng)驗,可以分享~

Q6:問個問題,這個系統(tǒng)是接收上行數(shù)據(jù)的吧,系統(tǒng)接收上行數(shù)據(jù)后是轉(zhuǎn)發(fā)給相應(yīng)系統(tǒng)做處理么,是怎么轉(zhuǎn)發(fā)呢,如果需要給客戶端返回調(diào)用結(jié)果又是怎么處理呢?

系統(tǒng)上行數(shù)據(jù)是根據(jù)協(xié)議頭進行轉(zhuǎn)發(fā),協(xié)議頭里面標記了產(chǎn)品和轉(zhuǎn)發(fā)類型,在coordinator里面跟進產(chǎn)品和轉(zhuǎn)發(fā)類型,回調(diào)用戶,如果用戶需要阻塞等待回復(fù)才能后續(xù)操作,那通過再發(fā)送消息,路由回用戶。因為整個系統(tǒng)是全異步的。

Q7:問個pushsdk的問題。pushsdk的單連接,多app復(fù)用方式,這樣的情況下以下幾個問題是如何解決的:1)系統(tǒng)流量統(tǒng)計會把所有流量都算到啟動連接的應(yīng)用吧?而啟動應(yīng)用的連接是不固定的吧?2)同一個pushsdk在不同的應(yīng)用中的版本號可能不一樣,這樣暴露出來的接口可能有版本問題,如果用單連接模式怎么解決?

流量只能算在啟動的app上了,但一般這種安裝率很高的app承擔(dān)可能性大,常用app本身被檢測和殺死可能性較少,另外消息下發(fā)量是有嚴格控制 的。整體上用戶還是省電和省流量的。我們pushsdk盡量向上兼容,出于這個目的,push sdk本身做的工作非常有限,抽象出來一些常見的功能,純推的系統(tǒng),客戶端策略目前做的很少,也有這個原因。

Q8:生產(chǎn)系統(tǒng)的profiling是一直打開的么?

不是一直打開,每個集群都有采樣,但需要開啟哪個可以后臺控制。這個profling是通過接口調(diào)用。

Q9:面前系統(tǒng)中的消息消費者可不可以分組?類似于Kafka。

客戶端可以訂閱不同產(chǎn)品的消息,接受不同的分組。接入的時候進行bind或者unbind操作

Q10:為什么放棄erlang,而選擇go,有什么特別原因嗎?我們現(xiàn)在用的erlang?

erlang沒有問題,原因是我們上線后,其他團隊才做出來,經(jīng)過qa一個部門對比測試,在沒有顯著性能提升下,選擇繼續(xù)使用go版本的push,作為公司基礎(chǔ)服務(wù)。

Q11:流控問題有排查過網(wǎng)卡配置導(dǎo)致的idle問題嗎?

流控是業(yè)務(wù)級別的流控,我們上線前對于內(nèi)網(wǎng)的極限通信量做了測試,后續(xù)將請求在rpc庫內(nèi),控制在小于內(nèi)部通信開銷的上限以下.在到達上限前作流控。

Q12:服務(wù)的協(xié)調(diào)調(diào)度為什么選擇zk有考慮過raft實現(xiàn)嗎?golang的raft實現(xiàn)很多啊,比如Consul和ectd之類的。

3年前,還沒有后兩者或者后兩者沒聽過應(yīng)該。zk當時公司內(nèi)部成熟方案,不過目前來看,我們不準備用zk作結(jié)合系統(tǒng)的定制開發(fā),準備用自己寫的keeper代替zk,完成配置文件自動轉(zhuǎn)數(shù)據(jù)結(jié)構(gòu),數(shù)據(jù)結(jié)構(gòu)自動同步指定進程,同時里面可以完成很多自定義的發(fā)現(xiàn)和控制策略,客戶端包含keeper的sdk就可以實現(xiàn)以上的所有監(jiān)控數(shù)據(jù),profling數(shù)據(jù)收集,配置文件更新,啟動關(guān)閉等回調(diào)。完全抽象成語keeper通信sdk,keeper之間考慮用raft。

Q13:負載策略是否同時在服務(wù)側(cè)與CLIENT側(cè)同時做的 (DISPATCHER 會返回一組IP)?另外,ROOM SERVER/REGISTER SERVER連接狀態(tài)的一致性|可用性如何保證? 服務(wù)側(cè)?;钣袩o特別關(guān)注的地方? 安全性方面是基于TLS再加上應(yīng)用層加密?

會在server端做,比如重啟操作前,會下發(fā)指令類型消息,讓客戶端進行主動行為。部分消息使用了加密策略,自定義的rsa+des,另外滿足我們安全公司的需要,也定制開發(fā)很多安全加密策略。一致性是通過冷備解決的,早期考慮雙寫,但實時狀態(tài)雙寫同步代價太高而且容易有臟數(shù)據(jù),比如register掛了,調(diào)用所有room,通過重新刷入指定register來解決。

Q14:這個keeper有開源打算嗎?

還在寫,如果沒耦合我們系統(tǒng)太多功能,一定會開源的,主要這意味著,我們所有的bind在sdk的庫也需要開源~

Q15:比較好奇lisence是哪個如果開源?

Go語言的優(yōu)勢有哪些

1. 部署簡單

Go

編譯生成的是一個靜態(tài)可執(zhí)行文件,除了glibc外沒有其他外部依賴。這讓部署變得異常方便:目標機器上只需要一個基礎(chǔ)的系統(tǒng)和必要的管理、監(jiān)控工具,完全不需要操心應(yīng)用所需的各種包、庫的依賴關(guān)系,大大減輕了維護的負擔(dān)。

2. 并發(fā)性好

Goroutine和channel使得編寫高并發(fā)的服務(wù)端軟件變得相當容易,很多情況下完全不需要考慮鎖機制以及由此帶來的各種問題。單個Go應(yīng)用也能有效的利用多個CPU核,并行執(zhí)行的性能好。

3. 良好的語言設(shè)計

從學(xué)術(shù)的角度講Go語言其實非常平庸,不支持許多高級的語言特性;但從工程的角度講,Go的設(shè)計是非常優(yōu)秀的:規(guī)范足夠簡單靈活,有其他語言基礎(chǔ)的程序員都能迅速上手。更重要的是

Go 自帶完善的工具鏈,大大提高了團隊協(xié)作的一致性。

4. 執(zhí)行性能好

雖然不如 C 和 Java,但相比于其他編程語言,其執(zhí)行性能還是很好的,適合編寫一些瓶頸業(yè)務(wù),內(nèi)存占用也非常省。

go怎么調(diào)用自己用c/c++寫的so中的方法

直接調(diào)用so的函數(shù)cgo應(yīng)該繞不開吧,我寫過一個銀行的應(yīng)用程序調(diào)用其特色業(yè)務(wù)接口,因為接口只支持c和java,我就封裝了一個c的so,然后用cgo調(diào)用后寫了一個RPC供遠程的go語言調(diào)用,因為RPC只負責(zé)信息交互不負責(zé)業(yè)務(wù)邏輯,所以寫了不到百行,以后基本不用再改。記住雖然go語言自帶gc,但cgo還是要手工釋放內(nèi)存哦。

安卓app主要用什么編程語言的

安卓App用Java和Kotlin作為開發(fā)語言。

Google IO 2017宣布了 Kotlin 會成為 Android 官方開發(fā)語言。在Kotlin 語言出現(xiàn)之前,幾乎所有的安卓應(yīng)用程序都是使用Java語言編寫的。

擴展資料

Google在今年I/O2017開發(fā)者大會中宣布,正式把Kotlin納入Android程序的一級開發(fā)語言(First-classlanguage),并與開發(fā)團隊JetBrains合組非牟利基金會推廣Kotlin。據(jù)多間外國媒體報導(dǎo),這是GoogleI/O開發(fā)者大會中引來最多歡呼聲的消息。

Kotlin將于AndroidStudio3.0得到支持,JetBrians指開發(fā)者不用再安裝額外元件或擔(dān)心兼容問題。Kotlin能與Java互通,但擁有Java不支持的功能。Google相信利用Kotlin可使Android程序開發(fā)更快捷有趣,但他們補充,此舉絕非取代Java和C++的官方支持。

如何處理C++構(gòu)造函數(shù)中的錯誤——兼談不同語言的錯誤處理

使用異常還是返回值我的觀點是,用異常來表示真正的、而且不太可能發(fā)生的錯誤。所謂不太可能發(fā)生的錯誤,指的是真正難以預(yù)料,但發(fā)生了卻又不得不單獨處理的,譬如內(nèi)存耗盡、讀文件發(fā)生故障。而在一個字符串中查找一個子串,如果沒有找到顯然應(yīng)該是用一個特殊的返回值(如-1),而不應(yīng)該拋出一個異常。一句話來概況就是不要用異常代替正常的控制流,只有當程序真的「不正?!沟臅r候,才使用異常。反過來說,當程序真正發(fā)生錯誤了,一定要使用異常而不是返回一個錯誤代碼,因為錯誤代碼總是傾向于被忽略。如果要保證一個以返回值來表示錯誤代碼的函數(shù)的錯誤正確地向上傳遞,需要在每個調(diào)用了可能產(chǎn)生錯誤的函數(shù)后面都判斷一下是否發(fā)生了錯誤,一旦發(fā)生了不可解決的錯誤,就要終止當前函數(shù)(并釋放當前函數(shù)申請的資源),然后向上傳遞錯誤。這樣一來錯誤處理代碼會被重復(fù)地寫好幾遍,十分冗雜,譬如下面代碼:int func(int n) { int fd = open("path/to/file", O_RDONLY); if (fd == -1) { return ERROR_OPEN;}int* array = new[n];int err;err = do_something(fd, array); if (err != SUCCESS) { delete[] array; return err;}err = do_other_thing(); if (err != SUCCESS) { delete[] array; return err;}err = do_more_thing(); if (err != SUCCESS) { delete[] array; return err;}delete[] array; return SUCCESS; }對使用異常容易增加函數(shù)出口的指控其實是不成立的,因為即使使用返回值,這些出口也是免不了的,除非程序員有意或無意忽略掉,但異常是不可忽略的。如果你認為可以把判斷錯誤的if語句縮寫到一行使代碼變得「更清晰」,那么我只能說是自欺欺人。有些錯誤幾乎總是可以被立即恢復(fù)(譬如前面所說的查找一個字符串不存在的子串,甚至都不能說這是一個「錯誤」),而且返回值本身就傳遞一定信息,就不需要使用異常了。鑒于C++沒有統(tǒng)一的ABI,并不建議在模塊的接口上使用異常。如果要使用,就要把可能曝露給用戶的異常全部聲明出來,不要把其他類型的異常丟給用戶去處理,尤其是內(nèi)部狀態(tài)——模塊的使用者通常也不會關(guān)心模塊內(nèi)部具體是哪條語句發(fā)生錯誤了。構(gòu)造函數(shù)中的錯誤有一個相當實際的問題是,如何處理構(gòu)造函數(shù)的錯誤?我們都知道構(gòu)造函數(shù)是沒有返回值的,怎么辦呢?通常有三種常見的處理方法,標記錯誤狀態(tài)、使用一個額外的initialize函數(shù)來初始化,或者直接拋出異常。合格的C++程序員都知道C++的析構(gòu)函數(shù)中不應(yīng)該拋出異常,一旦析構(gòu)函數(shù)中的異常沒有被捕獲,整個程序都要被中止掉。于是許多人就對在構(gòu)造函數(shù)中拋出異常也產(chǎn)生了對等的恐懼,寧可使用一個額外的初始化函數(shù)在里面初始化對象的狀態(tài)并拋出異常(或者返回錯誤代碼)。這樣做違背了對象產(chǎn)生和初始化要在一起的原則,強迫用戶記住調(diào)用一個額外的初始化函數(shù),一旦沒有調(diào)用直接使用了其他函數(shù),其行為很可能是未定義的。使用初始化函數(shù)的惟一好處可能是避免了手動釋放資源(釋放資源的操作交給析構(gòu)函數(shù)來做),因為C++的一個特點是構(gòu)造函數(shù)拋出異常以后析構(gòu)函數(shù)是不會被調(diào)用的,所以如果你在構(gòu)造函數(shù)里面申請了內(nèi)存或者打開了資源,需要在異常產(chǎn)生時關(guān)閉。但想想看其實并不能完全避免,因為有些資源可能是要在可能產(chǎn)生錯誤的函數(shù)調(diào)用過后才被申請的,還是無法完全避免手工的釋放。標記錯誤狀態(tài)也是一種常見的形式,譬如STL中的ifstream類,當構(gòu)造時傳入一個無法訪問的文件作為參數(shù),它不會返回任何錯誤,而是標記的內(nèi)部狀態(tài)為不可用,用戶需要手工通過is_open()函數(shù)來判斷是否打開成功了。同時它還有g(shù)ood()、fail()兩個函數(shù),同時也重載了bool類型轉(zhuǎn)換運算符用于在if語句中判斷。標記狀態(tài)的方法在實踐中相當丑陋,因為在使用前總是需要判斷它是否「真的創(chuàng)建成功了」。最直接的方法還是在構(gòu)造函數(shù)中拋出異常,它并不會向析構(gòu)函數(shù)中拋出異常那樣有嚴重的后果,只是需要注意的是拋出異常以后對象沒有被創(chuàng)建成功,析構(gòu)函數(shù)也不會被調(diào)用,所以應(yīng)該自行把申請的資源全部都釋放掉。如何在構(gòu)造函數(shù)中捕獲異常構(gòu)造函數(shù)與普通函數(shù)有一個很不一樣特性,就是構(gòu)造函數(shù)可以有初始化列表,例如下面的代碼:class B {public:B(int val) : val_(val * val) {}private:int val_;};class A {public:A(int val) : b_(val) {a_ = val;}private:int a_;B b_;};以上的代碼中A的構(gòu)造函數(shù)的函數(shù)體的語句在執(zhí)行之前會先調(diào)用B的構(gòu)造函數(shù),這時候問題在于,如果B的構(gòu)造函數(shù)拋出了異常,A該如何捕獲呢?一個迂回的做法是在A中把B的實例聲明為指針,在構(gòu)造函數(shù)和析構(gòu)函數(shù)中分別創(chuàng)建和刪除,這樣就能捕獲到異常了。不過,實際上是有更簡單的做法的。下面我要介紹一個C++的很不常見的語法:函數(shù)作用域級別的異常捕獲。class B {public:B(int val) : val_(val * val) { throw runtime_error("wtf from B");}private:int val_;};class A {public:A(int val) try : b_(val) {a_ = val;} catch (runtime_error e) { cerr e.what() endl; throw runtime_error("wtf from A");}private:int a_;B b_;};注意上面A的構(gòu)造函數(shù),在參數(shù)列表后和初始化列表前增加了try關(guān)鍵字,然后構(gòu)造函數(shù)就被分割為了兩部分,前面是初始化,后面是初始化時的錯誤處理。需要指出的是,catch塊里面捕獲到的異常不能被忽略,即catch塊中必須有一個throw語句重新拋出異常,如果沒有,則默認會將原來捕獲到的異常重新拋出,這和一般的行為是不同的。例如下面代碼運行可以發(fā)現(xiàn)A會將捕獲到的異常原封不動拋出:class A {public:A(int val) try : b_(val) {a_ = val;} catch (runtime_error e) { cerr e.what() endl;}private:int a_;B b_;};這種語法是C++的標準,而且目前已經(jīng)被所有的主流C++編譯器支持(VS2010、g++ 4.2、clang 3.1),所以幾乎不存在兼容性問題,大可放心使用。其他語言中的錯誤處理Java傾向于大量使用異常,而且還把異常分為了兩類分別是檢查型異常(Checked Exception)和非檢查型異常(Unchecked Exception),檢查型異常就是java.lang.Exception的子類,用于報告需要檢查的錯誤,也就是正常的業(yè)務(wù)邏輯,錯誤主要是由用戶產(chǎn)生的,方便恢復(fù)或給出提示,譬如打開不存在的文件。而非檢查型異常則是真正的系統(tǒng)異常,通常由軟件缺陷導(dǎo)致,如數(shù)組下標越界、錯誤的類型轉(zhuǎn)換等,這類異常繼承于java.lang.RuntimeException或java.lang.Error。Python和Java一樣也傾向于使用異常,并不一定真的發(fā)生故障才拋出異常,譬如字符串轉(zhuǎn)換為整數(shù),如果字符串不合法,Python會拋出一個ValueError異常。甚至Python的迭代器在調(diào)用next()時沒有更多的結(jié)果時會拋出StopIteration異常。這是典型的用異常來處理正??刂屏鞯姆椒?,在Python中被廣泛使用。按照優(yōu)秀C++代碼的標準來看,這是典型的對異常的濫用,既復(fù)雜又有額外開銷,不推薦使用,但在Python中這是一個廣泛遵循的約定。相較于Java和Python,Go的錯誤處理是另一個極端,Go語言則根本沒有異常的概念,而是普遍采用返回值的方式來表示錯誤,同時還提供了panic和recover語法。由于Go有多返回值的特性,避免了錯誤代碼占用返回結(jié)果的弊端,所以你可以經(jīng)常看到函數(shù)的最后一個返回值是error類型。由于總是用返回值傳遞錯誤,你可以看到Go代碼中耦合了大量的錯誤處理,幾乎再每條函數(shù)調(diào)用語句之后都有一個判斷錯誤是否發(fā)生的語句。panic和recover機制十分類似于異常,程序在遇到panic時會一層一層退出調(diào)用棧,直到遇到recover。不過recover只在defer中定義,相當于一個函數(shù)只有一個recover,而且被recover恢復(fù)后會回到錯誤發(fā)生處繼續(xù)向下執(zhí)行代碼。Go語言傾向于把一般錯誤都作為返回值傳遞,除非是非常可怕的、除了重置狀態(tài)幾乎無法恢復(fù)錯誤才會被panic語句拋出。Go語言的recover機制和異常比起來,反倒更像Visual Basic語言中的On Error GoTo label及Resume語法。這是一種非結(jié)構(gòu)化的錯誤處理方式,具體是當聲明有On Error GoTo label的函數(shù)發(fā)生錯誤以后,會調(diào)轉(zhuǎn)到對應(yīng)的行號,如果再遇到了Resume語句就會返回發(fā)生錯誤的語句后面的一條繼續(xù)執(zhí)行,例如下面這段代碼:Sub ErrorDemo On Error GoTo ErrorHandler Dim a as Integer a = 1/0 ' An error occurs. Print a ' Go back hereExit SubErrorHandler: ResumeEnd SubVisual Basic中還有On Error Resume Next這樣的萬能錯誤處理語句,即遇到錯誤以后直接忽略并繼續(xù)執(zhí)行,這是一種非常危險而且不負責(zé)任的做法,但卻可以在早期的Visual Basic代碼中到處看到。參考閱讀

網(wǎng)站名稱:go語言業(yè)務(wù)邏輯 go是什么語言編程
鏈接地址:http://muchs.cn/article32/docogsc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供外貿(mào)網(wǎng)站建設(shè)、企業(yè)建站建站公司、營銷型網(wǎng)站建設(shè)、企業(yè)網(wǎng)站制作、靜態(tài)網(wǎng)站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

成都網(wǎng)站建設(shè)公司