湖北國(guó)聯(lián)計(jì)算機(jī)科技有限公司
  • 首頁(yè)HOME
  • 公司簡(jiǎn)介INTRODUCTION
  • 安全防御DEFENSE
  • 軟件開發(fā)SOFTWARE
  • 物聯(lián)網(wǎng)IOT
  • 運(yùn)行維護(hù)SRE
  • 成功案例CASE
  • 聯(lián)系我們CONTACT
  • SOFTWARE |軟件開發(fā)

    生成式 AI 引爆廣告效率革命,揭秘京東大模型應(yīng)用架構(gòu)的實(shí)踐之道
    來(lái)源:湖北國(guó)菱計(jì)算機(jī)科技有限公司-湖北國(guó)聯(lián)計(jì)算機(jī)科技有限公司-荊州網(wǎng)站建設(shè)-荊州軟件開發(fā)-政府網(wǎng)站建設(shè)公司 時(shí)間:2025-05-16

    大模型時(shí)代廣告領(lǐng)域發(fā)展的契機(jī)和挑戰(zhàn)

    京東在過(guò)去一段時(shí)間里,在大模型浪潮下進(jìn)行了諸多探索和實(shí)踐,涉及算法和工程方面。

    回顧過(guò)去一年半行業(yè)趨勢(shì),國(guó)內(nèi)大部分廣告平臺(tái)都大力投入到基于大語(yǔ)言模型或生成式技術(shù)相關(guān)的產(chǎn)品及技術(shù)升級(jí),涵蓋B 端和 C 端產(chǎn)品。大模型落地實(shí)踐剛開始時(shí)較為分散,但逐漸出現(xiàn)收斂趨勢(shì),主要體現(xiàn)在訓(xùn)練和推理方面。同時(shí),工業(yè)級(jí)別應(yīng)用層面的范式也在逐步收斂。

    在電商領(lǐng)域存在一些痛點(diǎn),如知識(shí)融合問(wèn)題,傳統(tǒng)推薦系統(tǒng)難以有效容納場(chǎng)景化知識(shí),需外掛大量詞表信息及業(yè)務(wù)自反饋信息。而大語(yǔ)言模型時(shí)代到來(lái)后,對(duì)電商用戶和商品的理解能力可在大模型加持下得到提升。此外,基于大語(yǔ)言模型或生成式技術(shù)的scaling law(擴(kuò)展定律)讓廣告算法系統(tǒng)煥發(fā)生機(jī)。

    產(chǎn)業(yè)界使用大語(yǔ)言模型主要有三大目標(biāo):一是大幅提升人貨匹配效率,尤其在搜索、推薦等核心鏈路模型中,通過(guò)提升人貨匹配效率帶動(dòng)CTR(點(diǎn)擊通過(guò)率)、CVR(轉(zhuǎn)化率)、GMV(商品交易總額)及廣告收入等核心業(yè)務(wù)指標(biāo)上漲;二是借助其知識(shí)理解和融合能力;三是滿足多模態(tài)信息接納需求,發(fā)揮大語(yǔ)言模型在文字、視頻、語(yǔ)音、圖片等多種模態(tài)下的理解能力。

    京東希望找到一種在應(yīng)用級(jí)別、一定時(shí)間內(nèi)具有scaling law 趨勢(shì)的算法演進(jìn)路線,且該路線能適用于較多場(chǎng)景,同時(shí)以低成本獲取高性能。

    生成式算法體系

    在典型的廣告算法體系中,生成式技術(shù)主要作用于以下場(chǎng)景。從經(jīng)典廣告系統(tǒng)的鏈路來(lái)看,從生成式的角度可以劃分為三個(gè)階段:第一個(gè)階段是召回和粗排階段,這本質(zhì)上是一個(gè)信息檢索類問(wèn)題。其核心是如何“無(wú)中生有”,從海量信息中找出對(duì)用戶可能有用或感興趣的信息,形成一個(gè)龐大的候選集合。第二階段是精排階段。CTR(點(diǎn)擊通過(guò)率)和 CVR(轉(zhuǎn)化率)是典型的精排問(wèn)題。精排模型打出的分?jǐn)?shù)常用于排序,本質(zhì)上是在進(jìn)行信息過(guò)濾,篩選出更符合用戶需求的內(nèi)容。第三階段是信息補(bǔ)足階段。對(duì)于已經(jīng)排在較前位置的商品或信息流廣告,進(jìn)一步引入多模態(tài)理解能力,包括創(chuàng)意和排序機(jī)制的優(yōu)化,即重排。重排可以視為在上下文場(chǎng)景下的二次排序,進(jìn)一步提升廣告效果。

    在討論生成式技術(shù)或大語(yǔ)言模型時(shí),離不開其對(duì)應(yīng)的數(shù)據(jù)體系。數(shù)據(jù)體系需要解決兩個(gè)核心問(wèn)題:一是用戶行為如何在生成式技術(shù)浪潮中進(jìn)行二次定義;二是在電商廣告場(chǎng)景下,如何將知識(shí)融入生成式AI 模型或算法中。

    對(duì)于用戶行為,傳統(tǒng)上是通過(guò)人、貨、場(chǎng)三個(gè)維度進(jìn)行定義。在生成式場(chǎng)景下,除了這三個(gè)維度,還會(huì)包含用戶畫像類信息。對(duì)于電商知識(shí)類信息,除了商品、貨品等結(jié)構(gòu)化信息,還存在大量未被很好結(jié)構(gòu)化的信息,例如用戶隨手拍的評(píng)論圖片,其語(yǔ)義化信息尚未被充分利用。

    在電商廣告場(chǎng)景下,經(jīng)過(guò)比較和分析,認(rèn)為Semantic ID(語(yǔ)義 ID)是當(dāng)前場(chǎng)景下更適用的表征解決方案。在數(shù)據(jù)表征的基礎(chǔ)上,算法建設(shè)涉及幾個(gè)關(guān)鍵步驟。首先是商品的量化表示,通過(guò) Semantic ID 的方式進(jìn)行表征。其次是讓大語(yǔ)言模型或生成式算法對(duì)這些表征后的信息具備理解能力和推理能力。

    關(guān)于編碼和表征,引用了一篇經(jīng)典文章的觀點(diǎn),探討了Sid 是如何通過(guò)類似殘差信息的表達(dá)方式進(jìn)行表征的,這與 Google 的相關(guān)研究相對(duì)應(yīng)。即通過(guò)某種編碼的 code book 方式來(lái)表達(dá)信息。在將信息注入大語(yǔ)言模型(無(wú)論是開源獲取的還是從零開始訓(xùn)練的)時(shí),面臨兩個(gè)關(guān)鍵問(wèn)題:一是這些數(shù)據(jù)如何訓(xùn)練;二是如何讓訓(xùn)練的數(shù)據(jù)有效表征其含義,即 DPO。

    生成式算法工程實(shí)踐

    我們來(lái)看一下在具體實(shí)踐中遇到的算法和工程上的挑戰(zhàn)。

    首先,我們今天主要討論的環(huán)節(jié)是召回,但實(shí)際上我們的的工作已經(jīng)覆蓋了排序、創(chuàng)意甚至重排階段。在將生成式AI 或大語(yǔ)言模型應(yīng)用于推薦系統(tǒng)時(shí),我們遇到了兩個(gè)極具挑戰(zhàn)性的問(wèn)題。第一個(gè)挑戰(zhàn)是工業(yè)場(chǎng)景下的規(guī)模問(wèn)題。隨著業(yè)務(wù)的發(fā)展,模型的規(guī)模越來(lái)越大。在廣告系統(tǒng)中,延遲是一個(gè)關(guān)鍵問(wèn)題。如果推理延遲超過(guò) 100 毫秒,結(jié)果將不會(huì)被采納,被認(rèn)為是毫無(wú)意義的。為了實(shí)現(xiàn)高性能和低延遲的推理,我們需要付出巨大的計(jì)算成本,而我們希望這種成本越低越好。目前,許多大語(yǔ)言模型的工作是基于開源模型進(jìn)行 SFT(監(jiān)督微調(diào))或 PT(預(yù)訓(xùn)練)后直接使用。然而,隨著我們對(duì)業(yè)務(wù)的深入理解和算法應(yīng)用的靈活性提升,我們發(fā)現(xiàn)僅僅借用他人的模型結(jié)構(gòu)已經(jīng)無(wú)法滿足我們的需求。我們需要對(duì)模型結(jié)構(gòu)進(jìn)行改造,并且發(fā)現(xiàn)單純的生成式模型無(wú)法很好地解決判別型問(wèn)題。這意味著未來(lái)的應(yīng)用場(chǎng)景需要生成式和判別式模型進(jìn)行聯(lián)合學(xué)習(xí)和推理。

    第二個(gè)挑戰(zhàn)是低延遲和高吞吐的要求。我們給出一個(gè)典型的參考數(shù)據(jù):百萬(wàn)token 的推理成本必須低于 1 元人民幣。如果高于這個(gè)成本,在大多數(shù)工業(yè)場(chǎng)景下,成本將變得不可控,模型很可能只能停留在實(shí)驗(yàn)階段,無(wú)法大規(guī)模落地。這兩個(gè)挑戰(zhàn)共同導(dǎo)致了一個(gè)問(wèn)題:我們需要進(jìn)行極致的性能優(yōu)化,才能讓這樣的模型或算法真正在線應(yīng)用。

    在進(jìn)行大規(guī)模工業(yè)化性能優(yōu)化時(shí),我們發(fā)現(xiàn)算力或推理優(yōu)化主要由三個(gè)方面決定:首先是裸算力,其次是存儲(chǔ)性能或存儲(chǔ)吞吐量,第三是訓(xùn)練和推理過(guò)程中的IO 問(wèn)題。這三者存在木桶短板效應(yīng),即任何一個(gè)環(huán)節(jié)的短板都將決定我們?cè)趹?yīng)用中的性能上限。

    針對(duì)低延遲和高吞吐的極致性能優(yōu)化,我們的優(yōu)化思路分為三個(gè)層面:首先是在單節(jié)點(diǎn)優(yōu)化上,我們希望實(shí)現(xiàn)極致的性能釋放;其次,當(dāng)任務(wù)變?yōu)榉植际綍r(shí),我們希望實(shí)現(xiàn)軟硬協(xié)同的分布式高性能推理;最后,在整個(gè)全鏈路上,我們希望尋找其他可以優(yōu)化的資源或耗時(shí)空間,例如層次化推理和同層次化算力的優(yōu)化。

    在優(yōu)化手段方面,業(yè)內(nèi)已經(jīng)有許多相關(guān)工作,包括基于算子和圖的優(yōu)化、深度學(xué)習(xí)編譯器的優(yōu)化,以及推理模式的優(yōu)化,如各種緩存模式(KV Cache、Layer Cache 等)和推理范式的優(yōu)化(例如 PD 分離)??偨Y(jié)來(lái)說(shuō),單節(jié)點(diǎn)上的推理算力釋放主要分為兩部分:一是單純的推理優(yōu)化,二是從服務(wù)層級(jí)進(jìn)行優(yōu)化。在單節(jié)點(diǎn)推理優(yōu)化方面,主要涉及量化、Tensor 并行和各種 Attention 技術(shù);在服務(wù)層級(jí)優(yōu)化方面,主要關(guān)注調(diào)度層面,如連續(xù)批處理(continuous batch)和負(fù)載均衡。

    單節(jié)點(diǎn)算力釋放

    為了降低單節(jié)點(diǎn)推理的無(wú)用功計(jì)算,我們通常會(huì)采用一些優(yōu)化方式,例如多查詢(Multi-Query)注意力機(jī)制等。這些方法在業(yè)內(nèi)已經(jīng)被廣泛應(yīng)用,例如基于英偉達(dá) GPU 的解決方案,雖然在一定程度上有效,但仍然無(wú)法完全解決工業(yè)場(chǎng)景下的問(wèn)題。

    在優(yōu)化手段方面,量化技術(shù)是一個(gè)重要的方向。從半精度到FP8,甚至更低比特的量化技術(shù),雖然在推理性能上追求極致,但在實(shí)際應(yīng)用場(chǎng)景中,如廣告推薦或搜索,過(guò)低的精度可能導(dǎo)致無(wú)法達(dá)到預(yù)期效果。Tensor 并行則是一種計(jì)算層面的資源分配優(yōu)化,通過(guò)將任務(wù)拆分,降低單卡負(fù)載,從而降低延遲并充分利用性能。

    在注意力機(jī)制的優(yōu)化方面,Flash Attention 和 Page Attention 等技術(shù)已經(jīng)被廣泛應(yīng)用于開源模型中。通過(guò)采用這些優(yōu)化手段,例如 batching 和注意力技術(shù),可以顯著提升推理效率。公開資料顯示,平均推理延遲可以降低到原來(lái)的 1/5 左右,吞吐量提升的同時(shí),成本可以降低約一半。

    特別地,我們推薦一種batching 策略—— Dynamic Latency Batching Switch。傳統(tǒng)的 Continuous Batching 雖然可以填充推理過(guò)程中的空閑時(shí)間,但在低延遲場(chǎng)景下,簡(jiǎn)單地將任務(wù)插入到空閑位置可能會(huì)導(dǎo)致累積延遲超標(biāo)。動(dòng)態(tài)延遲 batching 的核心思想是,在保證每個(gè)推理請(qǐng)求不超過(guò)最大延遲的前提下,通過(guò)智能調(diào)度,將任務(wù)分配到更合適的批次中。例如,當(dāng)發(fā)現(xiàn)某條推理鏈路如果繼續(xù)插入任務(wù)會(huì)導(dǎo)致延遲超標(biāo)時(shí),系統(tǒng)會(huì)將其切換到更早結(jié)束的批次,從而確保下一個(gè)任務(wù)可以更早進(jìn)入推理狀態(tài)。

    分布式算力釋放

    在分布式場(chǎng)景下,軟硬協(xié)同的優(yōu)化思路雖然簡(jiǎn)單,但在工業(yè)場(chǎng)景下的大規(guī)模實(shí)現(xiàn)具有挑戰(zhàn)性。由于請(qǐng)求的長(zhǎng)度(request length)不同,不同集群和節(jié)點(diǎn)的處理能力也各異。因此,我們傾向于將計(jì)算量大的任務(wù)分配到計(jì)算能力更強(qiáng)的節(jié)點(diǎn)上。然而,難點(diǎn)在于負(fù)載均衡。并非所有廣告或推薦請(qǐng)求的價(jià)值都相同,如果某次請(qǐng)求對(duì)系統(tǒng)的價(jià)值更高,我們會(huì)優(yōu)先處理。因此,在負(fù)載均衡策略上,我們會(huì)進(jìn)行基于請(qǐng)求價(jià)值的粗粒度預(yù)估,將高價(jià)值請(qǐng)求分配到專用計(jì)算節(jié)點(diǎn)上優(yōu)先處理,而低優(yōu)先級(jí)的請(qǐng)求可能會(huì)被拋棄或采用傳統(tǒng)算法和模型處理。

    在調(diào)度層面之外,我們還嘗試了以下三項(xiàng)已被驗(yàn)證有價(jià)值的工作:

    生成式推理集群:在集群層面,我們進(jìn)行了以下優(yōu)化:

    大模型的集群化推理;

    小批量(small batch)適配能力;

    PD分離,prefill(預(yù)填充)和 decode(解碼)這是業(yè)內(nèi)常見(jiàn)的優(yōu)化手段。

    KV Cache 池化:許多企業(yè)希望減少計(jì)算資源的浪費(fèi),同時(shí)保證計(jì)算精度和效果。KV Cache 池化是應(yīng)對(duì)集群化推理的有效解決方案,能夠避免從零開始推理每條請(qǐng)求,從而提高效率。

    判別式場(chǎng)景的集群化處理:在廣告場(chǎng)景中,無(wú)論是搜索還是推薦,結(jié)果的相關(guān)性是一個(gè)關(guān)鍵問(wèn)題。對(duì)于判別式任務(wù),我們?cè)O(shè)置了單獨(dú)的集群進(jìn)行路由化處理。

    為了實(shí)現(xiàn)集群化模型的分布式并行推理,我們采用了以下方法:

    模型拆圖:將模型中的多個(gè)block(既有 CPU 計(jì)算密集型部分,也有 GPU 計(jì)算密集型部分)根據(jù)計(jì)算負(fù)荷和價(jià)值進(jìn)行拆分。拆圖后,將不同部分分別進(jìn)行服務(wù)化部署。通過(guò)這種方式,可以優(yōu)化集群的計(jì)算資源利用率。拆圖前,由于模型塊的差異,集群的資源利用率存在較大差異;拆圖并并行計(jì)算后,利用率趨于平衡,避免了某些資源過(guò)度使用或浪費(fèi)。

    多級(jí)緩存:針對(duì)IO 瓶頸問(wèn)題,我們利用 CPU 管理的 RAM 和 GPU 的 HBM(高帶寬存儲(chǔ)器)構(gòu)建了多級(jí)緩存。這種多級(jí)緩存減少了多機(jī)之間的通信,使系統(tǒng)能夠更快地獲取預(yù)計(jì)算結(jié)果,從而實(shí)現(xiàn)更低的延遲和更高的吞吐量。

    在訓(xùn)練過(guò)程中,我們發(fā)現(xiàn)了一些有效的解決方案。對(duì)于更復(fù)雜的生成式AI 訓(xùn)練(超出簡(jiǎn)單的大語(yǔ)言模型范疇),全參數(shù) GPU 同步訓(xùn)練在特定應(yīng)用場(chǎng)景下能夠顯著提升訓(xùn)練速度。

    在分布式推理的調(diào)度器設(shè)計(jì)中,我們面臨的業(yè)務(wù)應(yīng)用場(chǎng)景不僅包括生成式算法模型,還涉及語(yǔ)義理解層面的相關(guān)性以及典型的排序任務(wù)(如CTR、CVR 等)。這些任務(wù)通過(guò)不同層級(jí)的調(diào)度器進(jìn)行請(qǐng)求劃分和調(diào)度。

    全鏈路算力釋放

    為了維持低延遲和低資源消耗的推理,我們希望從其他環(huán)節(jié)“偷”一些資源或耗時(shí)空間。具體方法如下。

    端計(jì)算與預(yù)計(jì)算:我們將相當(dāng)一部分計(jì)算下沉到用戶手機(jī)端(設(shè)備端),采用端計(jì)算模式進(jìn)行大量預(yù)計(jì)算工作。在用戶發(fā)起請(qǐng)求的瞬間,我們利用召回到排序之間的這段時(shí)間進(jìn)行前置計(jì)算,這部分耗時(shí)空間約為30~100 毫秒,具體取決于不同業(yè)務(wù)場(chǎng)景。

    近線計(jì)算:對(duì)于一些信息,我們只需要在一定時(shí)間內(nèi)保證其最新即可,因此可以通過(guò)近線計(jì)算的方式提前算好,然后在線上進(jìn)行查詢或直接使用。

    離線計(jì)算:對(duì)于計(jì)算極其復(fù)雜且在較長(zhǎng)時(shí)間內(nèi)不會(huì)變化的任務(wù),我們采用離線計(jì)算的方式。

    通過(guò)以上層次化的劃分,結(jié)合軟硬件的定制化優(yōu)化,我們將原本100 毫秒的計(jì)算延遲拆分為多個(gè)幾十毫秒的小塊,這些小塊已經(jīng)完成了預(yù)計(jì)算。因此,真正留給實(shí)時(shí)推理和計(jì)算的任務(wù)變得相對(duì)簡(jiǎn)單,從而能夠在百毫秒以內(nèi)完成在線生成式 AI 的推理。進(jìn)一步地,我們是否可以更徹底地“偷”資源呢?答案是可以。在每個(gè)環(huán)節(jié)(如檢索、排序等)中,我們都可以利用層次化的算力設(shè)計(jì)和動(dòng)態(tài)協(xié)調(diào)機(jī)制,實(shí)現(xiàn)更加負(fù)載均衡的算力配置。

    在整個(gè)算法和全鏈路設(shè)計(jì)中,貫穿了兩條核心思想:

    重新定義算力邊界:我們將單環(huán)節(jié)的推理任務(wù)拆分到多個(gè)環(huán)節(jié),重新定義了算力的邊界以及模型需要計(jì)算的內(nèi)容。

    多層次任務(wù)定義與優(yōu)化:我們將復(fù)雜的計(jì)算任務(wù)定義到多個(gè)層次上,通過(guò)硬件升級(jí)、調(diào)度層面升級(jí)以及流程層面升級(jí),帶來(lái)實(shí)際算力的提升。這樣既能夠保持全鏈路推理在百毫秒以內(nèi),又能夠支撐一定程度的Scaling Law,以應(yīng)對(duì)不斷增長(zhǎng)的計(jì)算需求。

    算法建模靈活度問(wèn)題

    在算法研發(fā)過(guò)程中,算法工程師們擁有大量富有創(chuàng)意的想法。根據(jù)不完全統(tǒng)計(jì),一個(gè)典型的業(yè)務(wù)算法工程師在一個(gè)季度內(nèi)至少希望進(jìn)行兩次上線評(píng)審,背后可能涉及近10 次想法的嘗試。如果一個(gè)公司或團(tuán)隊(duì)有幾十甚至上百名算法工程師,算法的靈活性問(wèn)題就顯得尤為突出。在這種情況下,如何在有限的耗時(shí)空間和硬件資源下,支撐靈活的算法定制,成為了一個(gè)亟待解決的棘手問(wèn)題。具體而言,如何讓生成式模型和判別式模型進(jìn)行聯(lián)合建模、訓(xùn)練和推理,是我們當(dāng)前面臨的一大挑戰(zhàn)。我們主要的解決方案是基于 Python 和 TensorFlow 進(jìn)行構(gòu)圖,以實(shí)現(xiàn)聯(lián)合訓(xùn)練和推理。

    在召回層面,雖然可以通過(guò)生成式技術(shù)(例如Semantic ID)對(duì)商品進(jìn)行表征,根據(jù)用戶的歷史行為(如瀏覽、點(diǎn)擊等)預(yù)測(cè)其未來(lái)可能感興趣的商品,但這只是最基礎(chǔ)的檢索問(wèn)題。檢索結(jié)果還需要進(jìn)行相關(guān)性判斷,并進(jìn)入粗排環(huán)節(jié)進(jìn)行打分和排序。在這個(gè)過(guò)程中,如果發(fā)現(xiàn)相關(guān)性已經(jīng)失衡,那么可能根本不需要進(jìn)行粗排打分,甚至某些類目下的商品或推薦項(xiàng)也無(wú)需生成。這種將生成式和判別式算法鏈路耦合后的結(jié)構(gòu)剪枝,即推理過(guò)程中的剪枝,已被實(shí)驗(yàn)驗(yàn)證可以顯著提升召回率和準(zhǔn)確率,甚至達(dá)到兩位數(shù)的提升。這種效果非常明顯且令人震驚。

    為了實(shí)現(xiàn)召回和粗排一體化(召排一體),業(yè)界最典型的做法是先召回一個(gè)大集合,再進(jìn)行過(guò)濾和粗排,形成三個(gè)環(huán)節(jié)。但如果將這三個(gè)環(huán)節(jié)合并為一個(gè),即召回加粗排一體,會(huì)面臨哪些問(wèn)題呢?

    以典型的稀疏模型(如粗排或精排的CTR 模型)為例,其稠密部分的計(jì)算量相對(duì)較小(約 0.5T Flops),但 embedding table 占比巨大。而典型的生成式模型,其 Dense 部分非常龐大,對(duì)算力要求極高,但 embedding 等外掛信息相對(duì)較少。如果希望將這兩種模型進(jìn)行耦合或聯(lián)合建模,數(shù)據(jù)是否充足是一個(gè)關(guān)鍵問(wèn)題。下圖引用了一張開源公開文章中的截圖,顯示高質(zhì)量語(yǔ)料數(shù)據(jù)被認(rèn)為已接近耗盡,預(yù)計(jì)耗盡的時(shí)間點(diǎn)在 2028 年左右。然而,在我們的業(yè)務(wù)場(chǎng)景中,用于訓(xùn)練最典型的稀疏模型的數(shù)據(jù)仍然非常充足。如果僅關(guān)注生成式模型,數(shù)據(jù)耗盡的風(fēng)險(xiǎn)確實(shí)存在。但如果考慮生成式與判別式模型的聯(lián)合建模,數(shù)據(jù)空間仍然較為充裕。無(wú)論是生成式模型還是判別式模型,其參數(shù)增長(zhǎng)的勢(shì)頭并未減緩,反而仍在加速增長(zhǎng)。

    如果簡(jiǎn)單地將兩者耦合進(jìn)行推理,會(huì)立即遇到一個(gè)明顯的問(wèn)題——“撞墻”。目前主流的大語(yǔ)言模型,無(wú)論是在 Google 的 TPU、英偉達(dá)的 GPU 還是 AMD 的 MI 推理芯片上運(yùn)行,其推理的 token 吞吐量似乎都集中在較低水平,主要受限于 HBM(高帶寬存儲(chǔ)器)的瓶頸。隨著參數(shù)增長(zhǎng)、數(shù)據(jù)量和模型結(jié)構(gòu)的擴(kuò)大,推理環(huán)節(jié)已經(jīng)成為制約因素。在這種情況下,單純依靠硬件提升已無(wú)法滿足聯(lián)合訓(xùn)練和推理的需求。

    我們提出采用分而治之的分層思想來(lái)解決這個(gè)問(wèn)題。業(yè)界常用的硬件解決方案及其對(duì)應(yīng)的技術(shù)棧為我們提供了分層的空間。我們的分層邏輯包括定制化和優(yōu)化兩個(gè)層面,最上面是業(yè)務(wù)層面。通過(guò)通信、建模和數(shù)據(jù)的三層解耦,我們可以找到三者之間的有機(jī)平衡關(guān)系。這意味著通過(guò)利用局部計(jì)算特性,HBM 的通信問(wèn)題得到了一定程度的緩解。

    生成式& 判別式聯(lián)合推理能力

    在生成式和判別式聯(lián)合推理能力方面,我們以基于TensorFlow 的 CTR(點(diǎn)擊通過(guò)率)和 CVR(轉(zhuǎn)化率)排序模型(即典型的稀疏模型)為例,同時(shí)結(jié)合像 LLaMA 等典型的大語(yǔ)言模型。我們的目標(biāo)是將這兩者耦合在一起,這種耦合并非簡(jiǎn)單的分步推理(即上一步推理完成后再進(jìn)行下一步),而是通過(guò)直接共享 hidden state(隱藏狀態(tài))來(lái)驅(qū)動(dòng)整個(gè)圖的共享,從而實(shí)現(xiàn)整個(gè)推理過(guò)程的封裝。

    在推理過(guò)程中,我們同時(shí)采用多引擎進(jìn)行推理:一方面通過(guò)TensorFlow 的 Graph engine 進(jìn)行觸發(fā)和驅(qū)動(dòng),另一方面驅(qū)動(dòng) TensorRT engine 推理引擎 。最終,我們實(shí)現(xiàn)了生成式和判別式模型的有機(jī)結(jié)合,并且避免了“撞 HBM 的墻”,能夠在業(yè)務(wù)場(chǎng)景中真正實(shí)現(xiàn)推理。

    (轉(zhuǎn)載自:infoq)

    荊州地區(qū)政府網(wǎng)站建設(shè) 解決方案 專業(yè)團(tuán)隊(duì) 騰訊第三方平臺(tái) 地址:湖北省荊州市沙市區(qū)荊沙大道楚天都市佳園一期C區(qū)29棟112       地址:湖北省松滋市新江口街道才知文化廣場(chǎng)1幢1146-1151室     郵編:434200 聯(lián)系電話:0716-6666211     網(wǎng)站編輯部郵箱:business@gl-ns.com 鄂公網(wǎng)安備 42100202000212號(hào) 備案號(hào):鄂ICP備2021015094號(hào)-1     企業(yè)名稱:湖北國(guó)菱計(jì)算機(jī)科技有限公司