生成式 AI 引爆廣告效率革命，揭秘京東大模型應(yīng)用架構(gòu)的實(shí)踐之道
來(lái)源：湖北國(guó)菱計(jì)算機(jī)科技有限公司-湖北國(guó)聯(lián)計(jì)算機(jī)科技有限公司-荊州網(wǎng)站建設(shè)-荊州軟件開發(fā)-政府網(wǎng)站建設(shè)公司時(shí)間：2025-05-16

大模型時(shí)代廣告領(lǐng)域發(fā)展的契機(jī)和挑戰(zhàn)

京東在過(guò)去一段時(shí)間里，在大模型浪潮下進(jìn)行了諸多探索和實(shí)踐，涉及算法和工程方面。

回顧過(guò)去一年半行業(yè)趨勢(shì)，國(guó)內(nèi)大部分廣告平臺(tái)都大力投入到基于大語(yǔ)言模型或生成式技術(shù)相關(guān)的產(chǎn)品及技術(shù)升級(jí)，涵蓋B 端和 C 端產(chǎn)品。大模型落地實(shí)踐剛開始時(shí)較為分散，但逐漸出現(xiàn)收斂趨勢(shì)，主要體現(xiàn)在訓(xùn)練和推理方面。同時(shí)，工業(yè)級(jí)別應(yīng)用層面的范式也在逐步收斂。

在電商領(lǐng)域存在一些痛點(diǎn)，如知識(shí)融合問(wèn)題，傳統(tǒng)推薦系統(tǒng)難以有效容納場(chǎng)景化知識(shí)，需外掛大量詞表信息及業(yè)務(wù)自反饋信息。而大語(yǔ)言模型時(shí)代到來(lái)后，對(duì)電商用戶和商品的理解能力可在大模型加持下得到提升。此外，基于大語(yǔ)言模型或生成式技術(shù)的scaling law（擴(kuò)展定律）讓廣告算法系統(tǒng)煥發(fā)生機(jī)。

產(chǎn)業(yè)界使用大語(yǔ)言模型主要有三大目標(biāo)：一是大幅提升人貨匹配效率，尤其在搜索、推薦等核心鏈路模型中，通過(guò)提升人貨匹配效率帶動(dòng)CTR（點(diǎn)擊通過(guò)率）、CVR（轉(zhuǎn)化率）、GMV（商品交易總額）及廣告收入等核心業(yè)務(wù)指標(biāo)上漲；二是借助其知識(shí)理解和融合能力；三是滿足多模態(tài)信息接納需求，發(fā)揮大語(yǔ)言模型在文字、視頻、語(yǔ)音、圖片等多種模態(tài)下的理解能力。

京東希望找到一種在應(yīng)用級(jí)別、一定時(shí)間內(nèi)具有scaling law 趨勢(shì)的算法演進(jìn)路線，且該路線能適用于較多場(chǎng)景，同時(shí)以低成本獲取高性能。

生成式算法體系

在典型的廣告算法體系中，生成式技術(shù)主要作用于以下場(chǎng)景。從經(jīng)典廣告系統(tǒng)的鏈路來(lái)看，從生成式的角度可以劃分為三個(gè)階段：第一個(gè)階段是召回和粗排階段，這本質(zhì)上是一個(gè)信息檢索類問(wèn)題。其核心是如何“無(wú)中生有”，從海量信息中找出對(duì)用戶可能有用或感興趣的信息，形成一個(gè)龐大的候選集合。第二階段是精排階段。CTR（點(diǎn)擊通過(guò)率）和 CVR（轉(zhuǎn)化率）是典型的精排問(wèn)題。精排模型打出的分?jǐn)?shù)常用于排序，本質(zhì)上是在進(jìn)行信息過(guò)濾，篩選出更符合用戶需求的內(nèi)容。第三階段是信息補(bǔ)足階段。對(duì)于已經(jīng)排在較前位置的商品或信息流廣告，進(jìn)一步引入多模態(tài)理解能力，包括創(chuàng)意和排序機(jī)制的優(yōu)化，即重排。重排可以視為在上下文場(chǎng)景下的二次排序，進(jìn)一步提升廣告效果。

在討論生成式技術(shù)或大語(yǔ)言模型時(shí)，離不開其對(duì)應(yīng)的數(shù)據(jù)體系。數(shù)據(jù)體系需要解決兩個(gè)核心問(wèn)題：一是用戶行為如何在生成式技術(shù)浪潮中進(jìn)行二次定義；二是在電商廣告場(chǎng)景下，如何將知識(shí)融入生成式AI 模型或算法中。

對(duì)于用戶行為，傳統(tǒng)上是通過(guò)人、貨、場(chǎng)三個(gè)維度進(jìn)行定義。在生成式場(chǎng)景下，除了這三個(gè)維度，還會(huì)包含用戶畫像類信息。對(duì)于電商知識(shí)類信息，除了商品、貨品等結(jié)構(gòu)化信息，還存在大量未被很好結(jié)構(gòu)化的信息，例如用戶隨手拍的評(píng)論圖片，其語(yǔ)義化信息尚未被充分利用。

在電商廣告場(chǎng)景下，經(jīng)過(guò)比較和分析，認(rèn)為Semantic ID（語(yǔ)義 ID）是當(dāng)前場(chǎng)景下更適用的表征解決方案。在數(shù)據(jù)表征的基礎(chǔ)上，算法建設(shè)涉及幾個(gè)關(guān)鍵步驟。首先是商品的量化表示，通過(guò) Semantic ID 的方式進(jìn)行表征。其次是讓大語(yǔ)言模型或生成式算法對(duì)這些表征后的信息具備理解能力和推理能力。

關(guān)于編碼和表征，引用了一篇經(jīng)典文章的觀點(diǎn)，探討了Sid 是如何通過(guò)類似殘差信息的表達(dá)方式進(jìn)行表征的，這與 Google 的相關(guān)研究相對(duì)應(yīng)。即通過(guò)某種編碼的 code book 方式來(lái)表達(dá)信息。在將信息注入大語(yǔ)言模型（無(wú)論是開源獲取的還是從零開始訓(xùn)練的）時(shí)，面臨兩個(gè)關(guān)鍵問(wèn)題：一是這些數(shù)據(jù)如何訓(xùn)練；二是如何讓訓(xùn)練的數(shù)據(jù)有效表征其含義，即 DPO。

生成式算法工程實(shí)踐

我們來(lái)看一下在具體實(shí)踐中遇到的算法和工程上的挑戰(zhàn)。

首先，我們今天主要討論的環(huán)節(jié)是召回，但實(shí)際上我們的的工作已經(jīng)覆蓋了排序、創(chuàng)意甚至重排階段。在將生成式AI 或大語(yǔ)言模型應(yīng)用于推薦系統(tǒng)時(shí)，我們遇到了兩個(gè)極具挑戰(zhàn)性的問(wèn)題。第一個(gè)挑戰(zhàn)是工業(yè)場(chǎng)景下的規(guī)模問(wèn)題。隨著業(yè)務(wù)的發(fā)展，模型的規(guī)模越來(lái)越大。在廣告系統(tǒng)中，延遲是一個(gè)關(guān)鍵問(wèn)題。如果推理延遲超過(guò) 100 毫秒，結(jié)果將不會(huì)被采納，被認(rèn)為是毫無(wú)意義的。為了實(shí)現(xiàn)高性能和低延遲的推理，我們需要付出巨大的計(jì)算成本，而我們希望這種成本越低越好。目前，許多大語(yǔ)言模型的工作是基于開源模型進(jìn)行 SFT（監(jiān)督微調(diào)）或 PT（預(yù)訓(xùn)練）后直接使用。然而，隨著我們對(duì)業(yè)務(wù)的深入理解和算法應(yīng)用的靈活性提升，我們發(fā)現(xiàn)僅僅借用他人的模型結(jié)構(gòu)已經(jīng)無(wú)法滿足我們的需求。我們需要對(duì)模型結(jié)構(gòu)進(jìn)行改造，并且發(fā)現(xiàn)單純的生成式模型無(wú)法很好地解決判別型問(wèn)題。這意味著未來(lái)的應(yīng)用場(chǎng)景需要生成式和判別式模型進(jìn)行聯(lián)合學(xué)習(xí)和推理。

第二個(gè)挑戰(zhàn)是低延遲和高吞吐的要求。我們給出一個(gè)典型的參考數(shù)據(jù)：百萬(wàn)token 的推理成本必須低于 1 元人民幣。如果高于這個(gè)成本，在大多數(shù)工業(yè)場(chǎng)景下，成本將變得不可控，模型很可能只能停留在實(shí)驗(yàn)階段，無(wú)法大規(guī)模落地。這兩個(gè)挑戰(zhàn)共同導(dǎo)致了一個(gè)問(wèn)題：我們需要進(jìn)行極致的性能優(yōu)化，才能讓這樣的模型或算法真正在線應(yīng)用。

在進(jìn)行大規(guī)模工業(yè)化性能優(yōu)化時(shí)，我們發(fā)現(xiàn)算力或推理優(yōu)化主要由三個(gè)方面決定：首先是裸算力，其次是存儲(chǔ)性能或存儲(chǔ)吞吐量，第三是訓(xùn)練和推理過(guò)程中的IO 問(wèn)題。這三者存在木桶短板效應(yīng)，即任何一個(gè)環(huán)節(jié)的短板都將決定我們?cè)趹?yīng)用中的性能上限。

針對(duì)低延遲和高吞吐的極致性能優(yōu)化，我們的優(yōu)化思路分為三個(gè)層面：首先是在單節(jié)點(diǎn)優(yōu)化上，我們希望實(shí)現(xiàn)極致的性能釋放；其次，當(dāng)任務(wù)變?yōu)榉植际綍r(shí)，我們希望實(shí)現(xiàn)軟硬協(xié)同的分布式高性能推理；最后，在整個(gè)全鏈路上，我們希望尋找其他可以優(yōu)化的資源或耗時(shí)空間，例如層次化推理和同層次化算力的優(yōu)化。

在優(yōu)化手段方面，業(yè)內(nèi)已經(jīng)有許多相關(guān)工作，包括基于算子和圖的優(yōu)化、深度學(xué)習(xí)編譯器的優(yōu)化，以及推理模式的優(yōu)化，如各種緩存模式（KV Cache、Layer Cache 等）和推理范式的優(yōu)化（例如 PD 分離）?？偨Y(jié)來(lái)說(shuō)，單節(jié)點(diǎn)上的推理算力釋放主要分為兩部分：一是單純的推理優(yōu)化，二是從服務(wù)層級(jí)進(jìn)行優(yōu)化。在單節(jié)點(diǎn)推理優(yōu)化方面，主要涉及量化、Tensor 并行和各種 Attention 技術(shù)；在服務(wù)層級(jí)優(yōu)化方面，主要關(guān)注調(diào)度層面，如連續(xù)批處理（continuous batch）和負(fù)載均衡。

單節(jié)點(diǎn)算力釋放

為了降低單節(jié)點(diǎn)推理的無(wú)用功計(jì)算，我們通常會(huì)采用一些優(yōu)化方式，例如多查詢（Multi-Query）注意力機(jī)制等。這些方法在業(yè)內(nèi)已經(jīng)被廣泛應(yīng)用，例如基于英偉達(dá) GPU 的解決方案，雖然在一定程度上有效，但仍然無(wú)法完全解決工業(yè)場(chǎng)景下的問(wèn)題。

在優(yōu)化手段方面，量化技術(shù)是一個(gè)重要的方向。從半精度到FP8，甚至更低比特的量化技術(shù)，雖然在推理性能上追求極致，但在實(shí)際應(yīng)用場(chǎng)景中，如廣告推薦或搜索，過(guò)低的精度可能導(dǎo)致無(wú)法達(dá)到預(yù)期效果。Tensor 并行則是一種計(jì)算層面的資源分配優(yōu)化，通過(guò)將任務(wù)拆分，降低單卡負(fù)載，從而降低延遲并充分利用性能。

在注意力機(jī)制的優(yōu)化方面，Flash Attention 和 Page Attention 等技術(shù)已經(jīng)被廣泛應(yīng)用于開源模型中。通過(guò)采用這些優(yōu)化手段，例如 batching 和注意力技術(shù)，可以顯著提升推理效率。公開資料顯示，平均推理延遲可以降低到原來(lái)的 1/5 左右，吞吐量提升的同時(shí)，成本可以降低約一半。

特別地，我們推薦一種batching 策略—— Dynamic Latency Batching Switch。傳統(tǒng)的 Continuous Batching 雖然可以填充推理過(guò)程中的空閑時(shí)間，但在低延遲場(chǎng)景下，簡(jiǎn)單地將任務(wù)插入到空閑位置可能會(huì)導(dǎo)致累積延遲超標(biāo)。動(dòng)態(tài)延遲 batching 的核心思想是，在保證每個(gè)推理請(qǐng)求不超過(guò)最大延遲的前提下，通過(guò)智能調(diào)度，將任務(wù)分配到更合適的批次中。例如，當(dāng)發(fā)現(xiàn)某條推理鏈路如果繼續(xù)插入任務(wù)會(huì)導(dǎo)致延遲超標(biāo)時(shí)，系統(tǒng)會(huì)將其切換到更早結(jié)束的批次，從而確保下一個(gè)任務(wù)可以更早進(jìn)入推理狀態(tài)。

分布式算力釋放

在分布式場(chǎng)景下，軟硬協(xié)同的優(yōu)化思路雖然簡(jiǎn)單，但在工業(yè)場(chǎng)景下的大規(guī)模實(shí)現(xiàn)具有挑戰(zhàn)性。由于請(qǐng)求的長(zhǎng)度（request length）不同，不同集群和節(jié)點(diǎn)的處理能力也各異。因此，我們傾向于將計(jì)算量大的任務(wù)分配到計(jì)算能力更強(qiáng)的節(jié)點(diǎn)上。然而，難點(diǎn)在于負(fù)載均衡。并非所有廣告或推薦請(qǐng)求的價(jià)值都相同，如果某次請(qǐng)求對(duì)系統(tǒng)的價(jià)值更高，我們會(huì)優(yōu)先處理。因此，在負(fù)載均衡策略上，我們會(huì)進(jìn)行基于請(qǐng)求價(jià)值的粗粒度預(yù)估，將高價(jià)值請(qǐng)求分配到專用計(jì)算節(jié)點(diǎn)上優(yōu)先處理，而低優(yōu)先級(jí)的請(qǐng)求可能會(huì)被拋棄或采用傳統(tǒng)算法和模型處理。

在調(diào)度層面之外，我們還嘗試了以下三項(xiàng)已被驗(yàn)證有價(jià)值的工作：

生成式推理集群：在集群層面，我們進(jìn)行了以下優(yōu)化：

大模型的集群化推理；

小批量（small batch）適配能力；

PD分離，prefill（預(yù)填充）和 decode（解碼）這是業(yè)內(nèi)常見(jiàn)的優(yōu)化手段。

KV Cache 池化：許多企業(yè)希望減少計(jì)算資源的浪費(fèi)，同時(shí)保證計(jì)算精度和效果。KV Cache 池化是應(yīng)對(duì)集群化推理的有效解決方案，能夠避免從零開始推理每條請(qǐng)求，從而提高效率。

判別式場(chǎng)景的集群化處理：在廣告場(chǎng)景中，無(wú)論是搜索還是推薦，結(jié)果的相關(guān)性是一個(gè)關(guān)鍵問(wèn)題。對(duì)于判別式任務(wù)，我們?cè)O(shè)置了單獨(dú)的集群進(jìn)行路由化處理。

為了實(shí)現(xiàn)集群化模型的分布式并行推理，我們采用了以下方法：

模型拆圖：將模型中的多個(gè)block（既有 CPU 計(jì)算密集型部分，也有 GPU 計(jì)算密集型部分）根據(jù)計(jì)算負(fù)荷和價(jià)值進(jìn)行拆分。拆圖后，將不同部分分別進(jìn)行服務(wù)化部署。通過(guò)這種方式，可以優(yōu)化集群的計(jì)算資源利用率。拆圖前，由于模型塊的差異，集群的資源利用率存在較大差異；拆圖并并行計(jì)算后，利用率趨于平衡，避免了某些資源過(guò)度使用或浪費(fèi)。

多級(jí)緩存：針對(duì)IO 瓶頸問(wèn)題，我們利用 CPU 管理的 RAM 和 GPU 的 HBM（高帶寬存儲(chǔ)器）構(gòu)建了多級(jí)緩存。這種多級(jí)緩存減少了多機(jī)之間的通信，使系統(tǒng)能夠更快地獲取預(yù)計(jì)算結(jié)果，從而實(shí)現(xiàn)更低的延遲和更高的吞吐量。

在訓(xùn)練過(guò)程中，我們發(fā)現(xiàn)了一些有效的解決方案。對(duì)于更復(fù)雜的生成式AI 訓(xùn)練（超出簡(jiǎn)單的大語(yǔ)言模型范疇），全參數(shù) GPU 同步訓(xùn)練在特定應(yīng)用場(chǎng)景下能夠顯著提升訓(xùn)練速度。

在分布式推理的調(diào)度器設(shè)計(jì)中，我們面臨的業(yè)務(wù)應(yīng)用場(chǎng)景不僅包括生成式算法模型，還涉及語(yǔ)義理解層面的相關(guān)性以及典型的排序任務(wù)（如CTR、CVR 等）。這些任務(wù)通過(guò)不同層級(jí)的調(diào)度器進(jìn)行請(qǐng)求劃分和調(diào)度。

全鏈路算力釋放

為了維持低延遲和低資源消耗的推理，我們希望從其他環(huán)節(jié)“偷”一些資源或耗時(shí)空間。具體方法如下。

端計(jì)算與預(yù)計(jì)算：我們將相當(dāng)一部分計(jì)算下沉到用戶手機(jī)端（設(shè)備端），采用端計(jì)算模式進(jìn)行大量預(yù)計(jì)算工作。在用戶發(fā)起請(qǐng)求的瞬間，我們利用召回到排序之間的這段時(shí)間進(jìn)行前置計(jì)算，這部分耗時(shí)空間約為30~100 毫秒，具體取決于不同業(yè)務(wù)場(chǎng)景。

近線計(jì)算：對(duì)于一些信息，我們只需要在一定時(shí)間內(nèi)保證其最新即可，因此可以通過(guò)近線計(jì)算的方式提前算好，然后在線上進(jìn)行查詢或直接使用。

離線計(jì)算：對(duì)于計(jì)算極其復(fù)雜且在較長(zhǎng)時(shí)間內(nèi)不會(huì)變化的任務(wù)，我們采用離線計(jì)算的方式。

通過(guò)以上層次化的劃分，結(jié)合軟硬件的定制化優(yōu)化，我們將原本100 毫秒的計(jì)算延遲拆分為多個(gè)幾十毫秒的小塊，這些小塊已經(jīng)完成了預(yù)計(jì)算。因此，真正留給實(shí)時(shí)推理和計(jì)算的任務(wù)變得相對(duì)簡(jiǎn)單，從而能夠在百毫秒以內(nèi)完成在線生成式 AI 的推理。進(jìn)一步地，我們是否可以更徹底地“偷”資源呢？答案是可以。在每個(gè)環(huán)節(jié)（如檢索、排序等）中，我們都可以利用層次化的算力設(shè)計(jì)和動(dòng)態(tài)協(xié)調(diào)機(jī)制，實(shí)現(xiàn)更加負(fù)載均衡的算力配置。

在整個(gè)算法和全鏈路設(shè)計(jì)中，貫穿了兩條核心思想：

重新定義算力邊界：我們將單環(huán)節(jié)的推理任務(wù)拆分到多個(gè)環(huán)節(jié)，重新定義了算力的邊界以及模型需要計(jì)算的內(nèi)容。

多層次任務(wù)定義與優(yōu)化：我們將復(fù)雜的計(jì)算任務(wù)定義到多個(gè)層次上，通過(guò)硬件升級(jí)、調(diào)度層面升級(jí)以及流程層面升級(jí)，帶來(lái)實(shí)際算力的提升。這樣既能夠保持全鏈路推理在百毫秒以內(nèi)，又能夠支撐一定程度的Scaling Law，以應(yīng)對(duì)不斷增長(zhǎng)的計(jì)算需求。

算法建模靈活度問(wèn)題

在算法研發(fā)過(guò)程中，算法工程師們擁有大量富有創(chuàng)意的想法。根據(jù)不完全統(tǒng)計(jì)，一個(gè)典型的業(yè)務(wù)算法工程師在一個(gè)季度內(nèi)至少希望進(jìn)行兩次上線評(píng)審，背后可能涉及近10 次想法的嘗試。如果一個(gè)公司或團(tuán)隊(duì)有幾十甚至上百名算法工程師，算法的靈活性問(wèn)題就顯得尤為突出。在這種情況下，如何在有限的耗時(shí)空間和硬件資源下，支撐靈活的算法定制，成為了一個(gè)亟待解決的棘手問(wèn)題。具體而言，如何讓生成式模型和判別式模型進(jìn)行聯(lián)合建模、訓(xùn)練和推理，是我們當(dāng)前面臨的一大挑戰(zhàn)。我們主要的解決方案是基于 Python 和 TensorFlow 進(jìn)行構(gòu)圖，以實(shí)現(xiàn)聯(lián)合訓(xùn)練和推理。

在召回層面，雖然可以通過(guò)生成式技術(shù)（例如Semantic ID）對(duì)商品進(jìn)行表征，根據(jù)用戶的歷史行為（如瀏覽、點(diǎn)擊等）預(yù)測(cè)其未來(lái)可能感興趣的商品，但這只是最基礎(chǔ)的檢索問(wèn)題。檢索結(jié)果還需要進(jìn)行相關(guān)性判斷，并進(jìn)入粗排環(huán)節(jié)進(jìn)行打分和排序。在這個(gè)過(guò)程中，如果發(fā)現(xiàn)相關(guān)性已經(jīng)失衡，那么可能根本不需要進(jìn)行粗排打分，甚至某些類目下的商品或推薦項(xiàng)也無(wú)需生成。這種將生成式和判別式算法鏈路耦合后的結(jié)構(gòu)剪枝，即推理過(guò)程中的剪枝，已被實(shí)驗(yàn)驗(yàn)證可以顯著提升召回率和準(zhǔn)確率，甚至達(dá)到兩位數(shù)的提升。這種效果非常明顯且令人震驚。

為了實(shí)現(xiàn)召回和粗排一體化（召排一體），業(yè)界最典型的做法是先召回一個(gè)大集合，再進(jìn)行過(guò)濾和粗排，形成三個(gè)環(huán)節(jié)。但如果將這三個(gè)環(huán)節(jié)合并為一個(gè)，即召回加粗排一體，會(huì)面臨哪些問(wèn)題呢？

以典型的稀疏模型（如粗排或精排的CTR 模型）為例，其稠密部分的計(jì)算量相對(duì)較小（約 0.5T Flops），但 embedding table 占比巨大。而典型的生成式模型，其 Dense 部分非常龐大，對(duì)算力要求極高，但 embedding 等外掛信息相對(duì)較少。如果希望將這兩種模型進(jìn)行耦合或聯(lián)合建模，數(shù)據(jù)是否充足是一個(gè)關(guān)鍵問(wèn)題。下圖引用了一張開源公開文章中的截圖，顯示高質(zhì)量語(yǔ)料數(shù)據(jù)被認(rèn)為已接近耗盡，預(yù)計(jì)耗盡的時(shí)間點(diǎn)在 2028 年左右。然而，在我們的業(yè)務(wù)場(chǎng)景中，用于訓(xùn)練最典型的稀疏模型的數(shù)據(jù)仍然非常充足。如果僅關(guān)注生成式模型，數(shù)據(jù)耗盡的風(fēng)險(xiǎn)確實(shí)存在。但如果考慮生成式與判別式模型的聯(lián)合建模，數(shù)據(jù)空間仍然較為充裕。無(wú)論是生成式模型還是判別式模型，其參數(shù)增長(zhǎng)的勢(shì)頭并未減緩，反而仍在加速增長(zhǎng)。

如果簡(jiǎn)單地將兩者耦合進(jìn)行推理，會(huì)立即遇到一個(gè)明顯的問(wèn)題——“撞墻”。目前主流的大語(yǔ)言模型，無(wú)論是在 Google 的 TPU、英偉達(dá)的 GPU 還是 AMD 的 MI 推理芯片上運(yùn)行，其推理的 token 吞吐量似乎都集中在較低水平，主要受限于 HBM（高帶寬存儲(chǔ)器）的瓶頸。隨著參數(shù)增長(zhǎng)、數(shù)據(jù)量和模型結(jié)構(gòu)的擴(kuò)大，推理環(huán)節(jié)已經(jīng)成為制約因素。在這種情況下，單純依靠硬件提升已無(wú)法滿足聯(lián)合訓(xùn)練和推理的需求。

我們提出采用分而治之的分層思想來(lái)解決這個(gè)問(wèn)題。業(yè)界常用的硬件解決方案及其對(duì)應(yīng)的技術(shù)棧為我們提供了分層的空間。我們的分層邏輯包括定制化和優(yōu)化兩個(gè)層面，最上面是業(yè)務(wù)層面。通過(guò)通信、建模和數(shù)據(jù)的三層解耦，我們可以找到三者之間的有機(jī)平衡關(guān)系。這意味著通過(guò)利用局部計(jì)算特性，HBM 的通信問(wèn)題得到了一定程度的緩解。

生成式& 判別式聯(lián)合推理能力

在生成式和判別式聯(lián)合推理能力方面，我們以基于TensorFlow 的 CTR（點(diǎn)擊通過(guò)率）和 CVR（轉(zhuǎn)化率）排序模型（即典型的稀疏模型）為例，同時(shí)結(jié)合像 LLaMA 等典型的大語(yǔ)言模型。我們的目標(biāo)是將這兩者耦合在一起，這種耦合并非簡(jiǎn)單的分步推理（即上一步推理完成后再進(jìn)行下一步），而是通過(guò)直接共享 hidden state（隱藏狀態(tài)）來(lái)驅(qū)動(dòng)整個(gè)圖的共享，從而實(shí)現(xiàn)整個(gè)推理過(guò)程的封裝。

在推理過(guò)程中，我們同時(shí)采用多引擎進(jìn)行推理：一方面通過(guò)TensorFlow 的 Graph engine 進(jìn)行觸發(fā)和驅(qū)動(dòng)，另一方面驅(qū)動(dòng) TensorRT engine 推理引擎。最終，我們實(shí)現(xiàn)了生成式和判別式模型的有機(jī)結(jié)合，并且避免了“撞 HBM 的墻”，能夠在業(yè)務(wù)場(chǎng)景中真正實(shí)現(xiàn)推理。

（轉(zhuǎn)載自：infoq）

SOFTWARE ｜軟件開發(fā)