騰訊混元大模型姍姍來遲，高管解說有這幾點考慮

2023-09-07 21:51:26 來源：第一財經

雖然此前騰訊集團CEO馬化騰表示不急于推出半成品大模型，但在這樣的技術迭代節點，缺席不行。

(資料圖)

9月7日，騰訊終于通過騰訊云對外開放通用大模型“騰訊混元”，由騰訊全鏈路自研，擁有超千億參數規模，預訓練語料超2萬億tokens。token是指一段文本的最小獨立部分，大模型中，token可以是一個單詞也可以是一個字符，一般會對token數量進行限制以避免超過模型的最大處理能力。

作為“混元”的領隊，騰訊集團副總裁蔣杰2012年加入騰訊，2020年完成騰訊廣告投放端整合。廣告業務也是混元大模型的重要“試驗地”，除此之外，云、游戲、金融科技、騰訊會議、騰訊文檔等超過50項騰訊業務與產品均接入混元大模型測試。

相較于國內百度、阿里，以及人工智能創業公司在今年上半年的高調與迅速，騰訊在通用大模型領域稱得上“緩慢”。除了馬化騰所解釋的“早一個月把電燈泡拿出來不那么重要”外，采訪中騰訊集團高級執行副總裁、云與智慧產業事業群CEO湯道生表示，通用大模型對計算要求非常高，數據的積累也花費漫長時間，且行業大模型的發布能夠滿足具體客戶的需求。

此次“延遲”亮相的通用大模型有哪些不同？蔣杰表示，騰訊混元重點關注中文創作能力，提高了模型在場景中的推理能力，讓模型能夠更好地抗拒“誘導”，并通過自研的“探真”技術來優化普遍存在的幻覺問題。

OpenAI研究人員此前撰文表示，“即使是最先進的人工智能模型也很容易產生謊言，它們在不確定的時刻往往表現出捏造事實的傾向。而這些幻覺在需要多步驟推理的領域尤其嚴重，因為一個邏輯錯誤就足以破壞一個更大的解決方案。”OpenAI采取獎勵每個正確推理步驟取代獎勵正確結果的方式來矯正幻覺問題。

騰訊通過探真（truth forest）等技術降低大模型的幻覺，而不是“背題”等單點優化的方式。蔣杰表示，外界會用到知識圖譜甚至搜索外掛來提高大模型的檢索支持能力，如有些開源模型廠商所發布的大模型中，搜索增強技術就占比10%甚至更多，但這會導致不一樣的幻覺問題。騰訊也會用到這些增強技術，比例并不高，在預訓練階段優化目標函數，“徹底解決幻覺問題是非常非常難的，只能從概率上做到更低。”蔣杰成說。

騰訊選擇全鏈路自研的路徑主要是為了技術迭代更快，也可以和內部業務及應用有更深度的結合。此外，騰訊有海量高并發業務，開源架構的大模型不能夠支撐騰訊的業務體量。

相較于其他大廠或創業公司提速開源的動作，騰訊混元目前所有能力均開放給騰訊業務部門，各業務基于混元的能力上去和更多的應用結合，把選擇的主動權交給了集團業務部門。

優先結合自身應用的考量還包括了對大模型落地C端還是B端，蔣杰稱，大模型在B端產生大規模商業收入這件事還有待探索，目前騰訊通用大模型在成熟度與對復雜任務的處理能力方面還不夠，因此很多嚴肅專業場景還不到“解鎖”的時候。另外大模型結合自身應用也可以在一定程度上抵消大模型研發高昂的設備、訓練、人員成本。

目前騰訊擁有13.3億微信（合并WeChat）月活用戶數，1.15億視頻付費會員，1億音樂付費會員，外界頗為關注這樣大基數的產品疊加大模型技術后會發生什么改變。蔣杰對第一財經記者表示，騰訊產品和應用要提供什么能力和服務，以及什么時間發布，會由業務部門自己決定。

最終公布了通用大模型產品的騰訊殺入了戰局。目前行業共識一方面AIGC是大趨勢，另一方面大模型的能力邊界與呈現形式到底如何并無定論，判斷算力底座與大模型應用誰會是下一個技術時代的顛覆者也為時過早。

湯道生對第一財經記者表示，AI服務包括應用層、模型層、基礎設施層。騰訊會持續投入云服務底座的角色，騰訊會將合適模型推薦給客戶，應用場景也是如此。

如果以容錯率和任務復雜度為坐標軸制作一個2x2矩陣，蔣杰表示，當前國內發布的大模型應用主要集中在容錯率高、任務簡單的休閑場景。而在更具價值的嚴肅場景、工作場景和專業場景，大面積的應用還無法勝任。

因此，蔣杰表示騰訊大模型會更關注將提效基礎能力做好——不胡言亂語，更安全，可靠性更強，具備更好的邏輯思維能力等，這些才是最核心的。

標簽：