如何縮短大模型發展差距？人工智能專家提到這個突破關鍵

2023-07-27 22:11:40 來源：第一財經

以深度學習為代表的新一代人工智能和以大模型為代表的通用人工智能不斷取得技術突破，將成為智能產業的根技術和智能經濟的基礎設施。相較國際上的大模型發展，我國大模型發展水平處于什么階段？

(資料圖)

在清華大學人工智能研究院常務副院長孫茂松教授看來，ChatGPT出現之前，我國人工智能發展水平和國際先進水平相差半個肩位，現在這個距離從半個肩位到了100米，這半年經過追趕后縮短了“30米”，但仍然還有差距。

在他看來，我國乃至全球發展大模型最終的突破關鍵，是基礎科學的突破。

孫茂松日前在浦江基礎科學發展論壇上接受第一財經采訪時說，對于大模型，當前的問題在于并不清楚OpenAI的機理是如何運作的，就連推出ChatGPT的OpenAI公司首席執行官薩姆·奧特曼也表示，雖然做出了GPT但也不清楚發生的原理，“實際上就是對這個機理還不清楚。”

他認為，現有的人工智能模型已經能做到說話通順，但這個問題的內在仍然十分復雜。如果弄清楚了大模型里的規律、ChatGPT背后的機理，就有可能克服現有人工智能大模型的局限性，建立下一代人工智能的理論和模型。

“百模大戰”不是貶義

今年以來，生成式人工智能的發展成為地方政府和科技大廠瞄準的關鍵詞。科技部人工智能發展研究中心5月底發布的《中國人工智能大模型地圖研究報告》顯示，當前國內10億參數規模以上的大模型已發布79個。

不過，與熱度不減的市場呼聲相比，我國國產大模型并未有驚艷的使用體驗。

提到我國如今出現的“百模大戰”情況，孫茂松強調這并不是一個貶義詞，而是我國人工智能的實力象征。

早在2010年國內就已跟進大模型研究，在學術界和工業界一直都很“熱”，只不過這次ChatGPT點了幾把“火”。孫茂松說：“之前我們和國際先進水平相差半個肩位，ChatGPT的出現一下甩出‘100米’，經過這半年的追趕縮短了‘30米’，但還沒有質的變化。目前ChatGPT用于專業領域還不行，建議‘百模’在提升基礎模型能力基礎上，深耕行業的垂直應用。”

業界有個說法，人工智能主要是中美之間的PK。根據前不久中國科學技術信息研究所發布的《2022全球人工智能創新指數報告》，中美兩國引領、呈梯次分布的全球人工智能發展總格局保持不變。美國人工智能創新指數已連續四年位居全球第一。中國人工智能發展成效顯著，人工智能創新指數近三年一直保持全球第二的水平，在人才、教育、專利產出等方面均有所進步，但基礎資源建設水平仍有待提高。

相比2021年，中國有10個三級指標2022年名次有所上升，主要集中在人才、教育、專利產出、創新制度等方面。優勢指標數量也不斷增長，從2021年的15個增加到2022年的18個。但整體發展水平與美國還存在一定差距。此外，相較于自身快速增長的創新產出而言，其創新投入規模和質量還有很大提升空間。

基礎科學是縮小差距的關鍵

談及如何進一步追趕國際先進水平，孫茂松認為還是要回到基礎科學上來。“如果能夠研究透徹大模型的機理，就可能棋高一著。”

他認為，現有的人工智能模型已經能做到說話通順，但這個問題的內在仍然十分復雜。

“深度神經網絡背后的元素都是數學，但它又跟純數學有不一樣的地方，它的信息量非常大，以前數學從來沒有想到能放這么多東西進來，現在大模型背后涉及的大數據是萬億級的。數學家以前也從來沒解過這么大的一個方程組。”孫茂松說。

除了基礎科學，他還提到了人才的重要性。

“人工智能最前沿之爭就是人才的競爭，頂尖高手決定了人工智能的高度，廣泛的應用決定了人工智能的廣度。”孫茂松認為，人工智能的發展需要一流的人才，這些人才除了具備頂尖的能力，還要有遠大的科學理想、敏銳的洞察力和對技術的激情。

另外，對于大模型出現一本正經講廢話的情況，業界也開始討論語料投喂的范圍。

在孫茂松看來，由于現在大模型的語料利用還處于粗放階段，僅僅是從網絡上抓取語料，并未涉及超鏈接、圖片處理以及文本結構的識別等。因此，現階段運用大模型寫長文小說肯定是不行的，但寫一些短文還不錯。“它沒有辦法保持邏輯流暢，因為大模型就是對下一個詞的預測，預測得再好，它對語料的利用還是有明顯的不足。”

孫茂松認為，雖然要對語料質量保持關注，刪除糟糕的語料以及計算機生成的語料，但語料的選取也有兩面性。“水至清則無魚，越純越好的語料可能導致多樣性損失，需要找到一個平衡。比如我喂的語料都是‘高大上的’，大模型就看不懂現在這些帶有表情符的語料。歸根結底要根據使用者所需要的模型來訓練。”

（實習生張玙萱對本文亦有幫助）

標簽：