阿里云披露大模型最新進展：“通義聽悟”攻向音視頻賽道-天天觀察

2023-06-01 20:55:22 來源：第一財經

(相關資料圖)

作為大模型最為活躍的領域，自然語言處理成為眾多科技公司在研發上的主攻方向，阿里也不例外。

6月1日，阿里云對外披露通義大模型最新進展，瞄向AI音視頻賽道推出“通義聽悟”，并且正式開啟公測。這距離“通義千問”的發布還不到兩個月的時間。

根據會議現場工作人員的演示，通義聽悟可以實時完成對音視頻內容的轉寫、檢索、摘要和整理，利用大模型的能力自動做筆記、整理訪談、提取PPT等。阿里云CTO周靖人表示，通義聽悟能夠實時記錄、多語言翻譯、發言總結、問題回顧，視頻體驗方面，支持云盤導入和本地上傳、章節速覽、全文概要等。

聽悟技術負責人鄢志杰則對記者表示，通義聽悟的前身是阿里云內部一個名為“聽悟”的產品，主要為投資部、HR等部門做項目會議的音頻轉寫功能，在2022年，這款產品的潛力逐步被挖掘，內部開始思考其工具屬性是不是要發生變化。

“工具是什么？受人支配，它不會比人更聰明，也不會比人懂得更多。但是工具在與通義天問大模型能力相結合以后，這種工具能力就變成了助手能力，能夠幫人解決一些問題。”鄢志杰表示，在多模態的布局下，阿里云就這樣將聽悟形成了產品。

但和其他生成式人工智能應用一樣，如何保護數據隱私也是通義聽悟需要向個人用戶以及企業合作方解答的首要問題。一方面，人工智能公司需要大量的數據來訓練更聰明智能的大模型，另一方面，隨著越來越多用戶將人工智能應用納入工作流，上傳的數據中難免會夾帶公司機密信息。

周靖人對記者表示，目前企業的需求中包括了數據安全、數據隱私等各個方面的要求，阿里也有完整的企業級產品系列。他強調，雖然企業通過大模型來提升日常工作效率，但并不代表這些數據會用于大模型自身的訓練。

“比如，通義千問技術的模型訓練不依賴于用戶數據，而是更多依賴于基礎的知識理解，這種應用再結合會議的場景以及視頻的場景，才誕生了今天的通義聽悟，更多是利用技術模型的能力去幫助我們做總結、翻譯以及內容的摘取。”他說。

但從目前市場的競爭來看，大模型賽道已經相當擁擠。中國科學技術信息研究所所長趙志耕此前表示，中國10億以上參數規模的大模型已經接近80個，自然語言處理領域更是競爭激烈。

面對當前大模型的競爭，周靖人表示，目前外界對大模型要求很高，從通義千問發布以來，阿里云也陸陸續續做了大量工作，并在全國開始部署AI的模型。“同時在云的底層通過一系列模型優化不斷降低模型使用的成本，降低模型所使用的資源，只有這樣能夠讓模型真正意義大規模去服務社會。”