當前大模型和AIGC引領新一輪人工智能創新浪潮。那么,隨之而來的數據流通和安全倫理問題,應該如何解決?
在2023世界人工智能大會(WAIC)上,政企學界圍繞人工智能的數據流通和安全可靠進行了討論。
數據有效供給是關鍵
(資料圖片僅供參考)
作為人工智能大模型中的關鍵性因素,數據決定了模型的訓練質量、性能表現和應用領域的廣度與深度。如何有效獲取數據,成為生成式人工智能的第一道“關卡”。
在8日舉行的WAIC“大模型時代下的數據要素流通”主題論壇上,上海數交所總經理湯奇峰說, 大模型時代下的語料庫建設存在供給不足、質量不高、多樣性匱乏、標準欠缺等問題。 “語料庫建設不是單一企業的責任,需要多方共同推進,如果每個企業都單獨建設維護語料庫,會拉低效率,也會增加企業成本,數交所希望通過自己的努力加強數據要素建設提升語料庫建設效率。”
中國電子副總經理陸志鵬也表示,大模型技術實現高質量發展,數據有效供給是關鍵,亟需建設安全可信的數據底座。當前數據合規確權、計量估價、協調分配、安全隱私保護等核心難題需要破解。
關于語料庫建設的挑戰,湯奇峰稱,這主要集中在開放程度和數據質量兩方面。比如,能否有大模型企業所需的高質量語料?目標對象愿不愿意開放數據?針對數據質量高但開放程度低的供方,可以通過數據交易鏈有效破解語料數據流通的信任問題。“核心問題之一在于產權和參與大模型后的收益分配。”
7月7日,上海數交所官網正式上線語料庫,累計掛牌近30個語料數據產品,包含文本、音頻、圖像等多模態,覆蓋金融、交通運輸和醫療等領域,并牽頭發起語料數據生態創新合作伙伴計劃。
湯奇峰說,大模型建設中,語料庫是非常重要的方向,語料庫采購已經在不少大模型企業成本中占較大比重。上海數交所希望以市場配置的方式組織數據要素推動語料庫建設。“比如,有的企業具有海量高質量數據資源,開放意愿度也很高,但需要組織大量社會第三方企業幫助組織相關的大模型訓練,我們針對四類數據產品開發情況不同、實際需求不同的供方企業制定了差異化工作策略,著力打造語料數據生態。”
金葉子/攝
安全倫理如何解決
如何平衡大模型發展中的技術與倫理問題,也是今年WAIC論壇上業內人士關注的問題。
中國信通院副院長王志勤在“2023聚焦·大模型時代AIGC新浪潮論壇可信AI專場”上表示,伴隨著大模型能力的涌現,人工智能固有技術風險也在持續加大。人工智能可信面臨著全新的挑戰,對人工智能安全可信的要求也提到前所未有的高度。各國政府、業界紛紛加入推動可信人工智能發展行列中。
在中科院自動化研究所研究員、人工智能倫理與治理中心主任曾毅看來,生成式人工智能目標是通用、多任務。但一個生成式人工智能,沒有進行倫理和價值觀校準前,問它倫理道德相關問題,它的回答具有非常明確的統計顯著性,這個統計顯著性反映的是人類的偏見。沒有安全倫理框架的人工智能,實際上是沒有底線的。“為什么我們進行可信人工智能、人工智能倫理研究?這正是它的必要性所在。我要明確表示一個觀點,我們應該明確區分人工智能與人類的界限。”
曾毅認為,在用生成式人工智能進行創新的時候,不能僅僅討論機遇,也不能只看法律限制。在某些問題上,即使沒有觸犯法律,但違反了社會倫理道德,也不應該去做。“即使通用人工智能真正 ‘上善若水’,人與人工智能是否能夠和諧共生,最終取決于人如何行為,而不是人工智能。”
本屆WAIC發布了《可信AI技術和應用進展白皮書(2023)》、《人工智能大模型倫理規范操作指引》、《AIGC風險評估框架(1.0)》等一批成果,規范生成式人工智能發展中伴隨的風險和倫理問題。
關于我們| 聯系方式| 版權聲明| 供稿服務| 友情鏈接
咕嚕網 www.fyuntv.cn 版權所有,未經書面授權禁止使用
Copyright©2008-2023 By All Rights Reserved 皖ICP備2022009963號-10
聯系我們: 39 60 29 14 2@qq.com