當下,大模型的火熱已成為行業共識,從時間線上看,2022年12月大模型實現破圈爆火,2023年3月,因NVIDIA CEO 黃仁勛在NVIDIA GTC Keynote 中首次提及向量數據庫,強調其在構建專有大型語言模型的組織中的重要性,行業內部人士逐漸意識到,向量數據庫可以支持大模型進行信息召回,彌補大模型長期沒有記憶等問題,拓寬大模型邊界。
近日,騰訊云發布AI 原生(AI Native)向量數據庫Tencent Cloud VectorDB。該數據庫能夠被廣泛應用于大模型的訓練、推理和知識庫補充等場景,是國內首個從接入層、計算層、到存儲層提供全生命周期AI化的向量數據庫。自2019年開始在內部PCG業務團隊進行孵化,目前已應用在了騰訊視頻、QQ瀏覽器、QQ音樂等多款產品中。
何為向量?機器學習與數據科學中,向量代表一組數字,構成多維數值空間。向量的每個維度代表該空間的一個不同的特征或屬性,如文本中每個詞的出現頻率等。通過對向量進行數學運算,可以實現各種機器學習算法和數據分析技術。單就數據而言,只有向量化之后的數據才能被AI模型所分析。向量數據庫是一種專門用于存儲和管理向量數據的數據庫。
(資料圖片僅供參考)
行業內將大模型稱為“大腦”,向量數據庫則是其“海馬體”。騰訊云數據庫副總經理羅云表示,團隊內部有一個共識——如果你看好AI,你就可以看好向量數據庫。因為在AI市場中,大模型有兩大限制——一個是時間上,一個是空間上。前者因客戶希望使用最新數據進行訓練,后者系客戶不愿將私域數據放在公開場合進行大模型訓練。而這兩方面問題,向量數據庫都可以解決。
相對于大模型的高調火熱,向量數據庫更多在靜悄悄地發生迭代。近一個月內,向量數據庫迎來融資潮,Qdrant、Chroma、Weaviate先后獲得融資,Pinecone宣布1億美元B輪融資,估值達到7.5億美元。東北證券預測,到2030年,全球向量數據庫市場規模有望達到500億美元,國內向量數據庫市場規模有望超600億人民幣。
羅云透露,目前每天不止一到兩位客戶會前來咨詢向量數據庫什么時候能夠給他們使用。整體來講大家對向量數據庫的關注度、對它需求的迫切度都很高。
但需注意的是,從技術與行業層面,向量數據庫仍面臨幾方面的挑戰。其一是向量化數據有著高昂的計算成本,尋求存儲成本替代是必要的。該部分成本主要來自數據預處理、特征提取和向量化表示的生成,涉及大量復雜數學運算,消耗大量的計算資源和時間。
對此,羅云對第一財經記者表示,數據庫主要解決低成本存儲數據與高效檢索數據的問題,向量數據庫也一樣。目前主要在檢索層面成本非常高昂,業界目前有幾種解決方案,其一是在算法層面進行優化,其二是通過云上資源調度體系,用更合適的資源對底層算力成本做更好的補充。
但成本層面,短期內,羅云判斷不會發生數量級的差異,更多會發生在應用性方面,推動數據庫與云資源體系結合,讓產品更穩定,實現單價成本有20%~30%的提升。
第二方面的挑戰是平臺產品與開源社區之間的關系。向量化技術并非新鮮事物,目前已十分成熟,并存在大量開源解決方案,在不同的領域也存在不同的向量化方案,如目前存在Zilliz等做開源向量數據庫的公司。
對于大平臺與開源社區之間的關系,羅云對第一財經記者表示,目前國內外在云計算領域的發展階段不同,國內場景更多的企業對公有云持有觀望態度,這樣的背景下,更多客戶對數據類產品相對謹慎,因此公有云廠商提供的數據服務相對而言更有競爭力。
廣發證券計算機團隊表示,在過去AI模型訓練數據量較小、數據類型單一的情況下,向量數據庫可應用的場景較小。自2017年Transformer模型推出后,各科技廠商開始大語言模型的探索,對于向量數據庫的需求開始形成規模。但向量數據庫適于AI大模型非結構化場景,市場需求尚處于初期,中遠期規模還不到夸張之時。
關于我們| 聯系方式| 版權聲明| 供稿服務| 友情鏈接
咕嚕網 www.fyuntv.cn 版權所有,未經書面授權禁止使用
Copyright©2008-2023 By All Rights Reserved 皖ICP備2022009963號-10
聯系我們: 39 60 29 14 2@qq.com