AI拼到最后,拼的是數(shù)據(jù)還是模型?
來源:湖北國菱計算機科技有限公司-湖北國聯(lián)計算機科技有限公司-荊州網站建設-荊州軟件開發(fā)-政府網站建設公司
時間:2025-07-16
大數(shù)據(jù)產業(yè)創(chuàng)新服務媒體
——聚焦數(shù)據(jù) · 改變商業(yè)
過去兩年,大模型成為企業(yè)數(shù)智化詞典中出現(xiàn)頻率最高的詞之一。DeepSeek、字節(jié)跳動的豆包、阿里通義、百度文心——AI正以肉眼可見的速度普及。但當我們從技術敘事回到企業(yè)實踐,情況并不樂觀。大模型的確讓AI更聰明了,但在企業(yè)落地層面,模型之間的差異正在迅速縮小。真正拉開差距的,是企業(yè)是否擁有能夠與大模型深度結合的高質量私有數(shù)據(jù)——AI只有讀懂企業(yè)自己的數(shù)據(jù),才能發(fā)揮真正的業(yè)務價值。星環(huán)科技注意到這個現(xiàn)實。在5月27日舉辦的“AI×Data:新一代AI Infra”年度發(fā)布會上,這家深耕大數(shù)據(jù)行業(yè)十余年,也是中國第一家上市的大數(shù)據(jù)公司,拋出了一個重要命題:企業(yè)智能化能力的差異,不再取決于選用了哪種大模型,而是取決于能否高效激活和利用自身的私有數(shù)據(jù)資產——其核心支撐,正是一套真正具備AI就緒能力的數(shù)據(jù)平臺(AI-Ready Data Platform)。
那么,什么是AI-Ready Data Platform,對于企業(yè)AI應用發(fā)展有什么價值?接下來,我們就這些問題來進行探討。AI落地的五大“真問題”,90%都與數(shù)據(jù)有關
當大模型已經“商品化”,企業(yè)之間的差距從模型轉向了“落地能力”。星環(huán)科技在這次發(fā)布會上,明確指出企業(yè)在AI落地中常見的五個系統(tǒng)性難題,而這五個問題,有一個共同的根因——數(shù)據(jù)失效。
1. 數(shù)據(jù)孤島嚴重,存儲結構單一,大模型“無數(shù)據(jù)可用”在企業(yè)內部,數(shù)據(jù)普遍存在于多個系統(tǒng)之中:ERP、CRM、呼叫中心、IoT設備、日志平臺、報表系統(tǒng)……不同業(yè)務系統(tǒng)各自為政,形成典型的數(shù)據(jù)孤島。更關鍵的是,大多數(shù)企業(yè)的數(shù)據(jù)平臺依舊停留在以關系型數(shù)據(jù)庫為主的單一結構,缺乏對向量、圖譜、時序等多模數(shù)據(jù)模型的支持。而這些,正是大模型運行和理解復雜業(yè)務語義所必需的基礎要素。
2. 數(shù)據(jù)質量差,喂得再多也沒用很多企業(yè)會把所有數(shù)據(jù)都“倒進模型”,期望它自動產生答案。但數(shù)據(jù)本身如果缺失、混亂、過時,甚至自相矛盾,那模型只能輸出“垃圾中的平均值”。AI不是魔法,它也需要“干凈的食物”。數(shù)據(jù)標準、標簽一致性、元數(shù)據(jù)管理……這些看似枯燥的工作,恰恰決定了AI能否理解上下文,是否具有可靠的反饋能力。
3. 非結構化數(shù)據(jù)堆積如山,難以利用企業(yè)80%以上的數(shù)據(jù)來自PDF、圖像、網頁、郵件、聊天記錄等非結構化信息。這些內容藏著大量的業(yè)務邏輯與領域知識,但無法直接供模型使用,導致AI“聰明的地方剛好餓著”。這就引出一個技術瓶頸:企業(yè)是否有能力把非結構數(shù)據(jù)轉化為模型能理解的形式?
4. AI項目碎片化,成本高昂當前AI應用開發(fā)普遍存在“碎片化建設”問題:客服線一套AI,營銷線一套AI,風控線再來一套。模型、語料、推理流程各自為政,缺乏平臺級復用機制。結果是:成本翻倍,治理困難,數(shù)據(jù)邏輯割裂。這也是為什么“模型越多,效果反而越差”的悖論開始浮現(xiàn)。
5. 模型“懂邏輯”,卻不懂業(yè)務大模型在語言和知識方面的能力是強的,但企業(yè)需要的不只是語法正確的答案,而是基于內部數(shù)據(jù)、規(guī)則和行業(yè)語境給出的“合理建議”。換句話說,AI可以生成句子,但不代表它能理解一個銀行的審批流程,或者一家制造企業(yè)的質量控制規(guī)則。這需要“知識建模”和“業(yè)務上下文”的注入,而這正是多數(shù)企業(yè)目前缺失的部分。從“AI+Data”到“AI×Data”:企業(yè)該如何破局?在這樣的背景下,越來越多的企業(yè)意識到:數(shù)據(jù)不是AI的附屬品,而是AI能力真正的“燃料庫”和“底盤系統(tǒng)”。星環(huán)科技在發(fā)布會上提出了一個關鍵公式:AI×Data=企業(yè)智能化能力的新范式。不同于傳統(tǒng)的“AI+Data”時代,AI作為交互方式去訪問數(shù)據(jù)(即模型+數(shù)據(jù)調用),“AI×Data”強調的是深度耦合、雙向驅動。AI前置到數(shù)據(jù)加工的全鏈路流程當中,數(shù)據(jù)采集、清洗、治理,到最后的數(shù)據(jù)分析都全面AI化。正是基于這一洞察,星環(huán)科技推出了“AI-Ready Data Platform”,定位為AI基礎設施的核心引擎。這個平臺不是簡單的數(shù)據(jù)管理工具,而是解決企業(yè)AI落地過程中“數(shù)據(jù)全流程瓶頸”的系統(tǒng)級平臺。什么是AI-Ready Data Platform?它解決了什么問題?
一套平臺想要支撐AI的全生命周期,需要遠比傳統(tǒng)數(shù)據(jù)庫更復雜的能力結構。星環(huán)科技將其定位為企業(yè)AI基礎設施的“數(shù)據(jù)地基”,不僅僅是因為它承擔數(shù)據(jù)存儲任務,更因為它重構了數(shù)據(jù)在AI系統(tǒng)中的“角色”。在傳統(tǒng)系統(tǒng)中,數(shù)據(jù)是“被提取、被使用”的靜態(tài)資源;但在AI時代,大模型對數(shù)據(jù)的要求不僅是體量,更是多樣性與語義深度——它需要向量、圖譜、時序、文本、關系型等多種模型的數(shù)據(jù)融合處理,才能理解復雜業(yè)務語境、支撐精準推理,這也正是AI-Ready Data Platform的核心要義。當然,一個先進的理念,如果不能落地為可用的技術產品,那也是一句空話。那么,星環(huán)科技如將AI-Ready Data Platform落地為其技術產品體系呢?接下來,我們來拆解一下星環(huán)科技AI-Ready Data Platform的五大核心能力,并講清楚每種能力是由哪些具體產品來承載的。
1. 多模型統(tǒng)一存儲:打破數(shù)據(jù)壁壘,從底層做起☆核心產品:TDH(Transwarp Data Hub)它能在統(tǒng)一框架中管理關系型、圖、時序、向量等數(shù)據(jù),不僅簡化了存儲層的架構,還實現(xiàn)了跨模型的數(shù)據(jù)調用與分析。例如,在一個風控系統(tǒng)中,可以同時調用賬戶交易表(關系型)、行為路徑圖(圖數(shù)據(jù)庫)與客戶行為向量(向量數(shù)據(jù)庫)做出聯(lián)合判斷。值得提出的是,這一架構使星環(huán)科技成為國內首個通過信通院"多模數(shù)據(jù)庫產品評測"的廠商,也是國內首批發(fā)布分布式向量數(shù)據(jù)庫的企業(yè),并入選Gartner"數(shù)據(jù)庫產品品類最多的廠商之一"。
2. 非結構化數(shù)據(jù)處理:讓“沉默數(shù)據(jù)”說話☆核心產品:Corpus Studio這是一個語料轉化與語義抽取工具。它能從PDF文檔、網頁、合同、聊天記錄等數(shù)據(jù)中提取結構化信息,例如政策編號、責任主體、關鍵指標等,進而構建AI可訓練的語料庫。企業(yè)長期積累的大量文檔和內部制度,可以在這個過程中變成AI訓練數(shù)據(jù),而非被遺棄。
3. 數(shù)據(jù)治理能力:數(shù)據(jù)不是越多越好,而是越“干凈”越好☆核心產品:TDS(Transwarp Data Studio)在AI時代,數(shù)據(jù)治理的目標變了。它不再是簡單的ETL或元數(shù)據(jù)管理,而是對數(shù)據(jù)進行質量評估、標準化抽取、指標血緣追蹤、語義校驗等更高階工作。TDS提供的是一套自動化的數(shù)據(jù)“整形與規(guī)范”系統(tǒng),讓數(shù)據(jù)變得可控、可解釋、可追溯。
4. 知識建模:構建AI的“企業(yè)語境”☆核心產品:TKH(Transwarp Knowledge Hub)+ Knowledge LodgeAI不懂企業(yè)流程,是因為它沒有“背景知識”。TKH承擔的是“知識工程”的角色——將數(shù)據(jù)中的業(yè)務邏輯(如審批規(guī)則、流程節(jié)點、行業(yè)術語)抽象為語義圖譜,構建出可供AI參考與推理的“企業(yè)語境模型”。這使得AI不再僅僅是聊天工具,而能成為“業(yè)務場景中的智能體”。
5. 實時數(shù)據(jù)洞察:讓AI反饋速度與業(yè)務節(jié)奏匹配☆核心產品: 實時湖倉集一體平臺實時處理能力已成為AI落地的基礎設施要求。在金融、制造、電商、物流等領域,業(yè)務變化是秒級的,而AI推理結果不能在分鐘甚至小時之后再反饋。星環(huán)科技的實時湖倉集一體平臺,打通了數(shù)據(jù)湖、數(shù)據(jù)倉庫與數(shù)據(jù)集市,使得數(shù)據(jù)鏈路更短,數(shù)據(jù)落地即分析。該平臺,能夠實現(xiàn)數(shù)據(jù)端到端實時接入和秒級分析,幫助企業(yè)實現(xiàn)實時數(shù)據(jù)接入、實時處理和實時分析,進而提供全流程的實時數(shù)據(jù)洞察能力。此外,星環(huán)科技在此次發(fā)布會上重點介紹了Sophon LLMOps 1.6平臺的進化。作為AI×Data融合的關鍵引擎,星環(huán)科技Sophon LLMOps平臺已成為企業(yè)構建AI基礎設施的核心組成。平臺通過“星鑄(模型開發(fā))、星典(知識工程)、星解(語料工程)、星構(應用開發(fā))”四大模塊,覆蓋從模型開發(fā)、知識建模、語料處理到應用編排的全生命周期,打通了從數(shù)據(jù)到知識、從模型到應用的閉環(huán)路徑。
需要指出的是,星環(huán)科技的各項產品不是孤立的,而是通過多條產品的融合,來打造的是“數(shù)據(jù)操作系統(tǒng)”。那么,如何來理解“數(shù)據(jù)操作系統(tǒng)”,它與我們常說的“數(shù)據(jù)庫”或“中臺”又有什么不同呢?數(shù)據(jù)庫是存儲引擎,數(shù)據(jù)中臺是協(xié)調機制,但數(shù)據(jù)操作系統(tǒng)是主動管理和調度數(shù)據(jù)智能能力的執(zhí)行環(huán)境。傳統(tǒng)數(shù)據(jù)庫擅長做結構化數(shù)據(jù),但面對圖譜、全文檢索、時序流、嵌入向量時,往往需要引入多個獨立產品來協(xié)同使用。企業(yè)的常見搭配是:Hive管理海量歷史數(shù)據(jù)、ClickHouse做分析、HBase處理事務表、Milvus存向量數(shù)據(jù)、Elasticsearch做全文檢索——聽上去各司其職,實際上卻導致:數(shù)據(jù)流轉鏈條冗長,延遲高;接口不統(tǒng)一,安全性難控;資源分散調度低效,成本很高。星環(huán)將AI-Ready Data Platform設計為一個具備“四層統(tǒng)一”能力的架構:
這使得企業(yè)可以像管理“一個智能數(shù)據(jù)引擎”那樣管理AI的數(shù)據(jù)基礎層——既具可控性,又有靈活性;既滿足工程效率,又支持業(yè)務落地。這不僅解決了物理結構的問題,也解決了數(shù)據(jù)之間無法聯(lián)動的問題。從真實案例,看一站式數(shù)據(jù)平臺如何創(chuàng)造
很多AI項目最終失敗,原因并不是技術不先進,而是基礎系統(tǒng)之間缺乏協(xié)同:數(shù)據(jù)治理未完成、知識圖譜不到位、推理模型和業(yè)務脫節(jié),導致AI“離業(yè)務線始終有一公里”。那么,如何打通這“最后一公里”呢?星環(huán)科技的思路是,重構數(shù)據(jù)底座,提升向“托舉”上層AI應用的能力。他們的落地目標并不復雜:讓數(shù)據(jù)進入AI更容易、讓AI理解數(shù)據(jù)更精準、讓AI反饋業(yè)務更高效。這種策略,在一些對數(shù)據(jù)要求極高的行業(yè)中,已經展現(xiàn)出非常具體的業(yè)務價值。例如,在銀行業(yè),星環(huán)科技基于星典Knowledge Lodge與星解Corpus Studio,結合Sophon LLMOps,幫助某銀行構建企業(yè)級知識工程平臺,形成覆蓋指標、制度、運營、客服及通用金融知識的“4+1”知識庫體系。該平臺解決了缺乏高質量數(shù)據(jù)與語料、數(shù)據(jù)孤島、領域知識匱乏等問題,支撐包括智能問答、信貸助手、財務分析等多個AI應用,體現(xiàn)了“AI×私有數(shù)據(jù)”的落地價值。在數(shù)據(jù)治理場景中,星環(huán)通過語料平臺(星解Corpus Studio)與知識平臺(星典Knowledge Lodge)協(xié)同,實現(xiàn)從數(shù)據(jù)采集、智能解析到知識資產構建的自動化流程,并將各類數(shù)據(jù)治理工具封裝為AI數(shù)據(jù)治理MCP Server,實現(xiàn)治理閉環(huán),顯著提升治理效率與準確性。在制造業(yè),星環(huán)基于統(tǒng)一技術架構與Timelyre時序數(shù)據(jù)庫,打通M域(如ERP、CRM)與O域(如運維、監(jiān)控、設備)數(shù)據(jù),實現(xiàn)PB級數(shù)據(jù)的時序分析與跨模型融合,助力企業(yè)在運維監(jiān)控、質量管控、供應鏈優(yōu)化等方面釋放數(shù)據(jù)價值??偨Y而言,從應用落地情況來看,星環(huán)科技的一體化數(shù)據(jù)平臺釋放出的價值并不神秘,可以歸結為三個方面:
通過真實案例,我們看到,AI真正成為企業(yè)生產力的一部分,不僅僅靠大模型的能力,還靠數(shù)據(jù)基礎的扎實結構和組織能力。誰掌控數(shù)據(jù)平臺,誰掌控AI的未來
放眼未來,我們發(fā)現(xiàn)行業(yè)開始出現(xiàn)一個顯著的趨勢,AI基礎設施正在從“模型驅動”轉向“數(shù)據(jù)驅動”。在過去幾年,AI Infra的關注點聚焦在算力(GPU)、模型框架(如Transformer)、推理加速等技術棧上。但隨著大模型能力普遍提升、推理能力普惠,模型間的差距正在縮小。很多企業(yè)使用的并不是最先進的模型,而是最適合其數(shù)據(jù)語境的模型。這種變化背后,標志著AI基礎設施“權重中心”的遷移。如果說模型決定了AI的智能上限,那么數(shù)據(jù)平臺決定了AI的智能下限——你給模型什么樣的數(shù)據(jù),它就能發(fā)揮多大的作用。而一個組織所能管控、治理、調度的“數(shù)據(jù)能力邊界”,將成為它在AI時代的實際權限邊界。這也是Gartner 所說的:“大模型不會再是競爭力,私有數(shù)據(jù)才是?!毙黔h(huán)科技的戰(zhàn)略選擇,其實押注的是這樣一個命題 —— AI能力不是買來的,而是組織從數(shù)據(jù)出發(fā)“建”出來的。AI發(fā)展到今天,已經不只是模型之間的競速,還是企業(yè)內部能力構建的較量:誰的數(shù)據(jù)準備得更充分?誰的數(shù)據(jù)更干凈、結構更好、語義更明確?誰能讓AI真正理解業(yè)務,反哺業(yè)務?這些問題的答案,不再來自大模型API,而來自一整套數(shù)據(jù)系統(tǒng)、治理體系和知識建模的能力。星環(huán)科技這樣的企業(yè),沒有去爭奪AI舞臺上最耀眼的角色,而是站在舞臺下,做一個讓每個角色都能演好的“底層導演”。這條路更慢,更深,更重。但如果AI真的要進入企業(yè)日常,成為組織的一部分,它也許只能這樣走。
(轉載自:數(shù)據(jù)猿)