一周大數(shù)據(jù)行業(yè)消息速遞
本周點(diǎn)評(píng)
01
AI在網(wǎng)絡(luò)安全領(lǐng)域呈現(xiàn)出極具影響力的“雙刃劍”(擴(kuò)展攻擊面VS升級(jí)防御手段)特性,,將成為高潛力發(fā)展方向,。隨著深度偽造、自動(dòng)化惡意代碼等新型攻擊不斷涌現(xiàn),,企業(yè)對(duì)實(shí)時(shí)監(jiān)測(cè),、合規(guī)管理和前沿安全技術(shù)的需求同步提高。生成式AI加劇攻擊規(guī)模與復(fù)雜度,。生成式AI可快速產(chǎn)出高復(fù)雜度惡意代碼,,并結(jié)合深度偽造手段在極短周期內(nèi)完成大規(guī)模精準(zhǔn)攻擊,傳統(tǒng)安全手段難以及時(shí)應(yīng)對(duì),。這迫使各行業(yè)加大安全投入,,催生新的技術(shù)與產(chǎn)品升級(jí)機(jī)會(huì),。合規(guī)與前沿技術(shù)融合帶來新機(jī)遇。隱私保護(hù)與跨境數(shù)據(jù)傳輸?shù)缺O(jiān)管要求不斷強(qiáng)化,,量子安全與實(shí)時(shí)監(jiān)測(cè)等前沿技術(shù)同步崛起,,為AI安全方案提供更高門檻和新應(yīng)用場(chǎng)景。能將合規(guī)與技術(shù)創(chuàng)新相結(jié)合的企業(yè),,將在競(jìng)爭(zhēng)中獲得更大成長(zhǎng)空間,。
Multi-Agent
(略)的深度融合,將變革企業(yè)數(shù)字化轉(zhuǎn)型的開發(fā)流程與協(xié)同模式,,以“去編碼化”的方式:
(略)
技術(shù)產(chǎn)品發(fā)布微觀察
02
PG社區(qū)針對(duì)異構(gòu)數(shù)據(jù)庫同步工具(SynchDB),、Kubernetes原生PostgreSQL運(yùn)維工具(CloudNativePG)和Oracle兼容性增強(qiáng)工具(IvorySQL),,進(jìn)行了一系列更新:lvorySQL版本v4.0發(fā)布,。IvorySQL4.0是基于PostgreSQL17.0構(gòu)建的開源數(shù)據(jù)庫項(xiàng)目,專注于增強(qiáng)Oracle兼容性,。本次更新的特性有:引入隱形列支持,、PL/SQL包管理、函數(shù)定義增強(qiáng)等功能,,提升數(shù)據(jù)庫的兼容性和性能,,同時(shí)優(yōu)化安裝與設(shè)置體驗(yàn)。IvorySQL是一個(gè)集成了PostgreSQL的性能與可靠性以及Oracle數(shù)據(jù)庫功能的解決方案,,特別適合從Oracle數(shù)據(jù)庫遷移的用戶,。本次更新通過更強(qiáng)的Oracle特性支持和簡(jiǎn)化遷移流程,為用戶提供了更加高效,、靈活且成本優(yōu)化的數(shù)據(jù)庫選擇,,滿足多樣化的應(yīng)用場(chǎng)景需求。(src:[ANNOUNCE]IvorySQL4.0Released-EnhancedOracleCompatibilitywithPostgreSQL17.0Foundation)SynchDB版本v1.0發(fā)布,。SynchDB1.0是HornetlabsTechnologyInc發(fā)布的PostgreSQL插件,,旨在實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)庫(如MySQL、MSSQLServer)與PostgreSQL的實(shí)時(shí)數(shù)據(jù)同步,。本次更新的是提供無中間件的高效解決方案,,用于實(shí)時(shí)數(shù)據(jù)復(fù)制和集成,解決1.0beta1版本中存在的性能和資源問題,,并引入多項(xiàng)新工具以優(yōu)化插件的性能和靈活性,。作為一個(gè)PostgreSQL插件,SynchDB通過原生方式:
(略)
應(yīng)用落地微觀察
03
智能超參數(shù)發(fā)布2024年全年大模型中標(biāo)項(xiàng)目盤點(diǎn):項(xiàng)目數(shù)量和金額:2024統(tǒng)計(jì)到了1520個(gè)大模型相關(guān)中標(biāo)項(xiàng)目,,其中413個(gè)項(xiàng)目未披露金額,,其余1107個(gè)中標(biāo)項(xiàng)目披露的金額達(dá)到64.67億元。與2023年全年數(shù)據(jù)相比(統(tǒng)計(jì)到的大模型中標(biāo)項(xiàng)目數(shù)量92個(gè),,披露中標(biāo)金額7.89億元),,2024年的大模型中標(biāo)項(xiàng)目數(shù)量增長(zhǎng)了15.5倍,,披露中標(biāo)金額增長(zhǎng)了7.2倍。
金額分布:已披露的項(xiàng)目中位數(shù)為125萬元,。約30%低于50萬元,,約54%低于150萬元。金額較小的大模型中標(biāo)項(xiàng)目占比較多,,可能是因?yàn)橥顿Y回報(bào)率不清晰,,企業(yè)內(nèi)部大模型技術(shù)儲(chǔ)備不足等,多數(shù)企業(yè)仍在嘗試階段,。超大單數(shù)量在2024年下半年快速增長(zhǎng),,這些項(xiàng)目通常包含了底層算力、AI
(略),、大模型應(yīng)用以及運(yùn)維服務(wù)費(fèi)等,,一大趨勢(shì)是,
(略)不再主打單一的算力資源,,
(略)以貼近應(yīng)用場(chǎng)景,。
項(xiàng)目類型:數(shù)據(jù)類項(xiàng)目占比仍然最少,但是2024年下半年數(shù)據(jù)類項(xiàng)目增長(zhǎng)明顯,,這可能跟大模型落地應(yīng)用需要專有數(shù)據(jù)進(jìn)行微調(diào)有關(guān),。2024年上半年,算力類項(xiàng)目數(shù)量遠(yuǎn)超大模型類項(xiàng)目,,但下半年大模型類項(xiàng)目數(shù)量增長(zhǎng)迅猛,,10-12月大模型項(xiàng)目反超算力類項(xiàng)目。這可能因?yàn)榇竽P驼谠絹碓蕉嗟拇怪毙袠I(yè)加速落地,,或者開始在諸多中大型企業(yè)扮演中臺(tái)性質(zhì)的基礎(chǔ)設(shè)施,,重要性開始比肩甚至超過算力。同時(shí),,高端算力可能仍然供不應(yīng)求,,但是整體算力可能已經(jīng)不再缺乏。
算力(運(yùn)行大模型所需要的計(jì)算資源),、數(shù)據(jù)(大模型相關(guān)數(shù)據(jù)標(biāo)注或者數(shù)據(jù)資源等),、大模型(各類垂直大模型、AI中臺(tái)或者大模型基座,,可能包含算力),、應(yīng)用(大模型在明確場(chǎng)景中的融合落地,可能包含算力,、AI
(略),、應(yīng)用軟件等)。
行業(yè)分布:在11月,、12月份,,諸多教育機(jī)構(gòu)高達(dá)數(shù)千萬元的項(xiàng)目頻出,。AIforScience接下來會(huì)是大模型落地的重要方向。上海等龍
(略)專門發(fā)布大模型產(chǎn)業(yè)發(fā)展方案,,這可能會(huì)在2025年掀起一
(略)爭(zhēng)相擁抱大模型的浪潮,,
(略)場(chǎng)預(yù)計(jì)會(huì)持續(xù)高速增長(zhǎng)。能源類企業(yè)尤其以各地電力企業(yè)為采購(gòu)主力,。
區(qū)域分布:大模型中標(biāo)項(xiàng)目覆
(略)域,,按照月份來看是也越來越多,并且最終實(shí)現(xiàn)幾乎全部省級(jí),、
(略),、
(略)等區(qū)域的全覆蓋。(src:獨(dú)家:2024年全年大模型中標(biāo)項(xiàng)目盤點(diǎn))
沙利文發(fā)布《2024年金融級(jí)分布式數(shù)
(略)場(chǎng)跟蹤報(bào)告》,。部分內(nèi)容摘錄如下:市場(chǎng)動(dòng)向:落地向中小銀行滲透,,證券與保險(xiǎn)滲透率也在逐步提高(根據(jù)下圖數(shù)據(jù),證券業(yè)滲透率增長(zhǎng)更明顯),。銀行份額下降原因:在2024年上半年安全可靠測(cè)評(píng)推進(jìn)過程中,,銀行因擔(dān)憂所選產(chǎn)品無法滿足未來的監(jiān)管要求而謹(jǐn)慎選型,。保險(xiǎn)和證券行業(yè)的機(jī)構(gòu)整體則受影響較低,,保持增長(zhǎng)動(dòng)能,使占比得到提升,。
(略)定義:銀行業(yè):不同銀行對(duì)核心業(yè)務(wù)定義不同,,但存款、貸款,、清算核算是每家銀行根本,,
(略),
(略),。
(略)(如手機(jī)/網(wǎng)站線上渠道),、
(略)(如監(jiān)管報(bào)送、風(fēng)險(xiǎn)管理),、
(略)(如OA系統(tǒng),、ERP系統(tǒng))、
(略)(
(略)),。
中國(guó)金融整體數(shù)
(略)場(chǎng)(不含OLAP):預(yù)計(jì)從2023的87.28億元增長(zhǎng)至2028的215.89億元,,年復(fù)合增長(zhǎng)率近20%
中國(guó)金融分布式數(shù)
(略)場(chǎng)(不含OLAP):預(yù)計(jì)從2023的17.29億元增長(zhǎng)至2028的54.1億元,年復(fù)合增長(zhǎng)率近26%,。(src:沙利文|2024年金融級(jí)分布式數(shù)
(略)場(chǎng)跟蹤報(bào)告)
“2025年度江蘇省黨政機(jī)關(guān),、事業(yè)單位:
(略)
“
(略)2024年至2026年集中式信創(chuàng)數(shù)據(jù)庫產(chǎn)品采購(gòu)項(xiàng)目”招標(biāo)公告已發(fā)布。采購(gòu)關(guān)系型數(shù)據(jù)庫軟件,,預(yù)計(jì)采購(gòu)120個(gè)LICENSE(2個(gè)CPU為一個(gè)licence),,最高不含稅單價(jià)為8萬元一套,。(src:
(略)2024年至2026年集中式信創(chuàng)數(shù)據(jù)庫產(chǎn)品采購(gòu)項(xiàng)目_招標(biāo)公告)宏觀消息
04
國(guó)家發(fā)展改革委等六部門印發(fā)《關(guān)于促進(jìn)數(shù)據(jù)產(chǎn)業(yè)高質(zhì)量發(fā)展的指導(dǎo)意見》?!兑庖姟诽岢?,到2029年,數(shù)據(jù)產(chǎn)業(yè)規(guī)模年均復(fù)合增長(zhǎng)率超過15%,,數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)明顯優(yōu)化,,數(shù)據(jù)技術(shù)創(chuàng)新能力躋身世界先進(jìn)行列,數(shù)據(jù)產(chǎn)品和服務(wù)供給能力大幅提升,,催生一批數(shù)智應(yīng)用新產(chǎn)品新服務(wù)新業(yè)態(tài),,涌現(xiàn)一批具有國(guó)際競(jìng)爭(zhēng)力的數(shù)據(jù)企業(yè),數(shù)據(jù)產(chǎn)業(yè)綜合實(shí)力顯著增強(qiáng),,區(qū)域聚集和協(xié)同發(fā)展格局基本形成,。年均復(fù)合增長(zhǎng)率(CAGR)等于期末值除以期初值的商,再將結(jié)果開n次方(n是時(shí)間周期的年數(shù)),,然后減去1,。即CAGR=(期末值÷期初值)^(1÷n)-1
《意見》指出了數(shù)據(jù)技術(shù)和產(chǎn)業(yè)的7個(gè)重點(diǎn)發(fā)展方向。數(shù)據(jù)采集推動(dòng)基于5G,、
(略)等技術(shù)的數(shù)據(jù)實(shí)時(shí)采集方式:
(略)
國(guó)務(wù)院新聞辦公室公布第五次全國(guó)經(jīng)濟(jì)普查首次增加數(shù)字經(jīng)濟(jì)調(diào)查結(jié)果,。2023年末,全國(guó)共有數(shù)字經(jīng)濟(jì)核心產(chǎn)業(yè)企業(yè)法人單位:
(略)
財(cái)政部印發(fā)《數(shù)據(jù)資產(chǎn)全過程管理試點(diǎn)方案》,,將在7個(gè)中央部門6個(gè)央企16
(略)開展試點(diǎn),。7個(gè)中央部門:水利部、農(nóng)業(yè)農(nóng)村部,、文化和旅游部,、國(guó)家衛(wèi)生健康委、中國(guó)科學(xué)院,、中國(guó)氣象局,、中國(guó)科協(xié)等中央部門。6個(gè)央企:
(略),、
(略),、
(略)、
(略),、
(略),、
(略)等中央企業(yè)。16
(略):北京,、河北,、大連、吉林、上海,、江蘇,、浙江、安徽,、福建,、山東、湖北,、湖南,、深圳、廣西,、貴州,、云南等地方財(cái)政部門。(src:財(cái)政部將在16
(略)開展數(shù)據(jù)資產(chǎn)管理試點(diǎn)(附名單))
行業(yè)消息
05
IDC發(fā)布《2025年中國(guó)數(shù)據(jù)和
(略)進(jìn)行的數(shù)據(jù)協(xié)作將滲透到70%的中國(guó)500強(qiáng)企業(yè),。合成數(shù)據(jù):到2026年,,GenAI創(chuàng)建的合成數(shù)據(jù)將在數(shù)據(jù)有限的領(lǐng)域?qū)㈩A(yù)測(cè)分析的準(zhǔn)確性和可靠性提高20%。數(shù)據(jù)分析主導(dǎo):到2028年,,中國(guó)500強(qiáng)企業(yè)中70%的首席數(shù)據(jù)和分析官將在對(duì)企業(yè)技術(shù)支出的影響力方面與首席信息官相媲美,。數(shù)據(jù)工程Agent:到2026年,將有50%的中國(guó)500強(qiáng)數(shù)據(jù)團(tuán)隊(duì)使用AIAgent來實(shí)現(xiàn)數(shù)據(jù)準(zhǔn)備和分析,,并成為重要組織者和協(xié)調(diào)者,。數(shù)據(jù)可用性:到2025年,GenAI將通過使組織能夠更好地利用非結(jié)構(gòu)化數(shù)據(jù),,將可用數(shù)據(jù)量增加50%,。數(shù)據(jù)安全隱私:到2025年底,,中國(guó)500強(qiáng)的數(shù)據(jù)安全團(tuán)隊(duì)將把從其工具中收集到的信息的40%提供給其他業(yè)務(wù)線,,以提供整個(gè)業(yè)務(wù)的統(tǒng)一治理。(src:IDCFutureScape:2025年中國(guó)數(shù)據(jù)和
(略)場(chǎng)十大預(yù)測(cè))
紅杉資本發(fā)布《AIin2025:BuildingBlocksFirmlyinPlace》2024AI發(fā)展回顧:AI
(略)趨于成熟,。LLM競(jìng)爭(zhēng):Microsoft/OpenAI,、Amazon/Anthropic、Google,、Meta和xAI五家領(lǐng)先,。2025AI發(fā)展預(yù)測(cè):LLM提供商差異化競(jìng)爭(zhēng):Google:垂直整合優(yōu)勢(shì),擁有自己的TPU芯片,、
(略)和強(qiáng)大的內(nèi)部研究團(tuán)隊(duì)OpenAI:品牌優(yōu)勢(shì),,ChatGPT知名度高,收入強(qiáng)勁Anthropic:人才優(yōu)勢(shì),,吸引了大量研究人才xAI:
(略)建設(shè)優(yōu)勢(shì),,快速插件GPU集群Meta:開源策略,通過Instagram,、WhatsApp和Facebook等平臺(tái)推廣開源模型,。AI搜索成為殺手級(jí)應(yīng)用:AI搜索優(yōu)勢(shì):語義理解:基于LLM,,能夠閱讀和理解知識(shí),
(略)頁,。專業(yè)領(lǐng)域定制:不同職業(yè)可能擁有各自的AI搜索引擎,,如分析師使用Perplexity,律師使用Harvey等,。多維度差異化:包括意圖提取,、專有數(shù)據(jù)、格式化和界面設(shè)計(jì)等AI搜索有望在2025年廣泛普及,。投資回報(bào)率(ROI)問題和資本支出(CapEx)趨于穩(wěn)定:
(略)控制局面:
(略),,
(略)有重大股權(quán),是AI初創(chuàng)企業(yè)的重要支持者,。資本支出趨于穩(wěn)定:2024年是“圈地”,、爭(zhēng)奪資源的混亂期,
(略)將專注于按時(shí)按預(yù)算完成新項(xiàng)目并產(chǎn)生收益,。2024第三季度發(fā)布的最新資本支出數(shù)據(jù)顯示,,微軟和谷歌內(nèi)部的投入趨勢(shì)線已經(jīng)開始穩(wěn)定。亞馬遜和Meta(MetaQ4投入的多)仍在增加投入,,但可能在2025年初達(dá)到穩(wěn)定狀態(tài),。
AI計(jì)算價(jià)格下降:
(略)容量的上線將推動(dòng)AI計(jì)算價(jià)格繼續(xù)大幅下降,有利于初創(chuàng)企業(yè)的創(chuàng)新(src:Alin2025:BuildingBlocksFirmlyinPlace)
產(chǎn)業(yè)上下游企業(yè)消息
06
AzureKeyVaultPremium首次在
(略)域上線,。本次更新引入了FIPS140-2Level3硬件安全模塊(HSM),,為加密密鑰提供高級(jí)別的安全保障。這一版本面向高度監(jiān)管行業(yè),,幫助用戶滿足合規(guī)性要求,,同時(shí)覆蓋中國(guó)北3區(qū)、中國(guó)北2區(qū),、中國(guó)東3區(qū)和中國(guó)東2區(qū),。通過增強(qiáng)的安全性和合規(guī)能力,本次更新為用戶強(qiáng)化數(shù)據(jù)保護(hù)和提升安全性提供了新選擇,。(src:https://
(略)-us/updates)FIPS(FederalInformationProcessingStandards,,聯(lián)邦信息處理標(biāo)準(zhǔn))是由美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院(NIST)發(fā)布的標(biāo)準(zhǔn)系列,
(略)絡(luò)安全中的信息處理和加密技術(shù),。FIPS140-2Level3提供強(qiáng)化的物理安全性,,要求加密模塊具備防篡改檢測(cè)能力,在檢測(cè)到未授權(quán)訪問時(shí)主動(dòng)銷毀密鑰,,同時(shí)通過多因素認(rèn)證和角色分離限制訪問權(quán)限,。模塊需防御側(cè)信道攻擊,確保密鑰存儲(chǔ)和使用的安全性與完整性,適用于高安全性要求的環(huán)境,,如金融和政府領(lǐng)域,。
微軟CEO納德拉提出,SaaS時(shí)代將被智能代理(AIAgent)取代,,傳統(tǒng)應(yīng)用程序的用戶界面和業(yè)務(wù)邏輯將消失,,智能代理通過直接與數(shù)據(jù)庫交互完成CRUD操作,徹底顛覆現(xiàn)有的軟件開發(fā)模式,。AI層將整合多數(shù)據(jù)庫操作,,無需硬編碼業(yè)務(wù)邏輯,用戶僅需描述需求,,代理即可生成代碼或執(zhí)行任務(wù),。以Microsoft365為例,Copilot作為核心交互層,,Excel,、Word等應(yīng)用被重新定義為專用智能代理,通過Python解釋器和數(shù)據(jù)分析功能實(shí)現(xiàn)高效生產(chǎn)力,。微軟憑借其Windows
(略)的流量入口和對(duì)OpenAI的大規(guī)模投資,,正通過AI賦能企業(yè),布局AIPC與AgentStore等生態(tài),,搶占
(略)場(chǎng)巨大的增長(zhǎng)空間,。這場(chǎng)變革將重塑整個(gè)軟件行業(yè),
(略)將面臨淘汰風(fēng)險(xiǎn),。(src:微軟CEO的大膽預(yù)言:“AlAgent將替代所有SaaS”)
字節(jié)全力押注AI:2025資本開支或達(dá)1600億元,,投入或接近BAT三家總和。浙商證券報(bào)告中指出,,字節(jié)跳動(dòng)在AI上加大流量投放,、擴(kuò)大資本開支、大力擴(kuò)張團(tuán)隊(duì),,研發(fā)投入顯著領(lǐng)先同行,。在資金上,字節(jié)跳動(dòng)在AI上投入巨大,,2024年資本開支達(dá)到800億元,接近百度,、阿里,、騰訊三家的總和(約1000億元)。2025年,,字節(jié)跳動(dòng)資本開支有望達(dá)到1600億元,,
(略)集群,其中約900億元將用于AI算力的采購(gòu),700億元用于IDC
(略)絡(luò)設(shè)備,。(src:消息稱字節(jié)跳動(dòng)今年AI投入接近BAT三家總和,,明年有望翻倍)
谷歌聚焦2025:Gemini引領(lǐng)新增長(zhǎng),面臨顛覆性挑戰(zhàn),。谷歌CEOSundarPichai在2025年戰(zhàn)略會(huì)議上強(qiáng)調(diào),,AI和監(jiān)管雙重壓力下,谷歌正迎來關(guān)鍵時(shí)刻,。他表示,,構(gòu)建“大型新業(yè)務(wù)”是首要任務(wù),其中Gemini被定位為未來核心增長(zhǎng)引擎,,目標(biāo)是成為下一個(gè)擁有5億用戶的應(yīng)用,,并將在未來兩年內(nèi)迎來重大升級(jí)。DeepMind聯(lián)合創(chuàng)始人DemisHassabis進(jìn)一步表示,,團(tuán)隊(duì)將“加速”Gemini的發(fā)展,,以應(yīng)對(duì)OpenAI等競(jìng)爭(zhēng)對(duì)手的挑戰(zhàn)。同時(shí),,谷歌計(jì)劃在2025年推出實(shí)驗(yàn)性通用助理Astra的更新版,,以及主打軟件開發(fā)未來方向的編碼助手Jules。盡管競(jìng)爭(zhēng)加劇,,Pichai指出執(zhí)行力才是勝負(fù)關(guān)鍵,。隨著全球監(jiān)管壓力持續(xù)升級(jí),美國(guó)司法部已要求谷歌剝離Chrome瀏覽器業(yè)務(wù),。面對(duì)挑戰(zhàn),,Pichai呼吁員工保持快速反應(yīng)和高昂斗志,以在AI新時(shí)代中保持領(lǐng)先地位,。(src:谷歌舉行2025年戰(zhàn)略會(huì)議,,CEO:風(fēng)險(xiǎn)很高,這是顛覆性時(shí)刻)
谷歌裁減10%高管職位,,推進(jìn)效率提升以應(yīng)對(duì)AI競(jìng)爭(zhēng),。谷歌CEOSundarPichai在全體員工大會(huì)上宣布,作為提升運(yùn)營(yíng)效率的持續(xù)計(jì)劃之一,,谷歌已削減10%的高層管理職位,,包括經(jīng)理:
(略)
350億美元收購(gòu)案遇阻,新思科技提補(bǔ)救方案爭(zhēng)取歐盟批準(zhǔn),。新思科技(Synopsys)
(略)Ansys的交易,,因可能
(略)場(chǎng)競(jìng)爭(zhēng)而面臨多國(guó)監(jiān)管機(jī)構(gòu)審查。為獲得歐盟的有條件反壟斷批準(zhǔn),,新思科技已提出關(guān)鍵補(bǔ)救措施,,包括出售其OpticalSolutionsGroup和剝離Ansys的PowerArtist工具,,用以
(略)場(chǎng)對(duì)競(jìng)爭(zhēng)削弱和價(jià)格上漲的擔(dān)憂。歐盟預(yù)計(jì)將于2025年1月10日前完成初步審查,。與此同時(shí),,英國(guó)競(jìng)
(略)場(chǎng)管理局(CMA)亦在調(diào)查合并是否會(huì)對(duì)光學(xué)軟件和芯片功耗分析
(略)場(chǎng)構(gòu)成不利影響。若補(bǔ)救措施未達(dá)預(yù)期,,CMA或?qū)⑸?jí)為第二階段調(diào)查,。此次收購(gòu)旨在強(qiáng)化新思科技“
(略)”戰(zhàn)略,預(yù)計(jì)將推動(dòng)其進(jìn)入汽車,、航空航天等高
(略)場(chǎng),,并在三年內(nèi)實(shí)現(xiàn)約4億美元的成本協(xié)同效益。若獲得批準(zhǔn),,交易預(yù)計(jì)在2025年上半年完成,。(src:350億美元收購(gòu)案在歐盟遇阻,新思科技提出補(bǔ)救措施)
IBM收購(gòu)HashiCorp面臨英國(guó)監(jiān)管機(jī)構(gòu)調(diào)查,。英國(guó)競(jìng)
(略)場(chǎng)管理局(CMA)發(fā)布聲明稱,,對(duì)IBM
(略)HashiCorp的交易啟動(dòng)調(diào)查,關(guān)注收購(gòu)是否會(huì)大幅削弱
(略)場(chǎng)競(jìng)爭(zhēng),。2024年4月,,IBM
(略)HashiCorp,企業(yè)價(jià)值達(dá)64億美元,。HashiCorp
(略),,成立于2012年,總部位于美國(guó)舊金山,。公司提供企業(yè)級(jí)開源工具和商業(yè)產(chǎn)品,,幫助開發(fā)者和運(yùn)維團(tuán)隊(duì)在多云環(huán)境中高效、安全地管理基礎(chǔ)架構(gòu)和應(yīng)用,。HashiCorp的工具廣泛應(yīng)用于基礎(chǔ)設(shè)施即代碼(IaC),、身份和訪問管理、
(略)絡(luò)以及應(yīng)用部署等領(lǐng)域,。(src:IBM
(略)HashiCorp的交易面臨英國(guó)監(jiān)管機(jī)構(gòu)調(diào)查)
(略)Altair獲德國(guó)批準(zhǔn),。德國(guó)反壟斷機(jī)構(gòu)卡特爾辦公室(Bundeskartellamt)公告稱,
(略)AltairEngineering的提議,。
(略)于2024年10月30日發(fā)布的公告,,西門子已簽署協(xié)議,將以每股113美元的價(jià)格收購(gòu)工業(yè)仿真和分析軟件提供商AltairEngineering,。這一報(bào)價(jià)較Altair2024年10月21日的收盤價(jià)溢價(jià)19%,,使Altair的企業(yè)估值達(dá)到100億美元。(src:西門子收購(gòu)AltairEngineering獲德國(guó)反壟斷機(jī)構(gòu)批準(zhǔn))
(略)場(chǎng)微觀察
07
(略)場(chǎng):本
(略)漲跌互現(xiàn),,包括2024年的最后幾個(gè)交易日和"圣誕老人反彈期"的最后幾個(gè)交易日,。主要股指在年底大幅上漲后失去動(dòng)力,但周五出現(xiàn)了一些反彈行動(dòng),。本周小型股表現(xiàn)優(yōu)于大型股,,羅素2000指數(shù)收盤上漲1.1%。標(biāo)普500指數(shù)和納斯達(dá)克綜合指數(shù)本周均下跌0.6%,。標(biāo)普500指數(shù)2024年上漲23.3%,,納斯達(dá)克綜合指數(shù)2024年上漲28.6%。
美債:由于利率差異影響了外國(guó)投資者對(duì)美國(guó)國(guó)債的興趣,,隔夜美國(guó)國(guó)債的購(gòu)買興趣有所上升,。美東時(shí)間上午10:00公布的12月ISM制造業(yè)PMI數(shù)據(jù)強(qiáng)于預(yù)期,且物價(jià)指數(shù)出現(xiàn)上漲,,隔夜?jié)q幅隨之消失,。從那時(shí)起,賣家開始施壓,。隨
(略)上漲,,收益率穩(wěn)定在盤中高點(diǎn),表明可能存在一些從債券轉(zhuǎn)向股票的活動(dòng),。下周有望成為交易更加活躍的一周,,因?yàn)閹讏?chǎng)拍賣(3年期、10年期,、30年期)將有新的供應(yīng),,而本周結(jié)束時(shí)將公布12月就業(yè)形勢(shì)報(bào)告等關(guān)鍵經(jīng)濟(jì)數(shù)據(jù)。美元指數(shù)下跌0.4%至108.95,,歐元和英鎊在周四暴跌后出現(xiàn)一些反彈,。2年期:+3個(gè)基點(diǎn)至4.28%3年期:+4個(gè)基點(diǎn)至4.32%5年期:+3個(gè)基點(diǎn)至4.41%10年期:+2個(gè)基點(diǎn)至4.60%30年期:+2個(gè)基點(diǎn)至4.80%商品:WTI原油:上漲1.2%至每桶73.95美元黃金:下跌0.5%至2655.10美元/盎司銅:+1.2%至4.07美元/磅股價(jià)異動(dòng)Tesla暴跌10%,誘因有:交付和生產(chǎn)數(shù)據(jù)未達(dá)預(yù)期:根據(jù)特斯拉最新公布的第四季度數(shù)據(jù),,交付量為495,570輛,,低于分析師預(yù)期的512,250輛;生產(chǎn)量為459,445輛,,同樣未達(dá)到預(yù)期的503,500輛,。全年交付量為1,790,000輛,略低于預(yù)期的1,800,000輛,。
(略)增長(zhǎng)前景的擔(dān)憂,,導(dǎo)致股價(jià)下跌。市場(chǎng)競(jìng)爭(zhēng)加?。喝螂妱?dòng)
(略)場(chǎng)競(jìng)爭(zhēng)日益激烈,,特別是在
(略)場(chǎng)。特斯拉在中國(guó)的銷量出現(xiàn)下滑,,2月份上海工廠的汽車銷量約為60,365輛,,同比減少約19%,。此外,特斯拉還在
(略)場(chǎng)提供了8,000元的保險(xiǎn)補(bǔ)貼,,以應(yīng)對(duì)競(jìng)爭(zhēng)對(duì)手的價(jià)格壓力,。這些因素使投資者對(duì)特斯
(略)場(chǎng)份額和盈利能力產(chǎn)生疑慮。宏觀經(jīng)濟(jì)因素:美聯(lián)儲(chǔ)的貨幣政策變化引
(略)場(chǎng)波動(dòng),。近期,,美聯(lián)儲(chǔ)官員的言論增
(略)場(chǎng)對(duì)進(jìn)一步加息的預(yù)期,導(dǎo)致科技股普遍下跌,,特斯拉也未能幸免,。此外,全球經(jīng)濟(jì)增長(zhǎng)放緩的預(yù)期也對(duì)特斯拉的股價(jià)產(chǎn)生了負(fù)面影響,。(src:TeslaStockDropsasQ4Deliveries,VehicleProductionFallShort-https://
(略)-stock-q4-deliveries-vehicle-production-fall-short-
(略)?utm_source=chatgpt.com)初創(chuàng)微觀察
08
RaySummit2024總結(jié)整理:
Ray是一個(gè)專為插件AI和Python應(yīng)用程序設(shè)計(jì)的分布式計(jì)算框架,,提供了一個(gè)核心的分布式運(yùn)行時(shí)環(huán)境,并集成了多個(gè)AI庫,,簡(jiǎn)化了機(jī)器學(xué)習(xí)計(jì)算的過程,。初由加州大學(xué)伯克利分校的RISELab于2016年開源。
Anyscale是由UCBerkeley的IonStoica教授(RISELab主任)
(略),,負(fù)責(zé)Ray框架的商業(yè)化,。他還是分布式計(jì)算框架ApacheSpark
(略)Databricks的聯(lián)合創(chuàng)始人。目前Anyscale估值超過10億美元,。
Ray使用情況:Ray在國(guó)內(nèi)外大廠,、
(略)、硬件廠商等行業(yè)已經(jīng)實(shí)現(xiàn)了廣泛的應(yīng)用,。新增用戶包括Apple,、Reddit、ebay等,。Ray在5年內(nèi)有超過1000的contributors(達(dá)到大部分活躍開源項(xiàng)目門檻),。為什么選擇Ray:根據(jù)在summit上各用戶(如Bytedance、Apple,、Uber等)的反饋,,統(tǒng)計(jì)出的關(guān)鍵詞包括:Unified、Scalability,、heterogenousCPU/GPU,、pythonnative、Dynamic,、Modelcomposition,、PlatformAgnostic、Ecosystem,、vllm,。發(fā)布概覽:CompiledGraphs(RayCore今年最大的feature):部分開發(fā)靈感來源于Google的Pathways論文,,該論文提到Ray可以作為下一代AI
(略)的分布式底座。解決了Ray在GPU到GPU傳輸?shù)刃阅軆?yōu)化方面的限制,,支持靜態(tài)數(shù)據(jù)流,,實(shí)現(xiàn)底層性能優(yōu)化,,如GPU到GPU直傳和內(nèi)存復(fù)用,。RayData-GA:RayData是一個(gè)構(gòu)建在RayCore之上的可插件數(shù)據(jù)處理庫,專注于解決ML工作負(fù)載中的數(shù)據(jù)準(zhǔn)備和處理問題,。支持從多種數(shù)據(jù)源讀取數(shù)據(jù),,如Parquet文件、CSV,、JSON等,,
(略);提供了豐富的數(shù)據(jù)轉(zhuǎn)換操作,,包括map_batches(),、groupby()、random_shuffle()和repartition()等,;具有分布式能力,,支持CPU和GPU資源的調(diào)度;采用流式執(zhí)行范式,,能夠高效地處理大型數(shù)據(jù)集,。RayTurbo:Anyscale內(nèi)部版本的Ray,這次是在RaySummit上首次公布,。性能提升:RayTurbo能夠顯著減少讀密集型數(shù)據(jù)工作負(fù)載的運(yùn)行時(shí)間,,比開源Ray在某些工作負(fù)載上快4.5倍;加速了Llama-3-70B的端到端插件時(shí)間,,比開源Ray快4.5倍,。成本節(jié)約:通過支持spot實(shí)例和彈性訓(xùn)練,RayTurbo在許多工作負(fù)載上的成本比開源Ray低達(dá)60%,。RayServe實(shí)現(xiàn)了最小資源消耗的滾動(dòng)更新,,降低了運(yùn)維成本。高級(jí)ML庫:提供了Anyscale獨(dú)有的機(jī)器學(xué)習(xí)庫,,如LLMForge,、AnyBatch和RayLLM。故障容忍:在RayData中優(yōu)化了調(diào)度器,,增強(qiáng)了數(shù)據(jù)管道的故障感知能力,,并支持檢查點(diǎn)機(jī)制。彈性訓(xùn)練:RayTrain支持在節(jié)點(diǎn)減少的情況下繼續(xù)訓(xùn)練,,優(yōu)化了分布式訓(xùn)練中的resharding操作,。穩(wěn)定性方面的工作:主要關(guān)注Ray規(guī)?;哪芰Γ壳癛ay社區(qū)版本最大支持8k節(jié)點(diǎn)的cluster,,
(略)的場(chǎng)景夠用,。Ray發(fā)展趨勢(shì):Ray在Data+AI方向的應(yīng)用逐漸成為主流。因?yàn)镽ay在batchinference和ingestfortraining場(chǎng)景中表現(xiàn)出色,,能夠在CPU+GPU混合計(jì)算的場(chǎng)景中實(shí)現(xiàn)更高效的吞吐,。AI生態(tài)集成:Ray憑借其“frameworkagnostic”的設(shè)計(jì),已經(jīng)集成了豐富的AI和Data框架,,形成了龐大的生態(tài),。且集成和優(yōu)化工作正逐漸深入。例如,,在推理領(lǐng)域,,Ray是vllm默認(rèn)的分布式并行推理底座,并且RayServe+NvidiaTriton的組合也被廣泛應(yīng)用.多租戶和Workflow:盡管業(yè)界對(duì)Ray多租戶使用方式:
(略)
CedarDB是一家由德國(guó)慕尼黑工業(yè)大學(xué)Umbra
(略),。暫無公開營(yíng)收和融資情況,。創(chuàng)始團(tuán)隊(duì):均為慕尼黑工業(yè)大學(xué)攻讀博士學(xué)位期間同一課題組的研究成員MoritzSichertCEO:研究重點(diǎn)是無縫集成多種編程語言與SQL。曾在Tableau擔(dān)任研究實(shí)習(xí)生,。LukasVogelHeadofOperations:研究重點(diǎn)是現(xiàn)代存儲(chǔ)硬件和CPU
(略)的適應(yīng),。曾在Salesforce擔(dān)任軟件工程實(shí)習(xí)生。ChristianWinterHeadofProduct:
(略)的動(dòng)態(tài)數(shù)據(jù)和操作環(huán)境的最佳使用,。曾在OracleLabs擔(dān)任實(shí)習(xí)生,。DominikDurnerHeadofCloudTechnology:
(略)的交叉領(lǐng)域。曾在SAP,、Microsoft擔(dān)任研究實(shí)習(xí)生,。PhilippFentHeadofDatabaseTechnology:研究重點(diǎn)是查詢優(yōu)化器和編譯執(zhí)行引擎,專注于CedarDB的性能優(yōu)化,。顧問團(tuán)隊(duì):ThomasNeumann:慕尼黑工業(yè)大學(xué)數(shù)據(jù)科學(xué)與工程教授,,MoritzSichert的導(dǎo)師。以在查詢優(yōu)化和高效查詢處理方面的工作聞名,。發(fā)明了HyPer
(略),,
(略)編譯化的先驅(qū)之一,后來被Tableau收購(gòu),。領(lǐng)導(dǎo)了HyPer的后繼技術(shù)Umbra的開發(fā),,Umbra是CedarDB背后的核心技術(shù)。
(略)研
(略)的貢獻(xiàn)獲得了包括GottfriedWilhelmLeibniz獎(jiǎng)在內(nèi)的多項(xiàng)獎(jiǎng)項(xiàng),。AlfonsKemper:慕尼黑工業(yè)大學(xué)數(shù)據(jù)科學(xué)與工程教授,,與ThomasNeumann教授共同發(fā)明并成功商業(yè)化了HyPer
(略),并且對(duì)Umbra技術(shù)的發(fā)展做出了貢獻(xiàn)。因其在數(shù)據(jù)庫領(lǐng)域的貢獻(xiàn)被任命為ACMFellow,,并獲得了多項(xiàng)獎(jiǎng)項(xiàng),,包括ICDE十年最具影響力論文獎(jiǎng)和最佳論文獎(jiǎng)。核心技術(shù)Umbra:一個(gè)基于SSD
(略),,以出色性能聞名,。關(guān)鍵特點(diǎn):基于SSD的高性能:Umbra旨在結(jié)合大容量的內(nèi)存
(略)和快速的SSD存儲(chǔ)設(shè)備,
(略)相媲美的性能,,
(略)的可插件性,。PointerSwizzling技術(shù):優(yōu)化緩沖管理,減少全局鎖的需要,。Morsel-driven并行執(zhí)行:將查詢分解為小塊并行處理,,提高核心利用率。先進(jìn)的查詢優(yōu)化器:Umbra實(shí)現(xiàn)了一個(gè)全面的基于成本的查詢優(yōu)化器,,該優(yōu)化器經(jīng)過了針對(duì)極大查詢(超過10,000個(gè)連接)的廣泛測(cè)試。代碼生成:CedarDB
(略)的代碼生成方法,,為每個(gè)查詢生成定制的機(jī)器代碼,,
(略)的解釋開銷。核心產(chǎn)品CedarDB:
(略),,是基于Umbra技術(shù)商業(yè)化的產(chǎn)品,。它繼承了Umbra的多項(xiàng)技術(shù)特點(diǎn),包括多核執(zhí)行,、充分利用所有可用RAM,、快速SSD中心的I/O、先進(jìn)的查詢優(yōu)化器和代碼生成等(src:PitchBook|CedarDBGeneralInformation)
開源微觀察
09
ScyllaDB項(xiàng)目簡(jiǎn)介:Scylla是一款高性能,、實(shí)時(shí)分布式NoSQL數(shù)據(jù)庫,,專為滿足現(xiàn)代大數(shù)據(jù)處理和實(shí)時(shí)計(jì)算需求而設(shè)計(jì)。它由AviKivity和DorLaor于2014年在以色列創(chuàng)立,,最初名為CloudiusSystems,,后更名為ScyllaDBInc。它采用無共享方式:
(略)
ServerArchitecture:ScyllaDB的服務(wù)器架構(gòu)基于Shard-Per-Core模型,。每個(gè)物理CPU核心獨(dú)立運(yùn)行一個(gè)分片(shard),,負(fù)責(zé)處理特定的數(shù)據(jù)子集,完全隔離內(nèi)存,、I/O和網(wǎng)絡(luò)資源,。這種設(shè)計(jì)減少了線程之間的鎖爭(zhēng)用,提高了硬件資源利用率,,并顯著提升了吞吐量和并發(fā)性能,。此外,ScyllaDB使用異步編程框架Seastar來優(yōu)化請(qǐng)求處理,使服務(wù)器能夠高效地管理大量并發(fā)操作,。DataArchitecture:ScyllaDB的數(shù)據(jù)架構(gòu)圍繞寬列(wide-column)數(shù)據(jù)模型構(gòu)建,,提供靈活的數(shù)據(jù)存儲(chǔ)方式:
(略)
Snowplow項(xiàng)目簡(jiǎn)介:Snowplow
(略),旨在幫助企業(yè)收集,、管理和分析用戶行為數(shù)據(jù),。它通過收集、存儲(chǔ)和處理高質(zhì)量的事件數(shù)據(jù),,為企業(yè)提供實(shí)時(shí)的行為洞察能力,,廣泛應(yīng)用于營(yíng)銷分析、產(chǎn)品優(yōu)化,、客戶行為建模等領(lǐng)域,。項(xiàng)目于2012年在英國(guó)成立&開源,使用ApacheLicense2.0許可證,。開發(fā)者:YaliSassoon:Snowplow的CTO兼聯(lián)合創(chuàng)始人,。此前,他曾是KeplarLLP(
(略),,主要
(略)場(chǎng)進(jìn)入分析,、業(yè)務(wù)建模和產(chǎn)品和技術(shù)設(shè)計(jì))的合伙人。AlexDean:Snowplow的CEO兼聯(lián)合創(chuàng)始人,。他曾在OpenX和DeloitteConsulting的商業(yè)智能部門擔(dān)任技術(shù)職務(wù),,并在FathomPartners和KeplarLLP任職。他主要研究方向是函數(shù)式編程,、基于云的架構(gòu)和大數(shù)據(jù)技術(shù)等,。特點(diǎn)與功能:數(shù)據(jù)收集:支持從多種來源(如網(wǎng)頁、移動(dòng)應(yīng)用,、服務(wù)器端等)收集用戶行為事件,,如點(diǎn)擊、瀏覽,、視頻播放等,。數(shù)據(jù)清洗和豐富:通過內(nèi)置的豐富模塊,對(duì)收集到的原始數(shù)據(jù)進(jìn)行清洗和豐富,,確保數(shù)據(jù)的準(zhǔn)確性和完整性,。數(shù)據(jù)存儲(chǔ):支持將處理后的數(shù)據(jù)存儲(chǔ)在多種數(shù)據(jù)倉庫中,如AmazonRedshift,、GoogleBigQuery,、Snowflake等,或通過流式傳輸?shù)狡渌康牡?。?shù)據(jù)建模:提供數(shù)據(jù)建模工具,,幫助用戶將事件級(jí)數(shù)據(jù)與其他數(shù)據(jù)集結(jié)合,生成易于分析的聚合表。數(shù)據(jù)分析:支持使用多種工具(如dbt,、Looker,、Metabase等)對(duì)數(shù)據(jù)進(jìn)行分析,幫助用戶發(fā)現(xiàn)用戶行為模式和業(yè)務(wù)洞察,。系統(tǒng)架構(gòu):
Trackers(追蹤器):Snowplow數(shù)據(jù)管道的入口,,用于捕獲用戶行為事件。目前Snowplow提供15種追蹤器,,
(略)頁,、移動(dòng)端、桌面端,、
(略)(IoT)設(shè)備,。Collector(數(shù)據(jù)收集器):Collector負(fù)責(zé)接收由Trackers傳遞的事件數(shù)據(jù)。
(略)(如AWSS3或GCPGoogleCloudStorage),,同時(shí)將數(shù)據(jù)傳輸?shù)较掠蔚腅nrich模塊進(jìn)行處理,。Enrich(數(shù)據(jù)豐富化處理):Enrich模塊對(duì)原始的Snowplow事件進(jìn)行清洗和豐富化處理,
(略),。Storage(存儲(chǔ)):存儲(chǔ)模塊是Snowplow事件的歸宿,。事件數(shù)據(jù)以平鋪文件結(jié)構(gòu)存儲(chǔ)在S3上,同時(shí)也支持將數(shù)據(jù)存儲(chǔ)在Redshift,、Postgres、Snowflake和BigQuery數(shù)據(jù)庫中,。DataModeling(數(shù)據(jù)建模):數(shù)據(jù)建模模塊將事件級(jí)別的數(shù)據(jù)與其他數(shù)據(jù)集結(jié)合,,并聚合成更小的數(shù)據(jù)集,同時(shí)應(yīng)用業(yè)務(wù)邏輯,。這一過程會(huì)生成一組表格,,使數(shù)據(jù)分析更加便捷。Snowplow官方支持針對(duì)Redshift,、Snowflake和BigQuery的數(shù)據(jù)模型,。Analytics(數(shù)據(jù)分析):分析模塊可以直接對(duì)Snowplow事件數(shù)據(jù)或聚合后的表格進(jìn)行分析,以滿足業(yè)務(wù)需求,。應(yīng)用場(chǎng)景:改進(jìn)用戶體驗(yàn):通過深度分析用戶行為來優(yōu)化產(chǎn)品設(shè)計(jì),。提升廣告效果:跟蹤廣告點(diǎn)擊,衡量ROI,。預(yù)測(cè)用戶需求:利用機(jī)器學(xué)習(xí)模型預(yù)測(cè)未來行為,。構(gòu)建個(gè)性化推薦:基于用戶歷史行為數(shù)據(jù)提供定制化建議。(src:snowplow|github,,Snowplow開源項(xiàng)目推薦,,探索未來數(shù)據(jù)驅(qū)動(dòng)的力量:Snowplow-行為數(shù)據(jù)的引擎,YaliSassoon,OCS2020Breakout:AlexanderDean)學(xué)術(shù)微觀察
10
PracticalDisaggregatedCacheforApacheDataFusionChicagoDataFusionMeetup2024上,,來自UniversityofWisconsin-Madison的博士生XiangpengHao發(fā)布了一種全新的分離式緩存架構(gòu),,通過優(yōu)化現(xiàn)代數(shù)據(jù)湖的存儲(chǔ)與計(jì)算流程,實(shí)現(xiàn)了顯著的性能提升和成本優(yōu)化,。該方案在對(duì)象存儲(chǔ)與計(jì)算節(jié)點(diǎn)之間增加了一個(gè)專用緩存層,,通過將查詢分解為輕量級(jí)過濾和復(fù)雜計(jì)算,
(略)絡(luò)的數(shù)據(jù)傳輸量和CPU瓶頸,。技術(shù)核心在于引入緩存專用文件格式,,對(duì)傳統(tǒng)Parquet數(shù)據(jù)進(jìn)行再編碼,采用部分解碼,、SIMD友好壓縮,、延遲物化等技術(shù),大幅降低了解碼成本,,同時(shí)實(shí)現(xiàn)更高的查詢性能,。在過濾密集型場(chǎng)景下,該架構(gòu)性能提升可達(dá)4倍,,而內(nèi)存占用僅為緩存Arrow格式的20%,。此外,系統(tǒng)具備高兼容性,,支持ApacheArrow和DataFusion等主流生態(tài),,能夠?qū)崿F(xiàn)緩存層的獨(dú)立擴(kuò)展,適配實(shí)時(shí)分析和交互式工作負(fù)載,。這一架構(gòu)通過在云端提供靈活擴(kuò)展,、高性價(jià)比的查詢加速能力,為云計(jì)算和數(shù)據(jù)分析基礎(chǔ)設(shè)施提供了一個(gè)高效且具有商業(yè)價(jià)值的解決方案,。(src:
(略)ChicagoDataFusionMeetup03XiangpengHao|Youtube)
HPCache:memory-efficientOLAPthroughproportionalcachingrevisited主要作者:HamishNicholson:EPFL(洛桑聯(lián)邦理工學(xué)院)的研究員,,
(略)。PeriklisChrysogelos:在EPFL期間參與了這項(xiàng)工作,,目前在Oracle工作,,
(略)和存儲(chǔ)技術(shù)。AnastasiaAilamaki:EPFL的教授,,也是RAWLabsSA的聯(lián)合創(chuàng)始人,,
(略)。
(略)和應(yīng)用,。核心問題:
(略)中,,傳統(tǒng)的基于頻率和時(shí)間的緩存策略(如LRU、MRU等)在面對(duì)快速存儲(chǔ)設(shè)備(如NVMeSSD)時(shí),,無法有效利用內(nèi)存空間,,導(dǎo)致緩存效率低下,。具體表現(xiàn)為:當(dāng)存儲(chǔ)設(shè)備的讀取帶寬接近或超過內(nèi)存查詢處理速度時(shí),僅僅基于訪問頻率的緩存決策無法準(zhǔn)確反映緩存對(duì)查詢執(zhí)行速度的影響,。例如,,對(duì)于一個(gè)頻繁查詢但大部分時(shí)間用于處理連接操作的查詢,緩存其輸入數(shù)據(jù)的加速效果遠(yuǎn)不如緩存一個(gè)訪問頻率稍低但掃描密集的查詢的頁面?,F(xiàn)有的緩存策略會(huì)浪費(fèi)寶貴的內(nèi)存空間去緩存那些對(duì)分析幾乎沒有加速效果的輸入數(shù)據(jù),,導(dǎo)致內(nèi)存資源的浪費(fèi)和查詢執(zhí)行的延遲。解決方案:提出了HPCache,,一種新的緩沖管理策略,,通過考慮查詢頻率和緩存決策對(duì)查詢執(zhí)行時(shí)間的加速影響,實(shí)現(xiàn)內(nèi)存空間的高效利用,。具體包括:基于加速潛力的緩存決策:HPCache不再僅僅依賴于頻率統(tǒng)計(jì),,而是通過分析查詢執(zhí)行過程來理解緩存的潛在好處,并據(jù)此做出緩存決策,。自動(dòng)調(diào)整緩存優(yōu)先級(jí)和內(nèi)存列空間預(yù)算:根據(jù)過去的執(zhí)行行為,,HPCache能夠自動(dòng)調(diào)整緩存優(yōu)先級(jí)和分配給每個(gè)列的內(nèi)存空間,以實(shí)現(xiàn)最優(yōu)的緩存效果,。部分列緩存:為了避免緩存收益遞減,,HPCache采用部分列緩存策略,只緩存每個(gè)列的一部分頁面,,以避免不必要的內(nèi)存浪費(fèi),。技術(shù)實(shí)現(xiàn):影響建模:通過兩步過程建模緩存的影響:首先建模特定查詢輸入的緩存影響,然后將多個(gè)查詢的影響聚合起來,,確定緩存一列的總體影響,。平衡模型:將查詢執(zhí)行建模為流,通過優(yōu)化問題來確定在給定內(nèi)存預(yù)算下,,如何分配內(nèi)存以最小化查詢的總執(zhí)行時(shí)間。持續(xù)調(diào)整:HPCache在查詢執(zhí)行過程中持續(xù)監(jiān)控和調(diào)整緩存配置,,通過背景線程定期解決優(yōu)化問題,,更新對(duì)當(dāng)前管道的Pbw估計(jì)和整體最優(yōu)列比例。與執(zhí)行引擎的集成:HPCache通過攔截分析引擎和存儲(chǔ)層之間的調(diào)用,,透明地獲?。?span id="oseimcgwi" class="open_quick_reg">(略)
HybGRAG:HybridRetrieval-AugmentedGenerationonTextualandRelationalKnowledgeBases主要作者:Meng-ChiehLee:卡內(nèi)基梅隆大學(xué)(CarnegieMellonUniversity)計(jì)算機(jī)科學(xué)系博士,主要研究方向是圖挖掘,、數(shù)據(jù)挖掘和異常檢測(cè),。QiZhu:Amazon研究員,
(略)(GraphStorm),,應(yīng)用于檢索增強(qiáng)生成(RAG),、圖機(jī)器學(xué)習(xí)等領(lǐng)域,。他在伊利諾伊大學(xué)厄巴納-香檳分校(UIUC)獲得了計(jì)算機(jī)科學(xué)博士學(xué)位。核心問題:在半結(jié)構(gòu)化知識(shí)庫(SKB)中,,如何有效地檢索相關(guān)信息以回答用戶問題,?特別是對(duì)于需要同時(shí)利用文本和關(guān)系信息的“混合”問題(HQA),現(xiàn)有的檢索增強(qiáng)生成(RAG)和圖檢索增強(qiáng)生成(GRAG)方法難以有效處理?,F(xiàn)有方法要么只關(guān)注檢索文本或關(guān)系信息,,要么在混合問題中
(略)分需要檢索的不同類型信息的方面,導(dǎo)致檢索效果不佳,。解決方案:提出了HYBGRAG方法,,通過以下組件解決混合問題:RetrieverBank:
(略)由器,用于同時(shí)利用文本和關(guān)系信息進(jìn)行檢索,。具體來說,,設(shè)計(jì)了文本檢索模塊和混合檢索模塊,前者直接在文本文檔中檢索答案,,后者結(jié)合圖檢索器提取與主題實(shí)體相關(guān)聯(lián)的文檔,,再通過文本相似性排名器對(duì)文檔進(jìn)行排序,實(shí)現(xiàn)文本和關(guān)系信息的協(xié)同檢索,。CriticModule:
(略)由,。分為驗(yàn)證器(Validator)和評(píng)論員(Commentor),驗(yàn)證器用于判斷檢索結(jié)果是否滿足問題要求,,評(píng)論員則根據(jù)驗(yàn)證結(jié)果提供糾正性反饋,,
(略)由中的錯(cuò)誤,如錯(cuò)誤識(shí)別的主題實(shí)體或關(guān)系等,,
(略)由器進(jìn)行改進(jìn),。技術(shù)實(shí)現(xiàn):RetrieverBank實(shí)現(xiàn):文本檢索模塊:使用向量相似性搜索(VSS)在嵌入空間中比較問題和文檔,實(shí)現(xiàn)文本文檔的檢索和排名,?;旌蠙z索模塊:首先通過圖檢索器提取與主題實(shí)體相關(guān)聯(lián)的實(shí)體,然后使用VSS排名器對(duì)這些實(shí)體關(guān)聯(lián)的文檔進(jìn)行排名,,確保檢索結(jié)果同時(shí)滿足文本和關(guān)系信息的要求,。路由器:基于少量樣本示例,利用LLM識(shí)別問題中的關(guān)系方面,,即主題實(shí)體和有用關(guān)系,,然后根據(jù)識(shí)別結(jié)果選擇使用文本檢索模塊或混合檢索模塊。CriticModule實(shí)現(xiàn):驗(yàn)證器:
(略)徑作為驗(yàn)證上下文,,
(略)徑是否滿足問題要求來驗(yàn)證檢索結(jié)果的正確性,。評(píng)論員:根據(jù)驗(yàn)證結(jié)果,提供糾正性反饋,,
(略)由中的錯(cuò)誤類型,,如錯(cuò)誤識(shí)別的實(shí)體/關(guān)系,、缺失實(shí)體、無交集等,,并給出具體的改進(jìn)建議,。最終結(jié)果:在STARK基準(zhǔn)測(cè)試中,HYBGRAG取得了顯著的性能提升,,平均相對(duì)改進(jìn)了51%的
(略)@1指標(biāo),。具體來說,在STARK-MAG和STARK-PRIME數(shù)據(jù)集上,,HYBGRAG的
(略)@1指標(biāo)分別比第二好的基線提高了47%和55%,。這表明HYBGRAG能夠有效地處理混合問題,同時(shí)利用文本和關(guān)系信息進(jìn)行準(zhǔn)確的檢索,,顯著優(yōu)于現(xiàn)有的RAG和GRAG方法,。(src:HybGRAG:HybridRetrieval-AugmentedGenerationonTextualandRelationalKnowledgeBases)
Reference
11
[ANNOUNCE]IvorySQL4.0Released-EnhancedOracleCompatibilitywithPostgreSQL17.0Foundation[ANNOUNCE]SynchDB1.0Released-PostgreSQLExtensionforReal-
(略)獨(dú)家:2024年全年大模型中標(biāo)項(xiàng)目盤點(diǎn)-https://
(略).com/s/y2OxU4DIK1vWOSxBEZsxtA沙利文|2024年金融級(jí)分布式數(shù)
(略)場(chǎng)跟蹤報(bào)告-https://
(略).pdf2025年度江蘇省黨政機(jī)關(guān)、事業(yè)單位:
(略)
關(guān)注微信公眾號(hào)
免費(fèi)查看免費(fèi)推送
尊貴的用戶您好,。上文****為隱藏內(nèi)容,,
僅對(duì)《中國(guó)采購(gòu)招標(biāo)網(wǎng)》正式會(huì)員用戶開放。
如您已是本網(wǎng)正式會(huì)員請(qǐng)登陸,,
如非會(huì)員可咨詢客服,。
|
專屬客服:朱婷婷 |
電話:13385609453 |
微信:13385609453 |