
紅帽技術長Chris Wright親自剖析紅帽如何在GenAI世界中找到自己的新定位。(圖片來源/紅帽)
【波士頓現場直擊】
老牌軟體公司如何在激烈的生成式AI競爭中,殺出自己的一條路。在紅帽今年年會大會第一天主題演講後,三位紅帽最核心的高層,紅帽執行長Matt Hicks、技術長Chris Wright和產品長Ashesh Badani親自回答全球媒體的問答。
紅帽今年的新發展戰略是,瞄準企業即將興起的大規模GenAI應用浪潮,推出了多項新AI戰略和產品,為何紅帽堅持不做自己的LLM,在未來的企業GenAI發展中,將如何持續扮演關鍵角色,像RHEL在企業基礎架構的影響力一樣。
我們整理了紅帽技術長Chris Wright對於自家新GenAI定位和戰略的說明。他揭露了如何在GenAI世界中找到自己的新定位,GenAI新戰略背後有哪些思考,以及下一步方向又是如何,以下是他現場回答的整理:
新戰略:將混合雲願景帶進AI領域提供選擇
紅帽的重點是將十多年來努力實現的混合雲願景帶入AI領域,有一件事非常重要就是提供「選擇」。Chris Wright不論在主題演講或會後媒體團訪中,都會先點出「提供選擇」的原則,這也是紅帽過去發展開源作業系統和容器管理平臺一貫的精神。
各種模型不斷出現,感覺每天都有新模型,這是高速創新的速度,這些開源授權的模型,對用戶開放,可以自己下載,自己優化硬體,自己決定AI技術堆疊要有多大的彈性,連關鍵套件都能自己決定,而加速晶片則位於技術堆疊的底層。
紅帽在GAI世界的新定位
擁有深厚作業系統背景的紅帽,對硬體支援非常熟悉,也與雲端供應商、硬體晶片供應商有很好的合作夥伴關係。所以,Chris Wright強調:「將底層硬體和熱門模型的軟體架構串連起來,是紅帽在整個GAI世界中的位置。」
舉例來說,為了擴大企業AI落地規模,讓不同AI想法實現,紅帽今年發表了一款新的產品,紅帽AI推論伺服器。這套產品架構的上層是各種模型,紅帽與不同模型的創立者都有長期合作關係,在他們新版模型第一天發布之前,紅帽就可以和他們合作,進行大量優化。紅帽與Meta的合作就是一個例子。紅帽也和模型供應商合作,在紅帽平臺上驗證業者的模型。
Chris Wright在媒體問答中也多次強調,紅帽不會自己打造LLM模型,這一點就和大型雲端供應商的發展策略有很大的差異。
紅帽AI推論伺服器,不只是一款社群可用版本,而是可以用於關鍵任務的運作環境。這款伺服器也可以說是一套作業系統,核心是Linux,可以用來建構和執行不同的模型。紅帽AI推論伺服器是紅帽AI產品組合的成員之一,可以部署成一臺獨立的伺服器,支援不同硬體,也能部署到OpenShift上,也可以部署到第三方的基礎設施,靈活度很高。
LLL過去的話題,一直聚焦於超大模型、數兆參數等級的模型,但是,開源或開放模型已經出現了,800億到4500億參數等規模相對較小的模型,也證明可以做到很多不輸大型語言模型價值的工作。紅帽正在優化和壓縮這些模型,在不犧牲模型準確性的情況下,更有效率地運用硬體。
各種開源LLM模型不斷出現,相互競爭,而且開源模型與大型、專用領先模型之間的差距越來越小,紅帽會將這些開源模型帶到規模更小的部署環境,這是一種在執行階段提高效率的方式,來降低成本。
今年初,開源模型更進一步具備了推理能力,推論時間擴展技術(Inference time scaling)是實現推理能力的關鍵做法。原本是靠更多資料,更大參數的模型來提高準確性,現在可以擴展、延長推論時間來產生更好的結果,讓你可以用更小的模型,像大型模型一樣,同樣產生高價值的結果。
為了降低Token單位成本,聚焦企業基礎架構效能最大化
這麼做的代價是,要花更多時間來進行計算,而且過程中,所產生的每一個Token都有成本。為了提供更好的時間擴展能力,需要降低每一個Token的成本,並且從整體角度來思考每一瓦特的Token成本。(編按:指一瓦特電力可以產生多少Token,數值越高越好),如何讓所有企業都能更有效率,這是紅帽關注的領域。去年,紅帽關注企業自有的資料,今年也開始關注,如何讓企業自有基礎架構效能最大化,來降低每一個Token的成本。
可是,Chris Wright坦言,許多企業大量投資GPU叢集,設備非常昂貴,卻難以將GPU的利用率最大化,甚至利用率經常很低。
紅帽深入研究模型推論的運作流程,主要瞄準兩個關鍵階段,一個是運算密集的預填充( Prefill )階段,要對整個上下文資料進行處理。另一個則是解碼(Decode)階段,需要龐大記憶體的來生成一個個Token。
宣布新開源專案llm-d,將分散式架構帶進LLM
如何將整套系統的內容吞吐能力最大化是提高效能的關鍵,若能用更好的方式來分散處理不同的請求,就可以大幅提高GPU的利用率。紅帽新發表的llm-d專案,就是以推論引擎為核心,利用K8s來執行各種分散式的做法。紅帽也與許多重要供應商合作,像是Google、Nvidia等。Chris Wright比喻,就像K8s將分散式架構帶進了Linux伺服器,llm-d專案也同樣將分散式架構帶進了LLM伺服器。
雖然AI代理在2024年受到高度關注,但沒有太多企業知道如何在自己的環境中打造AI代理。直到今年,代理AI開始成為企業的現實課題。
兩手策略,瞄準代理AI的未來發展
Chris Wright指出,未來的發展上,紅帽的計畫是支援代理AI的發展,Red Hat AI將會整合Meta的Llama Stack技術架構和Anthropic推出的MCP協定。這兩項先期標準,可以驅動代理AI的部署。
MCP提供了一套標準做法,來連結模型,工具、資源和提示命令,讓企業可以將LLM 與任何既有商業所用的工具整合。而Llama Stack則提供了一套平臺,讓開發者用來建立一套運用模型的應用開發流程,包括了建構、部署和支援一隻AI應用執行的整套軟體應用架構,也涵蓋了模型微調、評估、建模等不同模型運作關鍵,能打造出一隻可部署,也能連結到模型的應用程式。
MCP仍舊不斷演化中,安全性將是持續不斷的改進過程,MCP下個階段要開始處理授權的議題。MCP的使用方式將有很大的不一樣。紅帽自己也正在思考,如何透過MCP,讓LLM如何和我們的產品整合。
MCP協定提供三種不同的LLM互動方式,可以和資料、工具或提示等不同類型的資源來互動。Chris Wright觀察,目前大多數人聚焦於LLM與工具的互動,工具概念就像是在現有企業應用上疊加一層可以讓模型存取的API,已有一些企業開始研究這件事對他們的意義。
就像早期Ansible自動化引擎發展早期,同一項工作,可能有10種不同的自動化方式來實現。同樣用MCP存取天氣資料,現在也有很多天氣MCP伺服器可用。「這正是令人興奮之處,企業也要學習,什麼才是對自己有用的做法。」Chris Wright興奮地提醒。
熱門新聞
2025-07-08
2025-07-07
2025-07-07
2025-07-08
2025-07-07
2025-07-07
2025-07-07