計算機行業深度研究報告：Grok，xAI引領Agent加速落地.pdf

上傳者：1*****
時間：2025/09/23
熱度：253
0人點贊
舉報

計算機行業深度研究報告：Grok，xAI引領Agent加速落地。Grok：馬斯克創立，xAI 公司旗下大語言模型。公司核心團隊來自業內頂尖機構，曾參與 GPT、AlphaStar 等項目。Grok 系列快速迭代，至 2025 年 7 月已發布五個版本：Grok-1、Grok-1.5、Grok-2、Grok-3 和 Grok-4。Grok-1 是開源的純文本 MoE 模型，在編碼和知識測試中表現出色，優于 ChatGPT-3.5。Grok1.5 引入長上下文和圖像理解；Grok-2 整合實時檢索和圖像生成，形成多模態閉環，在 MATH 測試中追平 GPT-4o，DocVQA 領先；Grok-3 顯著強化推理能力，在 AIME、GPQA 等高階測試及 Chatbot Arena 中超越 GPT-4o、Gemini-2 Pro、DeepSeek V3、Claude 3.5 等旗艦模型；最新 Grok-4 上下文窗口翻倍至 256K tokens，保留多模態并計劃新增語音交互及多智能體推理。

Agent：多維 Agent 助力 xAI 光速迭代，Grok 4 領銜 AI 學術領域。7 月 10 日，xAI 發布 Grok-4，宣稱其綜合性能全球領先，尤其在理工科和編程領域達到博士研究水平。該模型在權威的“人類級考試”中以 44.4%準確率刷新紀錄，并在 AIME 數學競賽、SAT、GRE 等傳統測試中超越 OpenAI o3、Gemini 2.5 Pro 和 Claude 4 等頂級模型。Grok-4 具備處理超長信息的能力，計算資源投入相比前代巨幅增加，并推出普通版和更強大的會員多智能體協作版“Grok-4 Heavy”。它在多場景應用表現出色，如預測體育賽事、生成物理動畫、優化商業運營及精準理解社交媒體內容。未來 Grok-4 將持續優化升級，8 月將推出編程專用版本，9 月發布多模態智能體版本，10 月正式上線視頻模型。xAI 同時公布了龐大的算力建設藍圖，目標五年內達到相當于 5000 萬塊頂級 AI 芯片的規模以支撐發展。

海外大模型引領行業發展，國產大模型多點突破持續追趕。對比分析國內外模型產品，海外方面：OpenAI 持續推進 GPT-4 系列多模態升級，ChatGPT Agent 在多項基準測試表現出色，GPT-5 已經問世；Anthropic 的 Claude 4 系列在軟件編碼能力上表現卓越。作為 Google 旗艦，Gemini 2.5 Pro 通過增加深度思考模塊、擴展上下文窗口及引入“思維預算”功能。國內方面：截至 2025 年 6 月底，我國生成式 AI 服務與應用備案登記體系規模化落地，累計備案服務 439 款、登記應用 233 款。國產模型表現亮眼：Kimi K2 性能逼近 Claude 4 Opus，在多項評測中領跑國產開源模型，輸入成本降至 GPT-4.1 的三分之一；新版 DeepSeek-V3.1 通過系統性 Post-Training 優化，在模型靈活性與推理效率的雙重突破，顯著提升了工具調用及復雜任務執行性能。DeepSeek-V3.1 新版本基于 Post-Training 優化顯著增強 Agent 能力，大幅提升模型靈活性與思考效率，在工具使用與智能體任務執行上表現突出。；阿里巴巴 Qwen3 系列持續升級，新推出的 Qwen3 Coder 編程模型在編碼基準測試中媲美 Claude Sonnet 4，在中文語義和垂直任務中保持優勢。國產大模型在性能、成本效率上突破顯著增強了國際競爭力。我們認為：1）全球大模型競爭格局，已由 OpenAI 一家獨大，走向多極競爭格局；2）AI 關注應聚焦模型即應用與 AI+場景維度。