Agent、Agent?Agent!
說起今年的 AI 浪潮,除了年初 DeepSeek 引領的一波強化學習熱,行業內受關注的,莫過于各種各樣的 AI Agent 以及 “ 類 Agent ”。
不知從什么時候開始,Agent 變成了一種萬能公式,什么都可以套進去一下。
但,Agent 真的有那么好嗎?真的有競爭力嗎?
“ Manus 前陣子剛推出的新功能 Wide Research,我覺得非常不具備競爭力,對提高產品競爭力沒有什么用。” 某大型金融企業 AI 技術專家王顯( 化名 )表示。
從 “ 次日即舊 ” 的榜單到被基礎模型一輪升級清場的產品,2025 年的 Agent 創業,熱鬧背后是可憐的留存率與漸趨同質的體驗。
幾乎所有 Agent 產品都在講 “ 更聰明、更全能、更自動化 ”,但用戶只試用一次就離開的比例居高不下,Demo 能飛,落地常摔,這是否意味著通用型 Agent 的敘事正在透支?

本文,把鏡頭拉遠,看看泡沫究竟來自資本驅動、技術錯配,還是場景誤判?
我們將邀請來自大型企業、創業公司的多位一線實踐者,以 Manus 近期的新產品 Wide Research 和公司跑路、撤資事件為引,追問國內外 Agent 泡沫亂象現實、背后的原因,以及未來 Agent 賽道的生存規則。
在交流過程中,我們發現,通用與垂直的取舍和統合是決定去留的關鍵。
實際上,今年 Agent 大火, 主要是在 tool-use 上取得突破。
《 知識圖譜:認知智能理論與實戰 》、《 知識增強大模型 》與《 比 RAG 更強- 知識增強 LLM 型應用程式實戰 》作者、大模型技術專家王文廣表示,“ 具體來看,從編程到browser-use,再到 computer-use,以及隨著 MCP 通用接口普及率的提升,Agent 的 tool use 能力得到增強,能夠更高效地從外部獲取信息,以及與外部系統進行交互。”
平安保險技術平臺組負責人張森森進一步解釋道:“ 技術層面上,協議逐漸成熟,能力外延擴大,可以通過 MCP 協議等方式應用到更多場景。應用層面上,有些長尾場景得到了覆蓋,比如從瀏覽器信息助手到執行動作的轉變:過去只是提供答案,現在能幫助完成動作。生態層面也降低了一些成本。”
“ 過去廠商比拼模型參數,現在還要比拼模型加生態工具的組合能力,市場競爭焦點已經發生轉移。”
但這其中,以 Manus 為代表的通用 Agent 類產品一直飽受爭議。
一方面,資本甚是青睞,另一方面,用戶詬病不止。
直到近,Manus 先是跑路,把公司總部從國內搬遷到新加坡,隨后推出了 Wide Research 產品,再之后又被曝出將可能因為安全審查問題被強制撤銷融資。
在整個賽道中,炒作了大半年的 Agent 概念,也開始面臨越來越顯性的質疑。
王顯詳細解釋了為何 Wide Research 缺乏競爭力:
“ 第一,Wide Research確實提高了并行處理的效率,但也非常消耗計算資源和調用額度,所以它的定價非常貴。”
“ 第二,沒有看到它與單體高性能的 Deep Research 在性能準確度、成本效率上的公開對比或測試,所以不能確定它在使用大量并行任務后,效果是否真的得到提升。”
“ 重要的一點是,它仍然沒有解決場景壁壘的問題。”
“ 它沒有專業數據、沒有專屬工具鏈、沒有行業認證、沒有與業務深度綁定的集成,也沒有與高價值業務場景的綁定,也就是任何人都能做。所以,它更偏向工程能力的延伸,而不是在構建場景護城河。”
“ 當然,早期采用淺而寬的策略來獲客沒有問題,但長期來看,Manus無法抵御模型廠商的下沉和垂直廠商的滲透。”
“ 所以在我看來,Manus 自始至今,從產品角度而言,思路是完全失敗的。”
AI 技術專家和創業者陳為也基本持一致的觀點:
“ Wide Research 的本質是 ‘ 規模化通用任務執行器 ’,效率高,但沒有解決 ‘ 決策 ’ 問題。”
“ 用戶會發現,當他們遇到真正復雜的問題時,這個通用 Agent 還是幫不上忙,終不得不轉向專業的垂直產品或人工服務,導致用戶留存率不高。”
如果擴大到任意的通用 Agent,則它們都具備一個看似有吸引力但實則致命的特點:任務范圍模糊。
知言吉智 CEO 付瑞吉表示:“ 任務范圍模糊一定會對產品帶來不利的影響。一方面,當一個 Agent 宣稱能做所有事情時,它往往在任何一個領域都做不到好;另一方面,任務范圍模糊,意味著用戶對于這個 Agent 到底能幫自己解決什么問題也會有困惑,那么這個產品的認知成本就非常高。”

付瑞吉進一步解釋了近期 Agent 泡沫興起的創業者心態:“ 大模型的出現讓大家覺得開發門檻降低了,感覺 ‘ 人人都能做 Agent ’。許多開發者和創業公司認為將其包裝成一個能解決各種問題的 ‘ 超級助手 ’,能迅速吸引大量 C 端用戶。通用型 Agent 的核心賣點就是 ‘ 解決所有問題 ’。但現實是,目前為止沒有任何一個 Agent 能真正做到這一點。”
王顯更是認為這場泡沫的興起是創業公司和資本共謀的產物,“ Manus 根本不是在做產品,而是在走資本路線,通過不斷推高市場知名度以獲得更高融資。至于創始人是拿到融資后真正深入場景做產品還是卷錢跑路,只有創始人自己才知道。產品非常失敗,但營銷可以說非常成功。”
付瑞吉補充道:“ 營銷只能負責將大眾的注意力吸引過來,但 Agent 不同于內容類的產品( 如短視頻 )只要用戶的注意力就夠了,它還是要解決用戶的實際問題的,如果用戶發現產品 ‘ 華而不實 ’,則很難留存。”
沐瞳科技大數據負責人薛趙明則認為這種產品模式有一定合理性,但還是要區分 ToC 和 ToB 的邏輯,“ ToC 和 ToB 是兩種邏輯,ToC 需要具備多樣性,這個多樣性也代表了用戶選擇的多樣性,產品力不足的會很快在市場的浪潮中褪去,因為這是一個非常燒錢的賽道,沒有用戶的沉淀和付費是很難長期堅持的。ToB 又是另一個商業邏輯,必須強調可落地和可交付,否則便是無用的。”
王顯以 Wide Research 為例解釋了為何通用 Agent 產品現階段對于企業用戶無用,“ 對于企業而言,Wide Research 并沒有說明 Agent 是如何分工、如何合作、如何整合各自結果的,它們之間的協調協議和調度機制也不明確。那我后怎么去做審計呢?作為企業,我必須審計這個過程是否合規,以及在執行過程中到底發生了什么。所以我沒辦法信任它給出的終結果。”
“尤其是在金融行業,我們可能花了很長時間跑出一個結果,如果它直接告訴我買哪只股票、投哪家公司,我不可能只憑這個結果就去執行。”
Manus 雖然接受了中外多個基金的投資,但運營主要面向海外市場,而且總部已經搬遷到新加坡,其代表的只是 Agent 泡沫的一小部分組成。
但聚焦到國內,情況也并不樂觀,甚至可以說有太多相似之處。
薛趙明表示,“ 實際上,當前無論是創業公司,還是一線的云廠商的產品,大部分的產品都還是在一個特定場景下去演示,真正的規模化落地還是偏少。”
張森森表示:“ 國內很多 Agent 產品功能繁多,但基本都是快速堆疊,痛點不聚焦。 比如有大量集成了寫文案、做 PPT、查資料、生成圖片等功能的產品,不乏大廠參與其中。它們都有通用 Agent 的特點,功能多但不精。寫代碼準確率不高,數據分析缺少可解釋性,設計產出質量參差不齊。初次使用可能覺得新鮮,但要長期依賴則難以實現。很少有明確與工作流、KPI 綁定的可交付結果。”
“ 具體到一些金融類工具型 APP( 公司主體一般沒有正式的金融業務牌照 ),比如炒股平臺,會提供所謂的智能投顧功能。當我打開某只股票時,它可能提示該股票出現‘紅三兵’,未來可能上漲,但這樣的判斷缺乏準確性。”
“ 因為它只是摘錄過去的一些市場信息,而二級市場的信息來源非常多,決策點也很多,這類產品完全無法體現這些復雜因素。看起來像是做了一個智能投顧,但實際上既沒有真正實現投資組合優化、風險控制,也無法對接交易系統,無法支撐其宣傳的定位。”
“目前市面上沒有一家能真正把智能投顧功能做好。實際上,大部分經紀公司都有相關部門去做這件事。問題在于,一方面他們覺得必須做,另一方面看到大模型似乎能解決問題,就開始投入開發,完成后立刻做宣傳,聲稱接入了大模型并具備某種能力。”
“但這里的問題在于,他們的宣傳能力與實際能力并不匹配,并非能力完全無用,而是存在明顯落差。”
王文廣表示:“ 成功演示的往往是任務中那 20% 的標準化部分,而真正構成工作核心的,是那 80% 的、充滿‘長尾異常’的復雜現實。”
就連大家目前普遍主動或被動接觸過的AI搜索,其實也還很初級,Jina AI 前 CTO 王楠向知危表示,“ Agent 目前能夠多輪使用簡單工具或者單輪使用復雜工具,但是多輪使用復雜工具( 例如搜索工具 )的能力還沒有達到生產可用。從BrowseComp Benchmark 上看,搜索大模型在使用搜索工具方面還有很大的提升空間。這種差距的原因在于大模型在使用通用工具上的能力還沒有迎來ChatGPT時刻。”
白鯨開源 CEO 郭煒向知危總結道,“ 目前整體來看,各種 Agent 產品給人的驚喜度確實不夠。因為現在 Agent 技術本身還沒有進入成熟或真正可用階段,技術生態不完善。甚至關于Agent 的理念,大家都還沒有想清楚。”
“ 國內大多數所謂的 Agent 其實并不是真正的 Agent,只是為了吸引眼球而這么命名。在我理解中,能夠替代 ToB SaaS 和 ToC APP 的那種 Agent 產品還沒有出現。國內品牌都是如此。”
“ 換句話說,現在的 Agent 大多是套了自然語言交互外殼的 RPA( 軟件機器人流程自動化 ),普遍缺乏深度。那為什么不直接用 RPA 呢?RPA 還沒有幻覺。”
這種 “ 名不副實 ”的現象,王文廣指出,是所謂的“智能體洗白”( Agent Washing ),在行業中已非常普遍。
“ 這是 ‘ 能力泡沫 ’ 的直接產物。公司利用市場對 ‘ Agent ’ 一詞的追捧來吸引投資和用戶。直接的例子是,有權威報道指出,全球幾乎所有在 2022 年底 ChatGPT 之前就在所謂的 RPA 等賽道上有所成就的企業,都在掛智能體的羊頭賣 RPA 的狗肉。”
Gartner 今年 6 月的市場分析報道表明,其在測試的 ‘ 數千款 ’ 所謂的 Agent 產品中,只有約 130 款真正符合標準。
“ 所以,可以做個簡單的排除法,尋找智能體或大模型落地的供應商,首先排除掉以往做過 RPA 的企業,這可以避免一半的坑。投資也是一樣。”
王文廣還總結了 C 端和 B 端 Agent 泡沫的一般特征,“ ToC 泡沫主要由對 ‘ 通用個人助理 ’ 的夢想驅動,ToB 泡沫更多是由企業的提高生產力、降低成本的焦慮所驅動。”
“ ToC 的這種愿景極具吸引力,容易引發病毒式傳播和媒體的廣泛關注,從而在短期內催生出極高的估值和用戶增長預期,但當產品體驗達不到預期,用戶會毫不猶豫地離開。”
“ ToB 領域則由于企業軟件的銷售周期長、決策鏈條復雜,并且一旦部署,即使效果不佳,替換成本也相對較高,從而顯得其泡沫更具欺騙性,也更慢地顯現。”
如果將國內外的 Agent 泡沫現象綜合起來,則又是另一番景象。
張森森解釋道,“ 國內外的 Agent 泡沫表現并不相同。比如美國,其優勢是在 B 端,但泡沫不在 B 端,而是在 C 端,一些通用型消費級助手類 Agent 的投資方可能來自硅谷大基金。這些機構在早期投資時,美國對數據安全還沒有嚴格限制。但隨著數據隱私法比如 GDPR、CCPA 等監管措施落地,尤其是在跨境場景下,AI的安全審核要求變高,很多競爭者被迫增加合規與差異化投入,結果加快了行業洗牌速度,把不少做通用型 APP 的企業淘汰出局。”
“ 國內的泡沫很特殊,雖然用戶集中在 C 端,但泡沫幾乎只存在于 B 端。原因是 B 端企業受補貼、國產化等政策影響,同時市場內卷嚴重,用戶更注重實用性而非炒作。B 端用戶相對冷靜,因此很多 ToB 初創公司迅速倒閉,一些去年還在討論的公司今年已經消失,泡沫破滅速度會很快。”

當前的 Agent 產品普遍缺陷明顯,可以從產品、工程、場景等多方面理解。
產品層面主要是可靠性不足。對于為何大部分 ToC Agent 產品中,90% 的用戶用一次就離開,郭煒表示,“ 這很正常,因為它還不如直接用 APP。真正的 Agent 應該比 APP 更方便、更簡單。”
“ 而如果是 To B 產品,必須比現有軟件更簡單、準確、方便。本來用戶點三下鼠標就能完成的事,現在用 Agent 卻要用自然語言先說一句話,然后再跟它說十句話,才能替代原本三次點擊的工作。這樣的體驗讓人寧愿直接點鼠標。”
王文廣表示,“ 換句話說,根本的原因是,對于大多數真實世界任務,用戶為驗證和修正 AI Agent 輸出所付出的心智成本和時間成本,超過了 Agent 本身所節省的成本。”
“ ‘ 通用個人助理 ’ 承諾的是一個科幻級別的未來。其所要處理的任務,如預訂家庭旅行、管理個人財務、安排重要會議,都具有一個共同點:高信任要求。例如,用戶需要確信 Agent 不會訂錯機票、不會泄露財務信息、不會搞砸會議時間。”
“ 然而,當前大模型的 ‘ 幻覺 ’、知識陳舊等問題和 Agent 執行的脆弱性,使得其可靠性極低。”
“ 這種 ‘ 高信任要求 ’ 與 ‘ 低可靠性 ’ 之間的巨大鴻溝,或未能穩定地跨越從 ‘ 新奇玩具 ’ 跨越到 ‘ 可靠工具 ’,是 C 端通用 Agent 無法獲得用戶長期留存的根本原因。用戶可以容忍一個聊天機器人講錯一個歷史知識,但絕不能容忍一個 Agent 訂錯一張機票。”
而且目前 Agent 產品有從訂閱制走向按結果付費的趨勢,這其實也給通用 Agent 創業公司帶來了壓力。 “ 這種商業模式的演進,本質上是一次風險轉移,將產品無效的風險從客戶身上轉移到了服務提供商身上,而 ToC 的通用 Agent 的不可靠性使其極難承受這種風險。反倒是 ToB 領域,可以選擇合適的場景,通過效果所創造的價值進行分成,是有利的。”
張森森從工程角度總結了許多 Agent 產品無法落地的原因:“ 第一,真實環境非常復雜,不可能像實驗環境那樣數據干凈。現實中數據質量往往較差,接口口徑不一致。”
“ 第二,很多接口需要跨系統權限訪問,要做 SSO( 單點登錄 ),還涉及數據脫敏,這些環節很容易卡住,導致平臺間的對接受阻。工具本身存在脆弱性,比如瀏覽器系統自動化可能對 DOM 版本極其敏感,API 的速率限制等問題也可能導致頻繁重試。”
“ 第三,存在狀態和記憶缺失的問題。就像長鏈路任務中缺乏持久狀態,上下文無法保存,狀態機失效,無法接著上次任務繼續,只能從頭開始。”
“ 第四,缺少驗證和回滾機制,沒有二次校驗或回滾策略。”
“ 第五,SLA( 服務商與客戶之間對質量標準、性能指標等的約定 )和成本存在約束。企業使用時必須考慮成本,服務需要有保障,確保 TCO( 總擁有成本 )大于業務收益。”
“ 第六,缺乏合規與審計能力。生產過程要可追溯、可解釋,并具備權限與操作流程控制。但在各個平臺的演示中幾乎看不到這一點,而這恰恰是企業重要的需求。”
在場景層面,郭煒認為,這個原因可以非常簡單,“ 沒有真正深入到用戶場景中去做。”
“ 大部分 Agent 仍是由處在特別早期階段的創業者在推動。但真正有價值的 Agent,需要在某個業務領域有深厚積累的人或公司來做。”
張森森持相似觀點,“ 實際上,國內外當前都太把技術當回事了,太關注技術使得大家在做大模型和Agent都是圍繞技術來構建的。通俗來說就是,技術有什么東西,我做什么東西。”
王文廣補充道,“ 當前,AI 公司往往不了解業務,業務公司則沒有準確理解AI智能體技術。對 AI 方或業務方來說,都應該了解技術邊界,知道智能體能做什么不能做什么,同時結合業務,才會做好這事。”
但 Agent 不只是獨立地去攻克一個個場景就可以了,其帶來的變革是生態級別的。
郭煒表示,“ Agent 本身是一個大的生態,就像軟件或 SaaS 生態一樣。未來它會形成一個完整的生態體系,只有這個生態真正建立起來,才能形成所謂的 Agentic Stack,在 Agent 時代承接并轉化原有生態。”
“ 這個生態規模很大。以 ToC 的手機端為例,目前手機端還沒有出現通用型APP,需要在垂直領域中出現對應的 Agent,例如類似國內的攜程、小紅書等級別并且更方便的Agent,才能支撐起生態的第一層。”
“ 生態的第二層才是通用型 Agent,通用 Agent 的核心在于入口,例如 Apple Intelligence 就是一個入口。”
“ 而入口之爭本質是流量之爭,而不是技術或產品本身。誰能夠搶占新一代 Agent 的流量,誰就能在通用 Agent 領域占據優勢。”
從這個角度看,似乎 Manus 的流量打法也有一定的合理性?但王顯并不這么認為,他指出應用層的創業公司沒有機會去搶占這個流量入口。
也就是說,創業公司無法繞過生態的第一層,直接跳到第二層,成為流量入口。“ 創業公司現有的 Agent 產品要結合到生態鏈中去,比如蘋果或者微信的生態,再把AI能力融合進去,相當于通過 AI 對已有生態鏈做增強。要實現這一點,要么擁有場景,要么擁有數據。”
如果想直接跳躍到第二層生態,就會面臨 Manus 當前的困境,“ 從用戶視角來看,Manus 這類產品已經出現用戶數量下滑、使用意愿不足的情況。無論是創業公司還是老牌公司,首先要解決的就是生存問題。產品必須有正向 ROI,要能價值兌現,且使用成本不能太高。但 Manus 的產品正好存在價值兌現不足的問題,而且時間、學習和金錢成本都過高。”
王顯還認為,流量入口也不是 OpenAI 這類公司的發展方向。“ OpenAI 是創業公司,但也是大模型廠商,肯定不會去做流量入口。相比 Anthropic、Google,OpenAI 更面向大眾,比如 ChatGPT、Sora 這樣的產品,特征是注重體驗、規模化和生態擴展。他們的目標是底層基礎設施供應,同時在 C 端和長尾 B 端場景做推廣。”
郭煒表示,“ 像蘋果這樣的公司,天然具備優勢去打造移動端的完全通用型 Agent。理想狀態下,用戶只需說一句 ‘ 幫我訂一張去上海的機票 ’,通用助手Agent 就能自動調用多個 APP 或 Agent 服務協同完成整個流程。”
“ 在 ToB 領域也是類似的邏輯,每個垂直方向的 SaaS 都會出現對應的 Agent,需要是真正意義上屬于 Agent 時代的軟件,之后才會出現入口級通用 Agent。否則,入口級通用 Agent 即使想做,也無法與底層垂直領域的 Agent 有效銜接。即便使用 MCP 的 Server 來連接,中間也會損失大量信息,導致結果不準確,無法滿足客戶需求。”
“ 現階段應優先在垂直領域啟動 Agent 落地,無論是 To B 還是 To C,都應在原有賽道中先行深耕,逐步培育生態。”

以上,我們描述了 Agent 泡沫的總體情況,可以看到,造成這一現象的根本,還是在技術受限、行業規律甚至一些痼疾的背景下,創業公司和大廠對 Agent 產品在生態中的定位有著錯誤的認識。
接下來,我們將對這些背景進行更加細致的闡述。
其中,技術受限包括 MCP 協議限制、AI 幻覺限制、多智能體擴展限制、上下文長度限制、大模型智能限制等。
行業規律、痼疾則指向資本炒作、大模型行業競爭的殘酷規律以及國內特有的老問題。

郭煒表示,“ 關于使用 MCP Server 會導致信息損失,這一點非常重要。終,Agent 應該采用 A2A( Agent to Agent )的協議,服務于垂直Agent之間的通信,才能完整完成任務。”
“ 而 MCP 是通用 Agent 與外部數據源之間的通信協議。當調用 MCP 時,不可避免地會將自然語言信息轉換成結構化的 query 或結構化的 ADB 請求來執行操作,這一轉換的準確率需要由調用方來保證。但通用 Agent 要在專業領域內準確地將專業詞匯翻譯成精確指令,再交由原有程序執行,在現實中非常困難。”
“ 以我們正在做的 Data Agent 為例,這項工作需要較長時間推進,因為必須自底向上完成建設。過去的數據底層通常是裸數據,例如 CSV 文件,里面是各種原始數據。未來需要將這些數據轉化為帶有語義的 Contextual Data Unit( CDU ),才能被上層 Agent 有效消費。因此必須了解企業所有表的字段含義及數據意義,需要非常專業的數據獲取廠商來完成。”
“ 例如,‘ 消費金額 ’ 必須明確對應哪個系統、什么業務的消費金額,Agent 才能理解。否則,如果上層 Agent 僅接到 ‘ 獲取消費金額 ’ 的指令,它必須再去解析并定位到 Salesforce 系統中的特定交易表及其規則。比如讓 MCP Server 將請求翻譯成 SQL 再下發到 Salesforce 查詢數據,但它并不知道 ‘ 消費金額 ’ 在當前語境下的具體含義,是來自 Salesforce、SAP,還是其他系統。它甚至不了解 Salesforce、SAP 分別是什么。”
“ 這不僅是當前 Agent 技術無法實現的,甚至人類在缺乏上下文的情況下也很難完成。”
“ 因此,通用 ToB Agent 并不是 ‘ 在 MCP 上套一層通用 Agent ’ 就能實現的,而必須由基于 A2A 的多個專業領域的 Agent 相互協作( Agent + Agent )實現。”
“ 相比之下,提示詞專業性、token 成本爆炸等都是更加次要的,會隨著時間自然解決。”

Agent 還有一個永遠無法解決的問題,那就是底層大模型的幻覺。已有研究證明,大模型無法從理論上完全消除幻覺。
“ 在現有大模型技術下,有許多場景嘗試進行完全 Agent 化,但效果并不理想。”
“ 以自動編碼為例,各種號稱能夠代替人類編碼的工具,無論是帶 Agent 的 Claude Code、Cursor,還是Augment Code等,都無法真正替代程序員的工作。無論是初級、中級還是高級崗位,都仍需配備人類程序員進行檢驗和監督。否則一旦幻覺出現且缺乏有效控制,風險極高。例如,近期某公司在使用自動化工具 Replit 時出現誤操作,導致數據庫被刪除。”
“ 目前也沒有特別好的方式來自動定位和追溯幻覺。在校驗中,雖然無法校驗所有環節,但可以抽檢一兩個關鍵點,并用傳統方法或知識庫進行糾錯和約束。”
“ 幻覺在前期溝通階段有一定優勢,因為它可能帶來一些創新性想法。但在企業落地執行階段,應盡量控制甚至避免使用大模型。在 Agent 執行任務時,為緩解幻覺,只有借助 workflow 才能保證足夠的確定性。”
“ 總之,大模型和 Agent 在目前更多是作為效率工具,顯著提升了開發能力。例如,我自己現在幾乎沒有時間寫代碼,對一些新發布的 Python 函數也不了解,但大模型能夠知曉并直接為我生成代碼,還能解釋邏輯。這樣我只需驗證邏輯是否正確并運行,就能快速完成任務。這種方式不僅比我親自編寫代碼更快,有時生成的算法思路甚至比我原本設想的更好。”
王文廣指出,思維鏈的幻覺其實在 Agent 產品中也非常常見,“ 這通常被稱為過程幻覺,即 AI 編造了一個它并未執行或執行失敗的操作過程。”
“ 它輸出的不是真實的操作日志,而是它生成的一個 ‘ 看起來像是成功了的 ’ 操作日志。例如,它聲稱 ‘ 我已經成功運行了測試,所有測試都通過了 ’,但實際上它可能根本沒有能力或權限去運行測試,或者實際測試運行失敗了。”
“ 從這點也可以看出,在許多情況下, 單純依靠大模型,存在非常多無法解決的問題。如果把所有問題當做一個平面,大模型能夠解決的問題是平面上的布,無法解決的問題是孔,那么可以看到,這個平面是千瘡百孔的。”

在 Agent 框架設計方面,目前領域內有一個被過分炒作的概念,那就是多智能體。
當前實際應用中,智能體之間的交互主要限于兩個智能體。編程體驗后來居上的 Claude Code 也沒有使用多智能體協作機制。
張森森表示,“ 單智能體或雙智能體已經能覆蓋 80% 的企業業務場景,此外,限于雙智能體也是出于成本考量。”
“ 具體來說,多智能體會顯著增加復雜度,容錯設計難度提升,開發、維護、算力成本更高,收益和成本不匹配。引入更多智能體未必能提升效果,同時也難以抵消延遲,并會使得系統更加不穩定。用戶體驗終取決于響應速度,穩定性方面,智能體越多越容易跑偏,可能出現循環對話、信息丟失等問題,還需要額外監督和約束,復雜度會越來越高。”
“ 多智能體的案例也有,比如一些游戲公司在做 AI 團隊游戲,在沙盒環境里嘗試多智能體交互。但對大部分企業而言,并不需要這種復雜度。”
王文廣補充道,“ 雖然在一些對協調和優化要求極高的特定領域,已經出現了更復雜的、已實際落地的多智能體系統案例,但絕大多數情況下, 應該優先解決簡單的問題。”

基礎模型能力方面,當前非常核心的一個限制還是上下文長度。雖然 OpenAI、Anthropic、谷歌等 AI 公司一直宣稱模型上下文達到數十萬、上百萬 token,但Reddit 社區反饋其中水分很大,有時幾萬 token 輸入下,模型準確率就大幅下降。
張森森表示,“ 實際體驗來看,大部分廠商宣稱的上下文長度確實水分很大,別說兩三千行代碼,甚至一千多行時就開始丟失信息了。”
“上下文長度代表了基礎模型能力的天花板,特別在 Coding Agent 場景中,基本就是硬天花板的程度。”
“ 在企業內部優化這個問題不僅很難,而且也不是靠企業自己能完全解決的。可選的方案有:代碼檢索以及更加智能的代碼檢索;動態上下文管理,只加載與本次修改相關的依賴文件。但這些都治標不治本。”
“ 對資深程序員來說影響不大,他們能很快發現邏輯缺口。”
“ 但對初學者來說,一旦項目規模大,IDE 頻繁加載就會崩潰。項目規模一大,就會涉及很多模塊和依賴,甚至是跨模態的復雜系統。模型不得不頻繁丟失上下文、重新加載信息,導致迭代過程完全斷裂,忘記之前的決策,甚至可能出現重復造輪子的情況。”
郭煒補充道,“ 當前的限制不僅來自模型本身,還與底層芯片架構有關,包括顯存、外部存儲等都需要進一步提升。”
王顯認為,在硬件基礎設施的限制下,上下文長度瓶頸對于國內而言將是更嚴峻的問題。
“ 國外芯片比如英偉達 H100、A100 這樣的高端 GPU,能夠更高效地進行分片計算,處理幾十萬、上百萬 token 上下文。同時它們也有軟件層面的優化,比如 FlashAttention 工具、針對張量計算的優化配置等,這些都是通過軟硬件結合來提升性能的。”
“ 相比之下,國內主要通過算法優化和軟件工程做一些 ‘ 曲線救國 ’ 的工作。類似的,DeepSeek、Kimi 等團隊也在發布各種上下文剪裁、分層記憶、稀疏 Attention 等方法,其實都是一些面向低成本的方案。”
“ 一些國內廠商號稱自己的高端 GPU 在浮點性能、顯存、寬帶等各方面和 H100 很相近,但其實還是有很大差距的。國外的頂配集群,比如 H100 加 NVLink Switch,能輕松地應對百萬級 token 推理。”
王文廣表示,“ 實際上就是 AI 芯片的存儲容量和帶寬限制了推理的極限,不管是國內外都是這樣的。”
“ HBM 是通用 GPGPU 好的選擇,但專用的推理芯片有很多不同的路線,比如使用 3D 堆疊的專門的 AI 芯片。
“ 國內有一些如 CiMicro.AI 這樣非常前沿的AI芯片公司,和寒武紀、華為、海光等走了不同的路線,將 3D DRAM 用于 AI 推理芯片上,如果成功流片,帶寬能夠得到極大的提升,比英偉達用的 HBM 還高一個量級,從而大模型的推理速度將得到極大的提升,長上下文和深度思考則會對 Agent 有極大的促進。”

除了上下文長度之外,更大的限制,自然來自基礎模型的智能極限了,特別是近期被詬病平庸的 GPT-5 發布后。
客觀來看,GPT-5 的更新點是在產品層面,把幻覺降得特別低,這在消費級用戶看來不太友好,但對編程來說非常有用,可靠性很高。對于專業用戶而言,有時甚至比 Claude 4 還好用一些,因為 GPT-5 在 Agentic Coding 中傾向 “ 精準定位問題 ” 和 “ 小侵入修改 ”,而 Claude 4 自主性更強,寫的代碼更復雜,需要特別提醒才會選用簡方案。
那么,從這個角度看,一直以消費級用戶為主體的 OpenAI 未來是否想更多向 B 端推進?
張森森表示,“ 如果是,那也是不得已而為之。現在 GPT-5 是通過多模型路由來提高上限,基本意味著大模型的 Scaling Law 幾乎已經失效,單模型上很難再高效提升。其實 GPT-5 的發布本身就有點 ‘ 難產 ’ 的意味,更像是一種形式,而不是自然的過程。未來基礎模型能否進一步進化,還需要觀察。”
“ 這也是為什么大家都在強化 Agent 能力。相比基礎模型,Agent 的可解釋性相對更好一些,能更好結合具體業務場景去提升實際能力。但基礎模型往往也決定了 Agent 的上限。”
“ 后面大模型的走向可能更多會朝垂直方向發展,參數量未必再無限增大,而是聚焦在更細分的場景。”
大模型廠商經常在營銷中刻意忽視模型當前的智能上限,而過分強調可以放心地依賴大模型全權執行工作,比如 Claude 甚至介紹了一種簡單粗暴的使用經驗,他們內部用 Claude Code 寫代碼的時候,有一個原則就是 “ 不行就重來 ”。
王文廣表示,“ ‘ 不行就重來 ’ 的策略,跟金錢和時間等無關,跟解決問題的復雜程度有關。簡單來說,在原型探索階段或者簡單的應用中,是一種有效的捷徑,但在嚴肅的、可維護的較為復雜的生產環境中,這是一種不可持續且極具破壞性的工作模式。”
對于基礎模型本身,王文廣則認為還會繼續進步,“ 整個 Agent 生態系統,也都在等待基礎模型的下一次重大突破。一旦新的、更強大的基礎模型出現,它將立刻抬高整個 Agent 生態系統的能力天花板,催生出新的應用。”

除了工程和模型層面的技術問題,在行業層面,還存在幾大問題,包括資本敘事泡沫、基模公司擠壓、國內 ToB SaaS 的痼疾等。
張森森表示,“ 目前 Agent 賽道處于資本和敘事先行的階段,VC 過于樂觀。但 Agent 實際可用性仍然較差,沒有看到正向 ROI 的落地,總體擁有成本( TCO )明顯大于收益。”
“ 投資熱和用戶體驗背離的原因在于,投資端和市場更追求故事性,喜歡 ‘ 通往 AGI 的必經之路 ’、‘ 下一代操作系統 ’ 這樣的愿景或字眼。”
“ 特別是早期投資人,更關注潛在市場規模和搶占入口的速度,而不是急于影響盈利,所以他們愿意把錢投在某類 Agent 上。”
“ 但資本存在一種盲目的信任。”
“ 很多投資人是從 APP 市場走過來的,相信有一天會出現一個 Agent 平臺,形成類似微信、iOS 級別的生態壟斷。因此他們不愿意錯過機會,而且存在 ‘ 你不投我就投 ’ 的競爭心理。”
“ 尤其是在當前市場環境下,資本方其實沒有其它方向可以投。Agent 類項目就成了幾乎唯一可以投資、還能擊鼓傳花的故事。”
“ 所以,有些產品即使不行也會被拿出來講故事。因此融資估值并不與實際產出效率掛鉤,而是與產品覆蓋面、DAU、MAU 等指標掛鉤。思路是先鋪量,后續再做深。在公司內部,大家討論的也是未來的提升,向老板講的也是未來的故事,所以只要能帶來可見的效率提升,大家都愿意試用。”
“ 在國內還有一個特點是,普通大眾和客戶對早期產品的 bug 和漏洞容忍度相對較高。”
“ 所以,投資端看到的是未來潛力,和當前體驗之間存在時間差,這是客觀存在的。但如果用戶端的體驗長期上不去,投資端很快會降溫。這是一個動態博弈的過程。”
基模公司擠壓則是 Agent 賽道乃至整個 AI 賽道過去、現在和未來都將一直面臨的不確定性壓力。
張森森表示,“ 大模型發展速度極快、日新月異,作為 Agent 供給側給應用層帶來的沖擊很大。很多廠商,特別是千問、豆包等,每次迭代都會能力下沉,抹平通用層的一些差異,壓縮了初創造通用應用的生存空間。”
“ GPT-5 也有類似趨勢,比如他們希望做教育改革,用 AI 幫助用戶學韓語等,而這原本是多鄰國、Speaker 等平臺的垂直市場。”
王文廣表示,“ 通用 Agent 的通用能力其實來自于大模型本身,絕大多數非基礎模型公司做出來的 ToC 產品,其實都不具備壁壘,這導致 ToC 的產品終有很大概率是被基礎模型公司收割的,OpenAI 新的 AgentKit 就是一個現實的正在發生的例子。”
業內普遍認為,類似 Manus 這類公司,實際上處在模型層和垂直應用層之間非常薄弱的工具層,但模型廠商和垂直廠商都容易對工具層形成擠壓,所以它的競爭優勢會非常脆弱。
王顯表示,“ 不僅如此,雖然我是 Cursor 的長期付費會員,但也感覺到它的脆弱點很明顯。”
“ Cursor 的優點在于交互體驗確實比較好,比如內聯對話、上下文定位等,早期的 Cursor 可以借此獲得用戶和粘性。”
“ 但 Cursor 沒有生態綁定。而大廠比如微軟有自己的生態,可以通過 Visual Studio 等工具形成綁定,再加上品牌信任度,大廠的關注度只會越來越高。或者一旦 Cloud Code、CodeX 等在大廠工具的交互層做一些優化,Cursor 的針對性就會被稀釋。”
“ 所以,如果 Cursor 想維持優勢,就不能只停留在交互和優化層面,而是必須和上下游開發流程深度綁定,走向更完整的產品閉環。例如:針對特定編程語言、框架和行業開發場景,提供深度優化和高精度上下文處理;綁定開發流程的全鏈路,從規劃、生產到測試、部署都做集成;做成快速迭代、全流程協同的工具。”
王文廣補充道,“ 大模型本身就帶來了人機交互的變革,所以當前過多探索所謂的人機交互帶來的價值不大,更重要的還是用大模型來解決實際的問題。”
資本敘事泡沫、基模公司擠壓是全行業面臨的普遍問題,但國內實際上還面臨更多的限制。
要理解這一點,就要深入探討前面提到的國內外 Agent 泡沫差異,在大模型和 Agent 時代,這個泡沫衍生出許多新的表象,但背后藏著不少老問題。
郭煒表示,“ 在國內做垂直 Agent 與在國外相比,困難并不主要來自 Agent 技術本身,而是行業環境的老問題。這與做 SaaS 或軟件是同樣的邏輯。”
“ 國內本身缺乏大型軟件公司,SaaS 發展也并不成熟,這使得軟件的整體價值感尚未充分體現。由于人力成本相對較低,軟件在提高效率方面的價值不夠凸顯,繼而 Agent 的價值也就難以被充分認可。”
付瑞吉表示,“ 國內各行業 SaaS 普及率低、軟件生態割裂,導致不同企業情況各不相同,使得 Agent 的開發也不得不做大量定制,開發成本高。”
郭煒補充道,“ 畢竟 Agent 并不是憑空出現的一種全新事物,而是原有軟件形態的延續,無論是 APP、SaaS,還是其他類型的軟件。
張森森表示,“ 國外 SaaS 的理念和邏輯與中國不太一樣,更強調結果( result )和集成( integration ),注重整體集成度。特別是在北美、歐洲等地區的企業,更傾向于使用成熟的 SaaS 產品,很少自行研發,因此他們的接口基本都是通用的。”
“ 在這種情況下,國外在做 Agent 案例時更多考慮如何使用成熟的 API 協議,比如將 MCP、A2A 協議與現有的 ERP、CRM 進行集成,這對于他們而言成本相對較低。”
“ 國內軟件生態更多是企業自研,而且企業與企業之間的協議差異很大,甚至同一企業內部的協議都可能不統一,數據打通難度極高。在這種復雜環境下,很難做出標準化、可復制的企業 Agent。即使在 A 企業驗證成功,遷移到 B 企業時也很難快速部署。所以可復制性和大規模擴展性在國內 ToB Agent 的發展中被嚴重抑制,這是目前的關鍵制約因素。”
“ 這種情況下,企業很多時候不得不重復造輪子。”
“ 目前來看,只有方法論層面的東西是可復制的,比如流程設計思路、Agent 架構方法論等。但真正落地到企業使用層面,差距依然很大。”
既然各家企業都需要大量做自研,自然大概率會走向全棧型或通用型方向,很難推出在垂直場景中做出有突出競爭優勢的產品。“ 所以,相比之下,國內更強調速度和覆蓋率,因為市場很內卷,企業更傾向于快速占領用戶心智,并盡可能覆蓋更多場景。”
“ 或許未來隨著類似 MCP 等協議的發展,情況會逐步改善,但至少在短時間內,我個人的判斷是消極的。”
擴展到 ToB、ToC 和出海市場,則呈現普遍沉重的生存壓力。B 端 SaaS 基礎不足,限制了 Agent 的發展,創業公司無法接入生態,只能轉戰 C 端,C 端雖具傳播性和資本敘事優勢,卻競爭激烈、留存差,因而終企業紛紛選擇出海,通過海外市場借力算力、合規與融資以謀求突圍。
張森森表示,“ 國內 B 端用戶情緒冷靜,原因在于 B 端和 C 端用戶訴求完全不同。企業采購強調 ROI 要明確,流程必須可控,功能要能管控。而通用 Agent 的案例往往任務定義模糊、場景識別度低、價值難以量化,所以很難支撐持續付費。”
“ 現在 B 端的通用型 Agent 多半是銷售包裝出來的。你會看到很多號稱‘企業端 UI’、‘企業教育智能體’等,但真正拿到企業流程里用時,問題就暴露出來:性能穩定性不足、合規性不過關、可追溯性差。”
“ 真正能活下來的,一定是垂直+深度集成 的方案。既要利用 Agent 的靈活性,又要在某個行業里做到合規,同時結合企業的需求與機制,這樣才能真正落地。”
王顯表示,“ 但相比國外,國內做垂直Agent是很困難的。垂直Agent要深耕某個領域做大做強,在國內很難搞,因為要穿越各種壁壘去獲取數據,但國內金融、醫療、政務等行業的數據壁壘很高,合規審核很嚴格和復雜,即便企業愿意開放數據也要經過多次審批和脫敏。”
付瑞吉表示,“ 在國內獲取高質量的垂直數據面臨諸多障礙,比如高質量醫療數據分散于醫院而無法共享。” 這一點知危較有體會,在與多位行業內醫療 AI 專家溝通時,經常提到的大痛點就是數據隔離。
王顯繼續說道,“ 所以,國內大模型的訓練速度就比國外要慢。”
“ 相比之下,國外很快就開始構建垂直 Agent。垂直領域的初創公司就可以直接使用 OpenAI 這種公共 API,但國內只能私有部署大模型,速度就進一步慢下來。”
“ 甚至可以說,國內模型廠商現在都主推的開源和輕量化大模型的策略,其實剛好是適應了國內的特有情況。”
“ 更令人擔憂的是,大模型發展后期,國內大模型的發展會面臨更加嚴峻的挑戰,因為整體數據集質量太差了。”
“ 其次,客戶差異、需求差異和定制化成本也比較高。”
“ 國內的同一垂直行業的不同企業,具有上述的 ToB SaaS 行業的所有缺陷,沒有統一的標準化接口。比如國內的 CRM 系統到底有多少個?隨便在網上搜一下,就是成千上萬,甚至到了每家公司里面還要再定制,做私有化、二次開發。”
“ 而國外的 Agent 或垂直模型只要適配統一的標準化 SaaS,即可覆蓋大多數企業的業務場景。在這樣的環境下,Agent 的復制性和擴展性要比國內高得多。”
“ 第三是大廠作風,國內的行業生態也是封鎖的,大廠都傾向于自建。頭部企業也是自己做垂直 Agent,不會跟其他公司一起做,使得創業公司很難切入核心的場景,無法接入行業生態。”
“ 相比之下,國外其實有很多開放生態與第三方市場的土壤,所以小公司與中小公司是有機會去做某個垂直細分領域來生存的。”
“ 后在商業化周期上,也存在明顯差異。垂直 Agent 的特點是落地初期需要長周期的行業積累和客戶教育,本質上是 ‘ 慢工出細活 ’。國內投資環境,整體上缺乏耐心,更追求短期回報。這對垂直 Agent 不太友好,因為它們很難在短時間內看到顯著的商業回報。”
“ 終,因為 ToB 的場景成本和投入太高,實現的可能性太低,可復制性太低,導致整個中國市場更傾向于做 ToC,而且 ToC 是容易跟資本講故事的。”
“ 但我看了一堆 ToC 產品,可以說沒有一個產品是真正能讓人持續付費訂閱的。”
而為什么國內有很多企業在做 ToC 端的出海,甚至 Manus 把公司總部也搬遷到新加坡,也就不難理解了。
王顯表示,“ 為什么那么多企業選擇在海外做,有多個原因。”
“ 第一,國內市場競爭壓力大。以 Manus 這類產品為例,國內通用型 Agent 產品很容易被競爭廠商或大廠快速復制。核心功能可能在一夜之間被模仿,導致差異化難以維持。”
“ 第二,用戶群體的流失和留存。國內用戶更容易切換到更好的同類產品,這是國內市場的一個特點,即產品的替代成本較低。通用型 C 端 Agent 往往具有 ‘ 一次性體驗 ’ 的特征,缺乏復用價值。早期如果用戶主要來自國內,一旦競爭加劇、出現價格戰,產品在國內的戰略市場會很快消失。”
“ 第三,Manus 等公司會考慮數據隱私監管、算力供應等方面的問題。海外算力供應條件更好,國內算力會有 ‘ 卡脖子 ’ 問題。而且,要對標國際市場的話,新加坡無論是金融還是國際業務、跨境支付、多語言市場,都是一個比較好的紐帶,往下走可以下沉到東南亞市場,往上走可以進入歐美市場,新加坡的國際型人才資源也是比較好的。”
“ 第四,方便做融資,遷到新加坡可以降低很多海外用戶的數據安全需求。GDPR 、CCPA 等法規在新加坡對 Manus 的影響程度,肯定比在國內要好一點。雖然新加坡在東南亞市場也有相應的數據安全法規 PDPA,但也會比國內要松一點。”
“ 第五,基礎模型的差距還是存在的。搬遷到新加坡后,可以跟 Amazon、OpenAI、Anthropic 等公司合作,更方便地使用他們的 API 服務。這些服務在國內目前還是遠超于 DeepSeek、千問等模型 API,能形成產品能力的補強。”
雖然此舉可謂 “ 機智 ”,但王文廣并不認為這樣做有足夠意義,并指出了更為殘酷的未來,“ ToC 的 Agent,我認為,除了在中國和美國,其他地區毫無意義。”
“ 并且,在美國市場,通用 Agent 的生態位已經被基礎模型廠商自己提前占據了。在中國,也很快會收斂到這個狀態。因為,ToC 的通用 Agent 的競爭力和護城河是大模型本身。”
“ 在我看來,實際上國內外做 Agent 都很難。國內做 Agent 更難的本質在于,硅谷現在錢多,而國內則是錢荒。”

在技術、行業限制下,往后 Agent 賽道雖然泡沫依舊,甚至還會繼續膨脹。
但長期來看,也將樹立起更加嚴苛的規則,只有順著規則走,才能繼續生存下來。
這些規則包括:在自身的行業認知內構建 Agent,采用垂直大模型,權衡 workflow 和 Agent,聚焦核心場景,終為商業化成功鋪路。

郭煒表示,“ 在行業中做 Agent,難點不在于 Agent 的實現方式,因為從技術角度看,如何做 Agent 大家基本都能掌握。”
“ 無論是 To C 還是 To B,真正的 Agent 應該是在行業中具備深厚 knowhow 的也就是在該行業有豐富積累的創業者或公司來做,而不是簡單加一層薄殼。”
“ 比如在 To B 端的通用 Agent 場景中,例如企業內部辦公系統,已有在特定賽道深耕多年的企業具備天然優勢。以飛書為例,它原本就有 Wiki,并且已經按照體系整理并長期積累了內容。這樣在底層上下文已經準備好的情況下,上層無論是通過工作流還是 Agent 來進行調用和處理,都能夠更高效地完成任務。”
“這和 APP 的發展類似,之前能存活下來的 APP ,都是在新興領域和新的交互方式下,出現一些創新,顛覆了原有的 APP 和生態模式,但它的量級至少要與某個成熟 APP 相當,解決問題的場景復雜度和提供的便利程度也要相當。只有達到這種程度,才能稱為真正的 Agent,目前還沒有看到這樣的 Agent 出現。”
“ 如果是純粹的大模型廠商,為企業提供知識庫服務,就會面臨反向的挑戰,需要投入大量精力將知識庫按體系分類、打好標簽。而像飛書這樣的企業,早已完成了這些基礎工作,無需重復建設。”
“ 我們做 Data Agent 也是類似的情況。我們的數據系統本身支持 300 多種數據庫,原有的語言數據早已整理完畢,現在的任務是將其語義化,并讓大模型能夠理解。反觀某些廠商在做 Data Agent 時,并沒有如此豐富的數據接口和數據源,只是在上層做一層薄薄的封裝,客戶自然不會滿意,因為數據訪問受限,能力差距明顯。”
“因此,未來能夠在 Agent 領域做出成果的,很可能不是大模型廠商,而是原有的 SaaS 和工具型廠商。”

行業 knowhow 不僅會直接影響企業決策者的方向,也能通過沉淀到模型中,影響產品每一個細枝末節的走向。
從前述 MCP 與 A2A 的實際差異,就能看出垂直場景的模型能力對于 Agent 的重要性,ToB 企業的 Agent 也確實會更加傾向于使用垂類大模型。
薛趙明表示,“ 因為ToB 會帶有很強的行業屬性,當使用的不是通用 LLM 而是行業 LLM 的時候,其實反而是在降低 AI 的能力要求。在明確場景和規則下,在信息面和結果準確度上會有較大提升。 ”
張森森表示,“ 傾向使用垂類大模型的原因主要有幾個點,第一是成本優勢。通用大模型參數量大,而垂直大模型參數量更小,推理成本更低。”
“ 第二是幻覺方面。垂類模型更精準,更貼合企業自身的生態環境。相比之下,通用大模型依賴強泛化能力,往往需要更多人工校對,增加復核成本。”
“ 第三是部署和合規的便利性。垂直大模型更容易私有化部署,更符合數據合規和隱私要求。而通用大模型通常依賴云端調用,企業會有很多顧慮,不敢使用。同時,從可控性和靈活度來看,垂類模型可以針對行業定制,比如設置 prompt、模板規則、引擎工具調用策略,從而實現更穩定的響應模式。”
“ 第四,通用大模型可以通過上下文工程做一些優化,但輸出依然存在不確定性和不可控性,所以在 ToB 產品中運行時會有一定風險。因此,在客服知識問答、流程自動化等場景里,垂直大模型往往更適合。做 ToB Agent時常用的策略是,讓垂直大模型覆蓋大約 80%–85% 的高穩定性需求,確保穩定可靠;而在剩下 15%–20% 的復雜問題上,再用通用大模型來兜底。”
從更加長期的角度來看,垂直領域肯定具備更大的商業價值,無論是直觀上的經驗,還是從數據規模和價值評估。
郭煒表示,“ 在數據量方面,互聯網數據的規模遠超企業級數據,差距達到幾個數量級。但從商業價值的角度看,企業級數據的含金量更高,其信息熵或信息密度和價值遠勝于互聯網數據,因為這些數據直接關乎企業自身的經營命脈。”
張森森補充道,“ 關于垂類數據和互聯網數據規模的比較,不同人的說法不一樣。通用語料數據可能是萬億級token規模。單一的垂類數據一般在億級或百億級,不可能達到萬億級。但如果把所有行業的內部數據加在一起,比如金融、醫療、制造等領域,總量肯定會超過通用網絡或通用語料數據。”
“ 但是,工業互聯網的數據大多是垃圾數據,可用于訓練的數據很少,盡管它的總量可能比通用互聯網數據還多。”

當然,僅僅依靠垂直大模型是不夠的。Agent 的落地面臨一個非常考驗工程能力的問題,就是 workflow 和 Agent 的權衡取舍。
王楠表示,“ Agent 和 workflow 有顯著的差異,Agent 的核心在于利用 LLM 做決策,動態地構建 workflow。相比之下,workflow 是預先定義的、靜態的。這個區別決定了兩者適用的場景不同。”
“ workflow 由于缺乏靈活性和通用性,其實能夠解決的實際問題有限。相比之下,Agent 更加靈活、更加通用,能夠更好地解決實際生產環境中的復雜問題。”
張森森表示,“ 廣泛意義上,所有存在需求組合爆炸的情況,比如行程規劃、醫生排班、家政服務等,都是把 workflow 改造成 Agent 的契機。如果做的好,可以完全替代人力。”
“ 如果業務變量數量少、組合有限,可以窮舉,就可以把流程固定下來,用 workflow。如果環境靜態或變化可預期,也可以把流程固定下來,用 workflow。但如果變化維度非常多,比如幾百個維度同時在變化,再用 workflow 設計、測試和維護,成本會急劇上升,這時就需要人工決策,或 Agent 的自主規劃能力。另外,當環境頻繁變化,比如航班延誤、庫存波動,Agent 可以根據上下文實時調整決策,避免預設流程失效。這時就需要自主 Agent。”
“ 因此,是否用 workflow 或 Agent,要從成本、計算調用和維護成本來考量,特別是在運行環境復雜多變的情況下。”
但在大模型幻覺問題無法完全解決,以及 Agent 當前智能有限的限制下,想要一蹴而就實現理想決策是不可能的,何況 workflow 具有更高的確定性,這對于企業而言非常重要。
郭煒表示,“ 這也是行業 knowhow 要發揮作用的地方,決策者需要在復雜系統中權衡哪些部分使用固定的工作流,哪些部分進行適當 Agentic 化。”
張森森表示,“ Agent 的落地依賴于固有流程,適合的是小規模的局部 workflow 改造。流程高度標準化、數據流轉路徑清晰、任務有明確輸入輸出,這些都是 Agent 落地的佳條件。Agent 的作用不是推翻重來,而是嵌入線性流程,做局部改造。這可以理解為 ‘ 低摩擦的軌道 ’,標準化流程本身就是低摩擦的軌道。”
王文廣表示,“ 選擇高價值、數據豐富、流程清晰、且允許一定容錯( 或易于監督 )的業務環節,有助于 Agent 成功落地。”
張森森舉例解釋道,“ 比如,金融行業數字化水平較高,流程標準化程度很高,因此是 Agent 落地的非常好場景。”
“ 金融行業過去在風控、投研、合規等環節已經有智能化的應用,而 Agent 在這些環節里主要作為輔助模塊嵌入,而不是取代整個業務系統。例如:銀行在貸款審批環節使用 Agent 做資料自動提取,在合規環節做條款比對,在合同、財報數據處理中提取資料并輸出審批結論、風險標簽。這些環節的輸入輸出是固定的,比較容易嵌入 Agent。”
“ 如果考慮風險因素,在一些風險高但流程完全可控的場景,比如金融交易、醫療診斷,即便變量很多,也可以在 workflow 基礎上引入半自動化或部分 Agent。這類場景對風險的容忍度低,更適合 workflow+Agent 的模式。但在一些風險容忍度較高的場景,比如旅行規劃,就可以直接用 Agent,而不需要依賴 workflow。”
進一步看,Agent也分兩種,工作流式的和自主式的,“ 工作流式的 Agent 是把執行規劃固定下來,流程相對可控。非工作流式的 Agent則可以做自主規劃和執行,能自動調用工具( tool use )與編排,能動態更新上下文,處理長尾和個性化需求。”
王楠補充道,“ 例如,只有檢索-生成的 RAG 系統,就是典型的工作流式 Agent,而具有反思和可以使用搜索工具的 Deep Research 或 Agentic search 就是自主式Agent。”
從投資人視角,當前并不看好自主式的 Agent,短期也是更看好工作流式的垂直領域 Agent,張森森表示,“ 因為這類 Agent 在風險回報和落地速度上更有優勢,所以這種傾向是合理的。”
付瑞吉表示,“ 在當前的發展階段,workflow 型 Agent 更切合實際。基于強化學習的自主式 Agent 還需要更長時間的探索,也許要等前者的廣泛應用,為后者的訓練提供大量數據后,才能真正普及。”
而在實際工程權衡下,企業可能還會更加實在,郭煒表示,“ 幻覺控制非常重要,尤其是在 ToB 場景中。用戶真正關心的是結果,并不在乎是通過哪種技術路徑實現的,無論是 RAG、Agent + RAG,還是僅用 Agent。 因此未來的模式更可能是 ‘ Agent + RAG + 傳統 workflow( 或 RPA )’ 的組合。”
“ 這種模式能夠在保證確定性的前提下,結合利用大模型和 Agent 處理與人的交互,以及理解用戶意圖。”
“ Agent 的主要作用是進行分工決策,確定由哪個 Agent 執行任務,以及向其提供哪些信息。但在實際執行階段,往往是由 workflow 來完成的,甚至不一定涉及 RAG。既然幻覺無法解決,那就盡量不用。 ”
張森森也認為,這是一個非常務實的方案,“ 目前企業里大多也是這樣在用。”
郭煒繼續解釋道,“ 之所以如此分工,是因為意識到,大模型和Agent在場景中解決的重要問題應該是交付。”
“ 多數情況下,人們很難準確表達自己的需求,需要通過與大模型多輪溝通,逐步明確 ‘ 到底想要什么 ’,傳統軟件和 SaaS 無法完成這種深度、多輪、滲透式的需求挖掘。這一能力在 To C 和 To B 場景中都同樣重要。從個人感受來看,相對于傳統搜索,效率提升至少是幾倍的。”
“ 目前,大多數 Agent 更適合應對一些原本套路化、工程化、重復性較強的任務,并在交互上發揮更大價值,例如與客戶對話、深入了解需求,并在此基礎上設計完整的解決思路,然后生成 RAG 或 workflow 來執行。”
據此,郭煒認為,未來 Agent 的發展將分為兩個階段。
第一階段,解決原本由垂直領域工具服務的業務場景,只有在這些場景中做到更高的便利性、更明顯的痛點解決,Agent 才能真正興起。 “ 畢竟 Agent 繼承自原有 SaaS 軟件形態,只不過在交互方式和技術能力上有了新的突破。”
第二階段,在足夠深入落地場景后,需要找到創新的切入點。“ 就像當年同樣是做新聞,今日頭條找到了全新的切入方式一樣。”
“ 目前國內外并沒有滿足以上兩點的 Agent 應用。”
薛趙明表示,“ 當前行業中的 Agent 產品,在人機交互方面依然很差。OpenAI 也提出了 2025 年是上下文工程的元年,交互能力本質上是上下文理解能力。當然這里面也存在路線之爭,比如是更多依賴用戶的上下文,還是讓模型自己來解決。”

“ 第一,跨系統任務編排與自動化。例如把 ERP、CRM、知識庫、工單等業務系統通過自然語言連接起來。目前很多 Agent 只能做到對話式查詢,沒有形成完整的自動化執行鏈條。所以缺乏可視化編排和審批機制,企業不敢放心交付關鍵任務。”
“ 第二,高可信度的知識問答與決策。目前企業內部大多數 Agent 平臺做的還是 ‘ 文檔搜索 + 大模型總結 ’。問題是沒有引用和溯源機制,沒有版本控制,沒有訪問權限分級。結果是表面上大家轟轟烈烈做了一堆 Agent,看起來很好,但終根本無法真正投入使用。”
“ 后,也是重要的,就是 Data Agent( 以前叫 ChatBI )。核心能力包括半自動或全自動的數據分析與報告生成;理解企業內部 BI 系統的數據模型;自動編寫 SQL,或調用數據分析 API;輸出可視化報表或業務報告等。”
“ 但現狀是很多產品只做到了 ‘ 表格分析 + 自然語言生成表格 ’,生成的數據需要巨量人工校對,往往 ‘ 要了半條命 ’,成本極高,嚴重影響實用性。”
“ 在這些場景應用里,都需要訓練或定制垂直化模型。因為企業內部有自己的語言體系( 行業黑話、內部術語等 )、業務生態( 跨部門協作的專屬邏輯 )、流程規范( 審批鏈條、合規規則等 )、知識沉淀( 文檔、數據、經驗庫等 )。”
郭煒介紹道,“ 在 Data Agent 場景中,傳統的 ETL 操作非常繁瑣,需要大量人工拖拽配置。而通過 Data Agent,可以快速獲取企業底層數據,不僅限于簡單的 Chat BI 查詢,而是能夠直接訪問更底層、更原始的數據,從而顯著提升處理效率。”
“ 目前市面上大多數所謂的 Data Agent,本質上只是將傳統的 BI 或數據倉庫加了一個 ‘ Chat BI ’ 式交互外殼,并未實現數據在語義層面的深度轉化,仍停留在 ‘ 玩具 ’ 階段,而多數客戶此時只是抱著 ‘ 嘗鮮 ’ 的心態進行試用。這種模式無法充分釋放數據價值,也難以支撐真正的 Agent 生態。”
“ 要實現理想的 Data Agent 架構,主要面臨兩大挑戰。”
“ 第一,數據底層處理的復雜性。底層系統存在成千上萬種不同的數據源,要將其中的數據轉化為可被大模型理解的上下文,是一項繁重且復雜的工作。大模型本身無法直接完成這些‘臟活累活’,這需要長期的積累與專業的處理能力。”
“ 第二,數據交互與轉化。必須充分利用大模型的交互能力,讓其具備推理和語言處理的能力,并將需求轉化為對底層數據的精確調用。這要求在上層的自然語言需求與底層數據結構之間建立高效、準確的映射,這同樣是一個高難度的技術挑戰。”
“ 未來的目標是讓用戶能夠通過自然語言快速完成任務,甚至無需自然語言輸入,只需提供所需的 SQL 或數據描述,系統就能自動生成完整的 workflow。這類功能能夠真正解決用戶的痛點問題。”
“ Agent 產品只有能解決這一類核心場景的問題,企業才會對其有付費意愿,并推動大規模部署。”

”
“ 第一,跨系統任務編排與自動化。例如把 ERP、CRM、知識庫、工單等業務系統通過自然語言連接起來。目前很多 Agent 只能做到對話式查詢,沒有形成完整的自動化執行鏈條。所以缺乏可視化編排和審批機制,企業不敢放心交付關鍵任務。”
“ 第二,高可信度的知識問答與決策。目前企業內部大多數 Agent 平臺做的還是 ‘ 文檔搜索 + 大模型總結 ’。問題是沒有引用和溯源機制,沒有版本控制,沒有訪問權限分級。結果是表面上大家轟轟烈烈做了一堆 Agent,看起來很好,但終根本無法真正投入使用。”
“ 后,也是重要的,就是 Data Agent( 以前叫 ChatBI )。核心能力包括半自動或全自動的數據分析與報告生成;理解企業內部 BI 系統的數據模型;自動編寫 SQL,或調用數據分析 API;輸出可視化報表或業務報告等。”
“ 但現狀是很多產品只做到了 ‘ 表格分析 + 自然語言生成表格 ’,生成的數據需要巨量人工校對,往往 ‘ 要了半條命 ’,成本極高,嚴重影響實用性。”
“ 在這些場景應用里,都需要訓練或定制垂直化模型。因為企業內部有自己的語言體系( 行業黑話、內部術語等 )、業務生態( 跨部門協作的專屬邏輯 )、流程規范( 審批鏈條、合規規則等 )、知識沉淀( 文檔、數據、經驗庫等 )。”
郭煒介紹道,“ 在 Data Agent 場景中,傳統的 ETL 操作非常繁瑣,需要大量人工拖拽配置。而通過 Data Agent,可以快速獲取企業底層數據,不僅限于簡單的 Chat BI 查詢,而是能夠直接訪問更底層、更原始的數據,從而顯著提升處理效率。”
“ 目前市面上大多數所謂的 Data Agent,本質上只是將傳統的 BI 或數據倉庫加了一個 ‘ Chat BI ’ 式交互外殼,并未實現數據在語義層面的深度轉化,仍停留在 ‘ 玩具 ’ 階段,而多數客戶此時只是抱著 ‘ 嘗鮮 ’ 的心態進行試用。這種模式無法充分釋放數據價值,也難以支撐真正的 Agent 生態。”
“ 要實現理想的 Data Agent 架構,主要面臨兩大挑戰。”
“ 第一,數據底層處理的復雜性。底層系統存在成千上萬種不同的數據源,要將其中的數據轉化為可被大模型理解的上下文,是一項繁重且復雜的工作。大模型本身無法直接完成這些‘臟活累活’,這需要長期的積累與專業的處理能力。”
“ 第二,數據交互與轉化。必須充分利用大模型的交互能力,讓其具備推理和語言處理的能力,并將需求轉化為對底層數據的精確調用。這要求在上層的自然語言需求與底層數據結構之間建立高效、準確的映射,這同樣是一個高難度的技術挑戰。”
“ 未來的目標是讓用戶能夠通過自然語言快速完成任務,甚至無需自然語言輸入,只需提供所需的 SQL 或數據描述,系統就能自動生成完整的 workflow。這類功能能夠真正解決用戶的痛點問題。”
“ Agent 產品只有能解決這一類核心場景的問題,企業才會對其有付費意愿,并推動大規模部署。”
總體來看,未來在 Agent 這個賽道,無論是ToC方向還是ToB方向,都還有很長的路要走。
王顯總結道,“ 當前整體氛圍上,大家還是想賺一波快錢。這其實是一個多贏局面,即資本方想賺快錢,企業等多方機構也希望幫自己講一個AI的故事。”
“ 對于個人,在這個氛圍影響下,就進入焦慮模式了,好像離開 AI 就不能活了,然后大家接下來就拼命地把工作跟 AI 結合起來。當然,這只是小贏,絕對不是大贏。等這輪泡沫消退、企業熱度過去之后,大家會更加冷靜地看待。我估計還需要一到兩年時間。”
對于 ToC 賽道整體,張森森認為,“ 目前消費級通用 Agent 基本只能靠融資續命,商業化路徑還沒有跑通。”
那么,創業公司還能如何抓住機會呢?
關于創業方向選擇,目前有一個理論是 “ 補足大模型的后一公里 ”,比如等醫療、法律等流程做到 95 分的時候,讓大模型接手替代人。
這或許是當前的創業取巧之選或大型企業的無奈之舉,王文廣認為,“ 這個選擇對于創業公司并不性感,就像外賣和快遞員,但總會有人做的。”
王楠表示,“ 現在的確是創業的一個黃金期,但方向選擇未必一定是不足后一公里,也許是不足后 10 公里,也許是大模型生態中的一環。大模型接受替代人并非要人做到 95 分,再由 AI 接替。也可以是人已經處理的很好的任務,完全交給AI處理,比如對比價格、情感陪伴或者做AI教師。這里的價值在于 AI 讓人的能力能夠 scale。也可是人無法處理好的任務,比如寫研報、寫代碼。”
“ 我會建議創業者去思考什么場景下 AI 能夠做到十倍以上的效率提升。”
王楠還認為,創業公司仍然需要依靠速度構建護城河,同時也要認真做產品。比如 Genspark 在其產品中引入的改進策略包括:引入專業數據源、并行搜索、多代理交叉驗證、專家審核內容、使用離線Agent確保準確性,并通過先發優勢掌握了大量數據。“ Genspark的策略基本上是市面上認真做做 Agentic Search 和 Deep Research 產品的公司普遍的做法。對于 Genspark 和 Perplexity 這樣的公司,主要市場還是在通用搜索,所以掌控數據和搜索能力是自然的選擇。和傳統的搜索巨頭相比,在產品迭代速度和執行力方面的也是創業公司的優勢。再加上大模型能力和時代浪潮的加持,我們會看到更多的小公司快速崛起,分走大公司的蛋糕。”
AI創業者李峰則認為,“ 技術層面,ToC 的 Agent 的護城河是大模型本身。要與 ChatGPT 競爭,首先要有一個跟 ChatGPT 匹敵或超越的大模型,顯然,Manus 沒有。要避開競爭,就只能在場景層做小做精,選擇一個或幾個核心場景,做到極致的可靠和高效,這才會有長期的機會。”
“ 工程層面,Genspark 確實真正在做落地的事情,并基于它所接觸的需求,構建了一套高度復雜、精心編排的隱性工作流系統。它們正在利用先發優勢來快速構建并完善這個復雜系統,從而形成事實上的護城河。設計、實現并調優這樣一個包含眾多模型、工具和數據源的復雜工作流系統,需要巨大的工程投入和時間。”
“ 即使基礎模型公司要做好,也需要同樣的工作。如果這個隱性工作流系統足夠復雜,那就能夠形成一定的競爭優勢。”
張森森則認為,應用層的 Agent 創業公司,更容易從長尾產品入手。“ 寫作、辦公、搜索等主流場景,幾乎被大廠牢牢占據,小公司很難在算力、數據、生態上正面競爭。而長尾場景雖然用戶規模小,但需求獨特、痛點尖銳。用戶在高痛點的情況下,對解決方案的不完美有更高容忍度。哪怕只是部分緩解,也能讓用戶感到價值明顯。”
“ 只要能解決關鍵問題,就能迅速形成用戶粘性。 而且長尾方案能夠形成更強壁壘。因為這些場景需要結合高度專業化的數據,甚至涉及內部流程和工具,沉淀出的知識和技術很難被通用模型復制。經過長期迭代,還能向相似場景擴散,逐步形成護城河。”
“ 比如 Figma,它早并不是做 UI 設計的,而是解決了一個非常強的痛點:在線協作,再擴展到高頻的設計需求,終發展成行業龍頭。Zoom 也是類似的路徑,它初的產品需求是解決高質量視頻傳輸的問題,先在這個點上做深度優化,然后才逐步擴展,終進入并占領了通用的會議市場。”
“ 當然,如果只是單純做一個 Agent,是一定沒有機會的。只是在技術或通用功能上去卷,就很容易被別人替代或干掉。”
后,回到 Agent 泡沫本身,基于科技行業發展普遍規律,還是需要更加辯證地看待其存在意義。
郭煒認為,Agent 泡沫確實客觀存在,但實際上還不夠多,“ 畢竟對于 SaaS 軟件和日常使用的 APP,還有大量的功能尚未實現。要真正把 Agent 做起來,還需要更多的泡沫推動,才能發展成熟。這也是早就存在的規律,每個新興的創新領域在初期都會有大量資本驅動,后才會有少數創業公司和想法存活下來。”
薛趙明表示,“ Agent 泡沫的存在是一定的。從遠古的 NLP 階段或人工智障時代,到 ChatGPT 時代,再到如今 AI 具備推理和工具使用能力的當下,雖然 AI 的更新很快,但是從事物的歷史發展周期來說,當下還處在較為早期的階段,這個階段的特性就是泡沫橫生,大家都在嘗試做一些突破。特別是現在更多的投資還是比較前期的天使輪或者 A 輪,因此必然是一個 ‘ 百團大戰 ’ 階段。”
王文廣表示,“ 這是所有顛覆性的新技術出現的必然過程,國內外沒有什么不同。具體來說,新技術的應用一定會經歷泡沫化,然后是幻滅與出清,緊隨其后的長期、務實的滲透與融合。現在還是泡沫化的階段,幻滅才有點苗頭,出清還早。”
“ 關于 Agent 是否真正解決問題大家還無暇顧及,但必須先做起來,搶投資搶市場。”
“ 畢竟需要在這個市場活的足夠久,才能找到 ‘ 在某個特定行業中,存在一個什么樣的高價值、長期未被解決的難題?’、‘ AI Agent 的技術能否為這個問題提供一個全新的、比現有方案好 2 倍或者 10 倍的解法?’ 等問題的答案。”
“ 這與 ‘ 先做起來 ’ 并不完全是矛盾的。”
“ 但從長遠看,唯有這種從真實、深刻的行業痛點出發的思考,才能找到真正有價值且具有護城河的落地場景。”
“ 現有的所謂的智能體的洗牌,應該會在接下來的三五年內出現。”
“ 整個行業終究將向著無處不在的 Agent 時代邁進。所以,不管怎么活著( 靠融資活著也是一種很好的活法 ),能夠或者走向未來就是重要的。未來有什么潛在的突破口,現在的你我都不知道,但只有活著走到那個時候,才有機會。”
面向更長遠的未來,郭煒展望道,“ 未來,Agent 會非常普遍,幾乎所有軟件和 APP 都會嵌入模型,成為某種形式的 Agent。這并不局限于替代特定場景,而是整體向 Agent 化演進。”
“ 從各專業領域的 Agent 都已出現并且運行良好,再基于此形成入口級 Agent,這一過程可能需要 5 到 10 年。 在此之前,專業領域的專業型 Agent 將率先落地并發揮作用。”
王文廣則提醒道,“ 在 AGI/ASI 真正到來之前,請注意,AGI 或 ASI 到來之前是個前提,基于大模型的智能體的的勝利,極大概率并不屬于那些試圖用一個通用 Agent 解決所有問題的 ‘ 平臺 ’ 公司,而屬于那些能將 Agent 作為一種能力與業務深度融合開發出該領域具備智能決策和自然語言交互的專業軟件的公司。”
泡沫并非一定是壞事,真正的長期主義者反而能借助泡沫來生長。但唯有回答 “ 為誰而作、在何處用、以何種方式穩態運行 ”,才足以穿越喧囂,走進可復用的現實。
本文鏈接:http://m.www897cc.com/showinfo-17-184536-0.html幾乎都在掛羊頭賣狗肉!AI Agent泡沫實在太大了
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com