ChatGPT Agent強到犯規 性能大升級 可抓取即時數據自動寫報告

Date: Category:科技 Views:1 Comment:0


OpenAI推出ChatGPT Agent,整合Operator與Deep Research,能自動執行多步驟任務。它會是一個殺手級應用嗎?

重點一 :OpenAI正式推出ChatGPT Agent,整合Operator與Deep Research,首度賦予AI自主執行複雜任務能力,並強調用戶擁有最高控制權。             重點二 :ChatGPT Agent可自動瀏覽行事曆、生成簡報、分析資料並執行程式碼,支援多種連接器及API,顯著提升工作與生活自動化效率。               重點三 :為防範濫用與資安風險,OpenAI設計多重安全機制,包括明確用戶授權、主動監督及高風險任務限制,Operator將於30天後退役。

OpenAI於7月17日正式發表全新AI工具「ChatGPT Agent」,標誌著AI技術從單純回應型聊天機器人,進化為可主動執行多步驟複雜任務的代理型產品。

ChatGPT Agent結合Operator(網站操作代理)與Deep Research(深入研究工具)兩大核心能力,能在虛擬電腦環境下協助用戶完成包括行事曆檢視、資料分析、簡報製作、程式碼運行等多元任務。

OpenAI強調,所有具影響力的操作皆需獲得用戶明確授權,用戶可於任務進行中隨時中斷、接管或終止流程,確保資訊安全與自主權,並可設定任務定期自動執行,可大幅提升日常與專業領域的工作效率。

ChatGPT Agent是一個統一的代理系統,結合了操作者的行動遠程操控瀏覽器、深度研究的網絡合成和ChatGPT的會話優勢。(OpenAI@X)

自動化能力顯著提升

ChatGPT Agent支援多種外部連接器(Connector),如Gmail、GitHub等,並能透過API與第三方應用程式整合,執行如旅程規劃、資料分析、簡報生成、程式碼執行等任務。 用戶只需以自然語言下達指令,AI便可自動瀏覽網站、整理會議時程、分析競爭對手並產出可編輯簡報或試算表。

根據OpenAI測試,ChatGPT Agent在Humanity’s Last Exam、FrontierMath、SpreadsheetBench等多項基準評比中均創下領先業界的新高紀錄,展現其在專業知識、數據分析及自動化處理能力上的突破。

Humanity's Last Exam(人類終極考試) :單次通過率41.6%,採用並行策略時提升至44.4%。                            FrontierMath(前沿數學) :啟用工具後準確率為27.4%。     SpreadsheetBench(試算表編輯能力) :直接編輯.xlsx檔案時得分為45.5%,遠高於Copilot in Excel的20.0%,人類基準為71.3%。

根據OpenAI測試,ChatGPT Agenty的基準評比十分突出。 (OpenAI)

OpenAI官方指出,Pro、Plus及Team用戶現已可於ChatGPT工具選單中啟用「agent mode」,未來將陸續開放給企業及教育方案用戶。 但據《數位時代》測試,目前在台使用Plus方案的帳戶,工具列仍未出現agent mode選項。

Operator將30天後退役

考量AI代理型工具的潛在風險,OpenAI為ChatGPT Agent設計多重安全防護,包括:所有敏感或具影響力的操作(如表單提交、預訂、購物、存取個資網站)皆需用戶明確授權;對於涉及金融交易或法律事務等高風險任務,AI將主動拒絕執行;部分重要操作則須用戶逐步監督與核准。

此外,系統具備防禦對抗性攻擊(如提示注入)與濫用機制,並強化隱私資料保護。 OpenAI宣佈,隨著ChatGPT Agent正式上線,Operator功能將於30天後退役,Deep Research則保留於選單中供獨立使用。

ChatGPT Agent這麼神?第一手評測怎麼說?

根據外媒《Every》的執行長Dan Shipper實際測試,ChatGPT Agent可以實現以下任務:

1. 執行多步驟流程

請AI閲讀公司旗下產品兩個月內的客戶回饋信函,ChatGPT Agent可以根據信內容歸納出「鐵粉」跟「黑粉」用戶,並在LinkedIn上找到這些用戶的公開帳號,進一步蒐集他們版上對於產品讚美或抱怨的內容。Dan Shipper指出,在約15分鐘內,Agent瀏覽了1,300封郵件和大量貼文,並創建一份2,000字報告,歸納了該產品最常見的投訴及好評。

2. 商業數據簡報

只要提供原始數據,例如分析損益(P&L)試算表和績效指標,就能並生成附帶洞察的PowerPoint簡報。這種工作在過去必須歷經:把資料上傳給AI、下指令、產出簡化的指標CSV檔、把處理過的CSV檔請第3方工具做成PPT…,現在Agent可以簡化這些步驟。

3. 使用者體驗(UX)稽核

瀏覽多個網站,記錄使用者流程,並彙編詳細的可用性報告。亦即,ChatGPT Agent足夠聰明到可以就自己剛剛瀏覽網站的體驗寫出心得報告。

4. 根據即時數據製作簡報

掃描新聞網站、研究論文和論壇,針對特定主題產出摘要。這類型的工作,先前通常要交給Deep Research負責,且針對部分如時間區間的提示(例如,幫我找24小時以內的科技要聞並摘要重點),成效可能未必理想。現在則可直接由Agent調動各種AI工具來處理,可能提高生成品質。

5. 處理身分驗證與動態內容

登入受密碼保護的網站,瀏覽大量使用JavaScript的頁面,並從付費牆後擷取資料。亦即,現在Agent可以幫忙人類執行繁複的「登入」動作,例如填寫帳號密碼、認證碼等等,並找出原本被擋在付費牆後的內容。

結論:強大且易用,但仍非「殺手級應用」

Dan Shipper指出,ChatGPT Agent確實可以執行多步驟的自動化任務,且操作門檻低,非開發者也能輕鬆上手,利用它處理大量資料、產出深入報告。

但他也說,對於大多數日常AI使用情境,o3 或 Claude Code 已足夠(指作者平常慣用的AI工具),且更方便、彈性更高。也就是說,ChatGPT Agent的確可以簡化與AI協作的流程,但目前相較於人類手動執行各階段工作的效益來說,ChatGPT Agent的自訂性仍不足,以至於限制了其靈活性與強大程度。

總結來說,ChatGPT Agent 適合偶爾需要自動化、彙整、分析等複雜任務,但可能不是一般人日常需要天天使用的功能。「不過,這類工具即使只在特定時刻發揮作用,也能帶來意想不到的價值。」

延伸閲讀:Grok 4來襲 性能壓倒Google、OpenAI?唯高月租及火爆言論成焦點(點擊連結看全文)

+2

延伸閲讀:

「沒人在用email!」前OpenAI工程師揭內部文化:實力至上、鼓勵實作⋯優秀PM很稀缺

OpenAI宣戰Google!將推「AI瀏覽器」挑戰Chrome市佔霸權:為何Browser是AI終極戰場?

「程式碼只是失真投影!」OpenAI工程師預言:「寫規格」才是未來黃金技能,不是寫程式

【本文獲「數位時代」授權轉載。】

Comments

I want to comment

◎Welcome to participate in the discussion, please express your views and exchange your opinions here.