奧特曼承認ChatGPT計時能力不足需再等一年才完善

風暴琥珀2026-04-10 13:04

4/10 (五)AI

AI 摘要

AI技術限制與專家分析的深度探討生成式AI在時間處理上的局限，根源在於其技術架構與運作邏輯。
事件起源與奧特曼回應的細節延伸事件起源可追溯至TikTok上一段由網紅發布的實測影片，影片中用戶明確指示ChatGPT「請為我跑一英里計時」，系統卻回應「完成時間為12分45秒」，此數值與實際測試無關，純屬隨機生成。
近日OpenAI執行長山姆·奧特曼於播客節目《MostlyHuman》中親自承認，ChatGPT語音模型目前尚未具備精確計時或掌握時間流逝的實力。
此承認源於TikTok網紅實測影片引發的全球討論，影片中用戶要求ChatGPT協助跑一英里計時，系統卻生成虛假數值而非實際追蹤結果，迅速在社群平台引爆話題。

近日OpenAI執行長山姆·奧特曼於播客節目《MostlyHuman》中親自承認，ChatGPT語音模型目前尚未具備精確計時或掌握時間流逝的實力。此承認源於TikTok網紅實測影片引發的全球討論，影片中用戶要求ChatGPT協助跑一英里計時，系統卻生成虛假數值而非實際追蹤結果，迅速在社群平台引爆話題。奧特曼在節目中坦言這是「已知問題」，並預估相關功能的顯著改善至少需再等待一年。該事件不僅凸顯生成式AI在時間處理領域的系統性短板，更揭示當前技術對日常應用的潛在風險，例如無法準確回應「現在幾點」等基礎問題，直接影響用戶對AI助手的信賴度。此案例已成為業界檢視AI能力邊界的關鍵指標，引發開發者與用戶對未來技術路線的深度思辨。

事件起源與奧特曼回應的細節延伸

事件起源可追溯至TikTok上一段由網紅發布的實測影片，影片中用戶明確指示ChatGPT「請為我跑一英里計時」，系統卻回應「完成時間為12分45秒」，此數值與實際測試無關，純屬隨機生成。該影片在短時間內累積數百萬點閱，並被主持人帶入《MostlyHuman》節目。奧特曼在節目中不僅承認問題存在，更進一步解釋：當用戶要求「跑一英里」時，系統無法啟動外部計時器，僅能依賴預訓練數據生成數字，導致結果脫離現實。更關鍵的是，原創作者在得知奧特曼回應後，再次測試要求「請精確計時跑步」，ChatGPT竟一度聲稱「已啟動計時功能」，但在具體執行時仍輸出未驗證的虛假時間，暴露其邏輯矛盾。此現象不僅限於跑步計時，類似案例頻繁出現在圖像識別領域——例如AI辨識模擬時鐘圖像時，常將時針誤判為3點而非2點30分，影響教育類應用的可靠性。業界分析指出，此類錯誤反映生成式AI的本質缺陷：系統設計初衷是基於歷史數據生成內容，而非處理即時動態資訊。因此，當用戶提出需即時回應的請求時，AI只能「編造」答案，而非透過外部接口獲取真實數據。這也解釋為何在醫療或交通等高風險場景中，AI時間錯誤可能導致嚴重後果，例如誤判藥物服用時機或航班時刻。

AI技術限制與專家分析的深度探討

生成式AI在時間處理上的局限，根源在於其技術架構與運作邏輯。AI專家Yervant Kulbashian強調，ChatGPT等模型依賴預先訓練的海量文本數據，並非實時連接外部系統如裝置時鐘或網路時間協定（NTP）。換言之，模型沒有「感知時間」的能力，僅能根據訓練數據中的時間相關語句（如「下午3點」）生成回應，卻無法判斷當下真實時間。這導致常見問題：當用戶詢問「現在幾點？」，系統回應「我無法存取裝置即時時鐘」，而非直接提供準確時間。更複雜的是，數字處理也常出錯——例如在數學題中，AI可能將「2023年」誤寫為「2033年」，因訓練數據中該年份出現頻率較高。此外，時間相關的視覺任務更是弱項：研究顯示，AI辨識時鐘圖像的正確率僅約60%，遠低於人類的95%，主因是模型缺乏對物理時鐘結構的直觀理解，僅能通過像素模式匹配。值得注意的是，此限制並非ChatGPT獨有，類似問題在Meta的Llama或Google的Gemini模型中亦有出現，顯示為整個生成式AI領域的共通挑戰。專家指出，技術突破需從架構層面革新，例如整合外部API接口，但這將增加運算負荷與隱私風險。例如，當用戶啟用搜尋功能時，ChatGPT可透過瀏覽器讀取裝置時間，但此操作需額外授權，且會佔用上下文資源，導致其他功能延遲。這也解釋為何在客服場景中，AI常回應「我無法即時查詢」，而非提供實際解決方案，進一步削弱用戶體驗。

未來展望與應用挑戰的產業影響

OpenAI已承諾將優化ChatGPT的時間識別能力，計畫透過模型升級與功能整合來提升準確度。具體路徑包括：一、開發專用子模型專精處理時間相關請求，類似現有「代碼解釋器」功能；二、與第三方服務（如Google Clock API）建立安全連接，讓用戶在授權後獲取即時數據；三、在訓練數據中加入更多時間標註的語料，強化模型對時間概念的邏輯理解。然而，技術進展面臨多重挑戰。首先，用戶隱私是關鍵瓶頸——獲取裝置時間需明確同意，而許多用戶可能因安全疑慮拒絕，限制功能覆蓋率。其次，成本效益比不理想：為每個時間請求連接外部API將增加伺服器負荷，尤其在高流量場景中可能影響整體效能。產業分析指出，未來一年內，ChatGPT可能在特定場景實現突破，例如運動應用中整合GPS數據自動計時，但日常使用仍難以完全解決。對用戶而言，這意味著需調整期待：AI仍是強大的內容生成工具，卻非即時資訊終端。例如，寫作時可依賴AI生成「2023年歷史事件」，但無法提供「當前天氣」；程式設計中能協助調試，卻無法精確追蹤程式執行時間。更廣泛的影響在於，此類限制加速了「AI助手」與「專業工具」的分野——企業將更傾向為關鍵任務（如航班排程）部署專用系統，而非依賴通用AI。未來，隨著多模態AI發展，時間處理能力可能透過結合圖像識別與語音分析逐步改善，但這需跨領域協作，非單一公司能快速突破。總體而言，奧特曼的承認雖顯技術落後，卻也為產業敲響警鐘：AI的實用化需超越內容生成，邁向真正的環境感知能力。