兩年前，我們生活在另一個世界。打開API——大型模型不斷生成代碼、文本、任何問題的回答。沒有人在意我們在Prompt中放入成千上萬的文件詞句，讓GPT-4做些像大寫化文本這樣的小事。為什麼？因為很便宜。投資者付錢。公司補貼。那是一段免費使用資源的時期。

但夢已結束。算力普遍變貴——這不是預測，而是當前正在發生的現實。對NVIDIA H100的爭奪已成為地緣政治衝突。數據中心的能耗逼近電網的極限。大玩家不再玩慈善。

當你的業務擴展，每日請求超過數百萬，微不足道的每千個Token的付費就會變成瀑布般的開銷。這是一台抽走錢的機器。這是讓創業公司CFO半夜驚醒的噩夢。Token已成為真正的貨幣單位。

你的Token在哪裡流失？人們常常不理解。看著每月帳單逐漸上升，就像看一本難懂的書。損失發生在最不顯眼的地方。

第一：你禮貌地與AI對話。「您好，能幫忙嗎？非常感謝，請您……」人類覺得這是常態，但在Token經濟中這是搶劫。大型模型不需要你的「請」和「謝謝」。每個詞都是Token，每個空格都是錢。更糟的是——極長的系統提示，反覆出現在每個會話中：「遵循十條原則……」「如果不知道，就說不知道……」有用嗎？是的。但如果這些反覆出現數百萬次，將帶來天文數字的損失。

第二：無控制的RAG。理想情況：提取三個相關句子。實際操作：用戶提問，系統提取數萬字的PDF文件並傳入模型。開發者想：讓模型自己找。這不是懶惰，而是對計算能力的犯罪。無關信息不僅干擾注意力機制，還會導致天文數字的Token消耗。你以為只問了個簡單問題，實際上卻讓模型讀了一半圖書館。

第三：無限制的代理。ReAct模式讓AI像人一樣思考和行動。但如果API關閉或邏輯陷入循環，代理就會無限運轉。每個思考循環都消耗昂貴的輸出Token——它們的成本是輸入的幾倍。沒有正確的緊急停止機制的代理，就像一個黑洞，吞噬你的預算。

如何節省？第一：語義快取。用戶請求經常類似。「如何重設密碼？」每天有數百次。不要每次都用GPT-4——轉換請求為向量，與快取比對。如果相似度高，就從快取返回答案。沒有Token。延遲從秒到毫秒。這不僅是節省，更是體驗的飛躍。

第二：提示壓縮。長長的上下文是罪過。基於信息熵的算法分析哪些詞是關鍵，哪些是多餘。可以將1000Token的文本壓縮到300，保持核心內容。讓機器用機器語言交流——人類覺得笨拙，但AI懂。你節省了70%的成本。

第三：模型路由。不要把所有請求都扔到最貴的模型。對於簡單的實體抽取或翻譯，路由到較便宜的開源模型如Llama 3 8B。對於複雜的邏輯推理，使用GPT-4o或Claude 3.5 Sonnet。就像一個調校良好的公司：前台能解決的請求不會傳到CEO那裡。調整得最精確的人，能將總Token成本降低到競爭對手的十分之一。

先進的系統已經理解到這一點。當觀察最前沿的代理生態系統——尤其是向移動設備發展的——可以看到一場為最大化Token效率的戰鬥。在移動設備上，沒有大規模上下文的奢華。帶寬有限，記憶有限，能量有限。

OpenClaw幾乎控制了Token的使用。它不依賴完整上下文的粗暴堆疊，而是依靠結構化的輸出數據。它讓模型輸出嚴格遵循JSON Schema。它不讓AI「自由交流」——而是「填寫表格」。這減少了多餘的字符，節省了流量。

Nous Research的Hermes Agent展示了微創的上下文管理。它不存儲全部歷史，而是引入動態記憶。工作記憶：最近3-5次對話。長期記憶：當上下文超出範圍，輕量模型會將對話摘要成幾句話，存入向量庫。舊對話被刪除，但知識得以保存。這不是廢物，而是微創刪除。這樣的上下文管理不僅突破了物理限制，也在宏觀層面大幅降低成本。

主要趨勢已經明確：未來的代理不會比拼用多少工具，而是比拼在極端有限的Token預算下完成最複雜的任務。像在鏈條中舞蹈。跳得最好的人贏。

但這些都是技術細節。本質上——這是整個AI行業思維的轉變。以前我們把Token當作消費品。看到折扣就扔進購物車。無論大型模型是否真正必要，重要的是它看起來「很酷」。公司盲目將LLM接入一切，給每個員工開賬，甚至用於餐廳菜單。帳單來了——震驚。

現在，應該轉向投資思維。每次Token消耗都是投資。用投資回報率（ROI）來衡量。這個Token花出去了——它帶來了什麼？解決問題的比例提高了嗎？修復Bug的時間縮短了嗎？還是只是在笑：這個AI多搞笑？

如果用傳統機器學習的功能成本是10美分，而大型模型每Token要1美元，但只提升2%的轉化率——毫不猶豫地剪掉。我們不再追求「大而全」的AI，而是追求「小而精」的精準打擊。

我們必須學會對業務部門說「不」。當他們問：「AI能讀完所有10萬份報告並提供摘要嗎？」——反問：「你的收入能cover幾百萬Token的花費嗎？」算算。節省。像傳統店主一樣計算Token。

聽起來不像賽博朋克，也像鄉村風。但這是走向AI成熟的必要階段。

哈希率普遍上升——不是危機，而是遲來的清洗。它戳破了無限補貼的泡沫，讓所有人回到冷酷的現實。但這很好。它迫使人們放棄對「巨大力量——奇蹟」的盲目信仰，重新尊重工程效率。

存活並發展的公司，不是那些擁有最貴模型的，而是那些在Token數字快速變化中保持冷靜、自信，知道自己賺得比花得多。當潮水退去，就能看出誰是光著身子游泳的。這次，退潮的是哈希率帶來的利益。只有像挖金一樣精打細算每一滴Token的人，才能真正擁有堅不可摧的護甲。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

打賞
按讚
回覆
轉發
分享

回覆

請輸入回覆內容

暫無回覆

熱門話題
查看更多
#
WCTC交易王PK
39.63萬熱度
#
#聯準會利率不變但內部分歧加劇#
1.8萬熱度
#
Polymarket每日熱點
72.1萬熱度
#
比特幣現貨交易量新低
16266.65萬熱度
#
油價突破110美元
87.14萬熱度

結束了可以自由使用計算資源而不考慮成本的時代。哈希率越來越貴，這一切都在改變。

熱門話題

WCTC交易王PK

#聯準會利率不變但內部分歧加劇#

Polymarket每日熱點

比特幣現貨交易量新低

油價突破110美元

置頂