DeepSeek們越來越聰明,卻也越來越不聽話了

在今年,DeepSeek R1 火了之后。

幾乎快形成了一個共識,就是:

AI 推理能力越強,執(zhí)行任務(wù)時就應(yīng)該越聰明。

從 2022 年 Chain-of-Thought 橫空出世,到今天 Gemini 2.5 Pro、OpenAI o3、DeepSeek-R1、Qwen3,這些旗艦?zāi)P偷慕y(tǒng)治性表現(xiàn),我們一直相信,讓模型先想一想,是一個幾乎不會出錯的策略。

不過,這種聰明,也會帶來一些副作用。

就是提示詞遵循能力,變得越來越差。

換句話說,就是越來越不聽你的話了。

我在過年期間寫 DeepSeek 的攻略文時,也提到了這一點。

不過,這只是我自己使用中的感覺,它變的越來越聰明,但是感覺,卻越來越不聽話了,以至于我現(xiàn)在,最常用的模型,開始越來越變成了 GPT4o,所有的推理模型,反而會用的越來越少了。

不過,確實沒有經(jīng)歷過驗證,所以也不是特別敢說。

直到昨晚回來,在扒拉論文的時候,看到一篇提到這個話題的論文,我讀完以后,我覺得,終于可以來聊聊這個事了。

這篇論文叫,《When Thinking Fails: The Pitfalls of Reasoning for Instruction-Following in LLMs》

網(wǎng)址在此: https://arxiv.org/abs/2505.11423

DeepSeek們越來越聰明,卻也越來越不聽話了

它用極其扎實的實驗,驗證了上述的論點。

當你讓模型開始推理,它反而更容易違反你給出的指令。

是的,當思考失敗,這聰明的智商,反而就變成了負擔(dān)。

我盡量用人話,來給大家簡單的科普一下論文中的實驗和內(nèi)容,再說說我的理解。

先說論文本身。

論文的研究團隊來自 Harvard、Amazon 和 NYU,他們花了好幾個月,干了一件特別簡單卻沒人認真做過的事,就是把這個思考過程應(yīng)用在一個最基礎(chǔ)、最現(xiàn)實、最需要穩(wěn)定性的場景上:

聽懂人類指令,然后照做。

他們做了兩組測試。

第一組叫 IFEval,一個標準的執(zhí)行類任務(wù)測試集,每個任務(wù)都非常簡單。

比如“寫 400 字以上”“必須提到 AI 三次”“輸出格式必須是 JSON”“句末不能有標點”等等。

所有的任務(wù)都有明確的可驗證標準,要么做對要么做錯,沒有模糊地帶。

第二組叫 ComplexBench,這就更有趣了,是那種“多約束、邏輯組合、順序嵌套”的復(fù)雜指令,比如“先做 A 中的三選一,再加上 B 的格式要求,最后加上 C 的語言限制”。

聽起來好像推理模型在這種任務(wù)上應(yīng)該更有優(yōu)勢?畢竟這不是隨便一兩句話就能糊弄過去的內(nèi)容。

然而,論文的結(jié)論驚人又統(tǒng)一:絕大多數(shù)模型在使用 CoT 推理后,執(zhí)行準確率反而下降了。而且,下降得還不輕。

他們一共測了 15 個模型,涵蓋開源的(比如 LLaMA、Mixtral、Qwen2.5、DeepSeek 系列)和閉源的(GPT-4o-mini、Claude 3.5/3.7 等等)。

在 IFEval 上,14 個模型中有 13 個使用 CoT 時準確率變低;在 ComplexBench 上,所有模型都在使用 CoT 后,表現(xiàn)變差。

DeepSeek們越來越聰明,卻也越來越不聽話了

甚至連像 LLaMA-3-70B-Instruct 這種參數(shù)量較大、訓(xùn)練完整的模型,在使用 CoT 時也會從 85.6%的準確率掉到 77.3%。

8 個點的損失,在工業(yè)級任務(wù)里其實非常恐怖了。

還有推理模型開不開推理的對比,典型的就是 DeeSeek V3 和 R1,還有 Claude 3.7 這種混合模型。

DeepSeek們越來越聰明,卻也越來越不聽話了

會發(fā)現(xiàn),幾乎都有下降。

他們手工扒拉了 1500 多個樣本,看了所有的思維鏈,總結(jié)出來了原因。

他們發(fā)現(xiàn),當模型用了思維鏈條之后,它確實變聰明了,比如能更好地遵守格式、注意字數(shù)、精確用詞,像是“必須用 15 個大寫字母”這種題,靠 CoT 反而更穩(wěn)。

DeepSeek們越來越聰明,卻也越來越不聽話了

但,它也變得神經(jīng)質(zhì)了。

它開始自作主張,覺得自己懂了任務(wù)的深層含義,于是它會擅自刪掉、修改,甚至加上有幫助的解釋。

論文里提到很多模型會在“只允許輸出法語”的題目中,善意地補上一句“這是‘Bonjour’的英文翻譯”,在“只能輸出引號內(nèi)容”的任務(wù)里,自動補充前情摘要。

它太想表現(xiàn)自己了,太想證明我真的理解你了,于是它忘了本該嚴格遵守的指令。這就是它學(xué)會推理之后的副作用。

為了找出這個副作用的根源,他們引入了一個新概念:

約束注意力(Constraint Attention)。

他們發(fā)現(xiàn),不管是 GPT-4o-mini,還是 Claude 3.7,幾乎所有模型在用了 CoT 思維鏈后,它們的注意力,也就是在生成答案時,關(guān)注任務(wù)描述中“關(guān)鍵限制”的那部分注意力,明顯下降。

你可以理解為,當你要求一個人邊想邊說,他反而忘了原本你只要他復(fù)述句子的簡單目標。

DeepSeek們越來越聰明,卻也越來越不聽話了

更有趣的是,他們還測了一個我一直想知道的問題的答案:

就是 CoT 思考越長,準確率越高嗎?

結(jié)果是,幾乎沒有顯著相關(guān)性。

思考長度和是否做對,幾乎沒有直接聯(lián)系。

也就是說,更努力≠更對。

所以,其實結(jié)論很簡單,就是在要求非常規(guī)范、精準的大模型輸出任務(wù)上,完全不需要使用推理模型或者思維鏈,直接上非推理模型,效果會更好。

但是,如果,就是非要用,希望提升整體指令遵循效果呢?

他們也基于自己的測試,給出了 4 種方案。

第一種,是“Few-Shot 少樣本示例”。

給模型提前看幾個做對的例子。

效果一般般,問題在于輸入太長,而且示例選自已有模型,容易有偏。

第二種,是“Self-Reflection 自我反思”。

模型第一次輸出之后,再自己復(fù)查一遍,“你剛才做對了嗎?”然后再決定是否修改。

這招對大模型效果很好,因為它們確實能自省,但小模型效果慘不忍睹,因為它們智力不夠,就像個不知錯的小孩,越反思越錯。

第三種,是“Self-Selective Reasoning”。讓模型自己判斷這個任務(wù)是否需要推理。

結(jié)果是:它召回率很高,基本上只要推理有用它都能猜出來,但精確度很低,一言不合就開始推理,哪怕你只是讓它改個詞。

第四種是最有效的,“Classifier-Selective Reasoning”。

直接訓(xùn)練一個小模型作為判斷器,來幫主模型判斷某個任務(wù)是否該啟用 CoT。

效果顯著,在兩個測試集上幾乎都能恢復(fù)失去的準確率,甚至有些模型比原始還高。

缺點就是每個主模型都要單獨訓(xùn)練一個判斷器,成本太高。

這篇論文大概就是這樣,對我自己非常有幫助,我看的論文不多,這篇是我自己看的,我認為對“CoT 推理在執(zhí)行任務(wù)中的潛在副作用”這個話題,比較完整的研究之一。

同時,我也想聊聊,這篇論文對我的啟示。

我們總覺得,聰明,就意味著知道得多、分析得細、每個變量都不放過.

但事實上,真正強大的智能,從來都不是把所有細節(jié)一股腦地掃過一遍,而是,知道在哪一秒鐘,把注意力放在哪個點上。

比如我們小時候考試,很多人因為太想得高分,最后反而在最簡單的題上丟分。

成年人做選擇,明明已經(jīng)知道該怎么做了,卻非得做個 SWOT 分析表、拉個 10 頁 PPT 討論,最后被復(fù)雜困死。

公司做決策,明明方向明確,卻因為分析得太多、風(fēng)險評估太細,最后團隊誰也不敢拍板,錯過風(fēng)口。

AI 其實跟人很像。

上面很多 CoT 的驗證,還有 Constraint Attention,其實也證明了,大模型不是笨,而是思維資源錯配了。

你讓它完成任務(wù),它卻跑去想著“怎么把這段話說得更優(yōu)雅”、“這句話需不需要加個邏輯轉(zhuǎn)折”、“前后是不是夠自然”。

你讓它干活,它在腦子里腦補了幾萬種情節(jié)。

但是,真正牛逼的智能,其實應(yīng)該是聚焦。

比如你叫一個人幫你看一下一份報告有沒有錯,一個低階執(zhí)行者可能就只會一句句校對標點。

而一個高階智能,可能會反過來先問你,“你重點是要我看錯字,還是看數(shù)據(jù)邏輯?”

你說清楚重點,他就能把 80%的注意力鎖死在正確位置。

而如果他啥都想看一點,最后很可能錯得最離譜。

我們真正需要的,可能,是對“該想什么”有判斷能力的智能。

就像我們?nèi)祟惸切┳盍钊司次返臅r刻,不是我們知道多少,而是我們能瞬間把注意力聚焦在關(guān)鍵節(jié)點上。

危機時刻,考場鐘響,夜深人靜一個念頭浮上心頭的時候,你知道的,你不能全看,你只能看準。

那個“看準”,在我看來,可能就是智能真正的體現(xiàn)。

這一點,看似簡單,卻足夠讓 AI 從“聰明”,變成“智能”。

這就是我讀完論文之后,真正想跟大家分享的東西。

我們不缺思考的能力,我們?nèi)钡?,是思考的分寸感?/p>

注意力,不是撒網(wǎng)。

而是出擊。

收藏 6
點贊 43

復(fù)制本文鏈接 文章為作者獨立觀點不代表優(yōu)設(shè)網(wǎng)立場,未經(jīng)允許不得轉(zhuǎn)載。