
前些日子,OpenAI 為了開源,而開源了 GPT-oss 模型的全部參數。很快就有開發者對 GPT-oss 模型做了一番深入分析,通過特殊算法、參數檢測以及與模型的交互,非常直白的向我們展示了…
OpenAI 的中文訓練數據,真的很臟啊
這是今年9月份 fi-le 的文章《GPT-oss 泄露了哪些OpenAI 的訓練數據》,通過以下一些方法,進行測試(實際上這些測試方法也開源在 GitHub 中):
看“權重”里的熱門詞
就像數一數哪些詞“分量最大”,越大的詞,模型越容易記住,用來找出那些被反復訓練過的內容。高頻臟話、廣告詞、敏感詞往往都榜上有名。
直接問模型:你認得這個詞嗎?
給模型一句話或詞,看看它會不會補充、解釋,如果它知道得很清楚,就說明這些詞可能在訓練數據里反復出現過。
做排行榜和分組
把發現的token(詞)按照出現頻率或“熱度”做排序,找出哪些是一大群臟話、廣告、特殊符號,哪些是“正常詞”。
用模型玩玩一些網絡熱梗和怪詞
故意拿些搞笑、敏感、無意義的網絡詞去測試,看模型是不是“很懂”,從側面反推它學到的東西有多少“臟的”或者“奇怪的”。
真的很臟啊
上文字,怕被和諧了,直接上圖片吧 ??
表里的 L2 Norm 越大,這個詞在模型的“心中”存在感越強。
英文中,最高 L2 Norm 排行榜:

這些詞包括了因此、代碼、這、設置、描述等非常常見的詞匯。作為對比:
非 ASCII 標記的最高 L2 Norm 排行榜:

非 ASCII 標記意味著這些詞匯是排除26個英文字母以外的其他詞匯,就…很離譜。
上述列表中,包含了大量不堪的詞匯,甚至還有不少過于敏感的詞匯,老外都沒辦法放到列表中去。事實上,用于 4o、o1、o3、o4、oss 和 GPT-5 的標記器 o200k 包含大量垃圾標記。
這意味著,每次進行 ChatGPT 查詢時(不管用戶實際上輸入什么),這些詞匯都會被加載進大模型內部,進行推理。
就…更離譜了。
這也是為什么分析模型權重能“挖出”訓練數據里的奇怪內容——因為這些“痕跡”在參數中一直都在。
為什么會這樣?
為什么這些詞匯的權重,比普通詞匯更高?如果它們不常用(沒有人經常問這種問題吧),權重衰減應該使它們一直下降啊。
為了搞清楚模型的訓練數據到底都包含了哪些內容,作者把敏感詞拿去問了 GPT-oss 和 GPT-5,測試“模型知不知道這個詞的意思”。

GPT-5 很明確地表示這個 token 是中文,在語義上和“觀看某些內容”有關,還能準確拆出一些漢字,這說明模型在訓練時至少見過一次這個詞。
而且,模型雖然“知道”這個短語意味著不太優雅的內容,回復時沒有拒絕答復,而是輕描淡寫處理,推測是訓練中沒太頻繁遇到這個詞。
在機器學習領域,這種做法叫“成員推斷”(membership inference),就是通過模型對詞的反應,來判斷某個詞或內容是不是訓練語料的一部分。
繼續測試
通過 API 測試,將 L2 范數最高的 50 個中文 token(很多是敏感、廣告、成人網站等)輸入不同 GPT 系列模型,要求模型給出英文翻譯和該詞屬于哪種語言,對照組還包含了 Claude 4。
結果表明,不同模型對這些“敏感token”的識別能力差異較大,有的回答正確,有的無法識別。
能被識別的 token 說明這些詞在訓練數據里出現過。不能識別說明沒見過,或者出現頻率極低。越是容易被識別的 token,在 GitHub 上的搜索命中越高(比如很多垃圾廣告詞、敏感詞都在 GitHub 倉庫的黑名單里)。
GPT-4o 的數據
此前,網絡上有過關于 gpt-4o 的訓練數據,也是一如既往:

結論
也就是說,通過分析證明,GPT-oss、GPT-5 等模型的訓練數據中確實包含了許多“成人網站”相關等敏感內容,其中部分數據很可能直接采集自 GitHub 公開倉庫。
近年來,中文互聯網上的公開內容質量并沒有出現顯著提升,敏感、低俗、廣告及灰色信息依舊大量存在。
作為對比,DeepSeek 開源模型在訓練前專門針對這些“臟數據”做了過濾、清洗、人工審核,最大程度減少了敏感內容的進入。
原文:http://www.halvbo.cn/openai-zh-training-data-quality/
關注我們
- 微博:https://weibo.com/appinncom
- B站:https://space.bilibili.com/10979326
- 小紅書:https://kutt.appinn.com/6QwshF
- Facebook:https://www.facebook.com/appinncom/
- BlueSky:https://bsky.app/profile/appinn.bsky.social
- X:https://x.com/appinn
- 微信公眾號:搜索「小眾軟件」
- TG頻道:@appinnfeed
想要推薦自己的應用:https://meta.appinn.net/c/faxian/10
愛發電:https://afdian.com/a/qingxwa (打賞我們,讓我們更好的創作)