民用显卡上本地运行的AI模型的局限性

四月 27, 2026

26年4月27日我部署好本地AI。

取漫画中的带有我所不知道的生词的一句话，让本地AI为我解析。前面的效果还满意，直到遇到了一句话“にゃろう！！ガンたれてやがる．．．上等じゃねーか”。依次尝试了openai/gpt-oss-20b、deepseek-r1-distill-qwen-14b、qwen/qwen3.6-35b-a3b，均没有正确给出意思。

同时，尝试了Gemini 3 Flash。它给出了正确的解析。

问Gemini 3 pro为什么会这样。回答大意：本地跑 35B 模型，为了保证能在消费级显卡或内存上运行，在训练时必须做取舍。它会优先保留世界上最常用的知识（如英语、Python 代码、标准中文和日语），而像“日本不良少年黑话”这种属于“长尾知识（Long-tail Knowledge）”（作者注：P.S. 没那么常用的知识），在 35B 的参数压缩过程中很容易被稀释甚至丢弃。而 Gemini 是运行在 Google 庞大的数据中心上的，参数量级巨大，几乎保留了所有长尾知识。

因此，在民用显卡上运行的AI模型，就像阉割掉了许多“课本上没有”的知识的死板理科生，只能跑跑最通用、常见的任务。起码，知识量稍微偏广、对应知识稍微小众（没那么正经的知识）的任务，不太行。也许可以考虑那些不太需要知识量（需要的额外知识量足够你写成prompt放进去那种）、或者知识相对大众/正经的任务。

搜索此博客

拉面馆馆长

民用显卡上本地运行的AI模型的局限性

评论

发表评论

此博客中的热门博文

简单聊聊今年的日语学习

25年7月6日。日语N2考试，流程，记录。

什么是系统？/ 系统视角