为什么会出现shrinkage？找出原因从根源上解决问题|下载梨翱联网

文章目录 [+]

为啥会蹦出个shrinkage（缩水）这玩意儿，我琢磨了好久，终于算是有点眉目了。这事儿不是一天两天形成的，得从头捋捋，看看我这趟踩坑的经历。

那年为了搞定一个项目，我一拍脑袋就这么干了

说起来有点丢人，前段时间接了个活，需求方说得挺模糊，就是要个“差不多的就行”。我寻思着，这不就是给我机会秀一手嘛立马就拍板答应了，压根没太仔细算到底要多少料。

我当时就开始动手干活了。先把需求拆了拆，感觉这块用A技术栈，那块用B技术栈。开工了就没停下来，代码噌噌地往上怼。我这个人，一干起活来就容易上头，总想着一次性把功能做好看、做得稳，所以就没省着劲儿用资源。

一开始我估摸着，这项目用个100个单位的资源肯定是够了。我就按100个申请，开始跑起来。功能一层层往上加，各种缓存、冗余都给你配到位了，总觉得这样最保险。

结果，项目上了线，数据量上来了，跑了一段时间，我发现不对劲了。原本以为能跑得风生水起的系统，开始有点吃力了。我赶紧去查监控，一看吓一跳，CPU、内存占用率噌噌往上蹿，比我预估的要高出一大截。

用户一多，负载一上去，系统就开始叫唤了。我赶紧加机器，加配置，希望能顶住压力。可越加越发现不对劲，为啥我申请了一堆资源，实际用的还不到一半？这就是我第一次感受到“shrinkage”的威力。

我开始系统地排查问题。这不是代码效率的问题，也不是架构设计的问题，而是我从一开始就没搞清楚“实际需求”和“预估资源”之间的关系。

我回头看了看当初的需求文档，字是挺多，但核心的负载预期写得特别模糊。业务方说“高峰期也就那样”，我信了，自己脑补了个上限。

我发现几个关键点：

过度设计倾向： 我总想着把最极端的场景都考虑到，每一个模块都搞得特别健壮，结果就是资源堆砌，实际需求来了，很多冗余的配置就没用上。比如那个队列服务，我为了防止瞬时洪峰，配了三倍的实例，结果日常负载才用三分之一。
资源申请和使用脱节： 我申请资源的时候，是基于“我觉得”这个标准来的，而不是基于“实际跑起来”这个标准。申请下来了，就默认全用了，或者觉得不用白不用。
流程缺失： 我们团队对资源的精细化管理不够，申请完就扔那儿了，没人定时去复盘到底用了多少，哪些是闲置的。

这一下就明白了，所谓的shrinkage，根本原因就是我的“预估”和“实际”之间差了十万八千里。我拿着一堆资源在那里“养着”，但它们并没有真正地为业务做贡献，就是白白浪费在那儿了。