pipeline

data pipeline 中充斥着惊人的浪费,只是选择视而不见

越来越多的公司言并称大数据,而大数据管道和存储集群的规模甚至可以是业务集群的一百倍的规模。这里有多少机器是真正在做有价值的事情,而有多少cpu cycle是白白被浪费掉了呢?data pipeline 中充斥着惊人的浪费!只是我们选择视而不见。廉不知耻地把集群规模到了xxx台做为自己的功劳。殊不知机器只是成本,集群规模只说明我们在大量浪费,不说明任何其他问题。以下是我的吐槽