一块旧时代的墓志铭:大数据、区块链、元宇宙
一块旧时代的墓志铭:大数据、区块链、元宇宙
俺曾见金陵玉殿莺啼晓,秦淮水榭花开早,谁知道容易冰消。
眼看他起朱楼,眼看他宴宾客,眼看他楼塌了。
—— 清·孔尚任《桃花扇》
100 年后,人们习惯将 大数据、元宇宙 与 区块链 并称为本体纪元的三大往事。作为 21 世纪初互联网领域最具影响力的三场技术浪潮,它们曾何等喧嚣,一时风头无两,吸引无数开发者与投资者竞相涌入;却又如何渐次归于沉寂,终至声消迹匿,成为时代记忆中一段讳莫如深的旧章。
仅以此篇,作为刻在服务器残骸上的墓志铭,祭奠我们曾经狂热信仰着的,最终重塑了我们,也埋葬了我们的,那个——还不算遥远的年代 (2004~2022) 。
大数据:尽管它是个错误的预言,但我仍很怀念它
回忆大数据那个时代,就不得不提 维克托·迈尔·舍恩伯格 和 肯尼思·库可耶 两人合著的那本 《大数据时代:生活、工作与思维的大变革》,白色封面,蓝色加粗字体,无形中使他成了一种不可被质疑的权威。记得那时无论是高校老师讲课,还是产品推销,不少人都会把它祭出来,显得自己对大数据领域懂得特深的样子。然而这本书我一直没有买来读过,因为大数据在我还没来得及入场那年就凉了。
错误的开端,错误的结论
迈入 21 世纪,技术圈的第一件大事,就是互联网泡沫的破裂(指历史上著名的 dot-com 事件)。让计算机行业从废墟中重生的,是搜索引擎、电商平台、社交网络等服务的兴起,李彦宏、马云、马化腾,这些后来我们耳熟能详的名字,都是乘的这股浪潮。这些简单好用的服务,在互联网的帮助下引来了指数级的用户增长,由此带来的数据规模,也超过了当时计算机硬件的处理能力。在人们对未来数据规模增长十分乐观的估计下,基于分布式计算的大数据框架,如 Hadoop、Storm、Spark 等应运而生。在谷歌、脸书、苹果等科技巨头的大肆宣传下,这些技术席卷了全世界各地的大中小企业,成为人们趋之若鹜的东西。当时,在整个技术圈,最流行的是这张图:

在当时,这张曲线图如同圣旨,出现在所有企业的讨论会上。他所对应的就是大数据的第一个预言:我们即将迎来指数级增长的数据,数据的规模将会是天文数字般的存在。 在当时,没人敢反对这张图,因为反对它好像就是在质疑公司无法做到谷歌、脸书那样大规模的用户量。这张图其实很巧妙地结合了 胡萝卜和大棒,一方面它让所有公司都为即将到来的大批量数据感到焦虑,另一方面它也给所有公司画了个超大的饼。当时,所有人都很乐观,觉得充满了无限的机遇。
硬要说大数据有没有什么核心特征,除了那几乎快被人背烂了的 5 个 V (Volume、Velocity、Variety、Veracity、Value)以外,在技术上,最显著的地方就是舍弃了 scale-up,转而 主攻 scale-out。也即,通过分布式技术,以堆叠硬件的方式,跟上数据的增长速度。最早在这个战线吹响号角的是谷歌,当时它的三驾马车 MapReduce、GFS、Bigtable 是所有学习大数据技术的开发者最重要的参照物。可以说,谷歌的产品经验和技术分享,是大数据预言的一个重要基石谷歌的产品经验和技术分享,是大数据预言的一个重要基石。 然而,20 多年过去了,事后诸葛亮的我们并没有看到真正指数增长的数据,TB 这个单位依然稀罕,PB 和 EB 更是只会在一些科研项目里才能看到,反而是硬件能力稳扎稳打,一路上来了。现如今,一台普通的笔记本电脑的内存就足以处理过去需要 7 个节点的 Hadoop 集群才能完成的国际比赛象棋的数据统计了。 这在当时实在是难以想象。
大家的数据,其实并不多
为什么当时的人们会错的那么离谱呢? 很大程度上,是我们过分乐观地估计了数据增长的速度。 在尘埃落地的今天,我们终于可以冷静地审视我们当时那些错误的估计了。谷歌 BigQuery 的前任总监,曾经在一个技术论坛上分享,他们的活跃用户里,数据储存量超过 100GB 的用户还不到一半。还有根据 Gartner、Forrester 这些国际顶级市场分析组织的分享,绝大多数企业的数据仓库,体量达不到 TB 级。所以,在市场分析行业,“百 GB” 依旧是标配的基准单位。
而错误之二,就是实际有用的数据比原本预想的还要低。 其实最开始,我们都清楚大数据的价值密度很低,但事实很快告诉我们:没有最低,只有更低!由于许多中小企业在技术浪潮中都抱持这先上车、后补票的心态,为了不让上级责怪自己为什么在新的时代浪潮面前无动于衷,许多企业在还没有充分考虑应用场景之前就把新技术装上了。所以当时几乎所有的大数据项目,都是先立项,先把仓库建起来,至于要收集什么数据,因为大家都不知道之后要分析什么、怎么分析,所以为了避免收集不齐全,仗着自己有技术,不管三七二十一,把能埋点的地方都埋了,能收集的数据都收集了。 结果就是成吨成吨的 Apache Log 涌入进来,收集了一大堆没有什么价值的垃圾和噪音。
就算存的多,用的也不多
大数据的“大”,其实指的是两个维度:一是储存量,二是计算量。 大数据的第二个预言就是,储存量和计算量会肩并肩地一起往上涨。但现实发展却是,储存量随着日常运营线性增长了,而计算量却维持在一个相对固定的区间,足够大,但也没有那么大。 因为在大多数业务场景里,我们一般都只更加关注最近发生的事,这主要是因为技术的飞速发展造成了决策周期的缩短。以前一个季度、一个月才能响应,现在一个星期、甚至一天就能做出调整。效率的提高使得旧数据的吸引力缩水,除了那些搞科研的人外,一般很少有人会关注那些被勤恳储存了十几年的数据。绝大部分过时的数据都只能在仓库的角落吃灰。这就造成储存量虽然勉强达到了 TB 量级,但计算量还始终停留 GB 级。当然,会有人提出用一个用户十年的数据来预测他的行为,但这种方案费时费力不讨好,是不会被通过的,这个饼没法画。
就算用的多,人类也不听
大数据的第三个预言,其实不在技术层面,而在商业层面:用科学的、客观的数据分析,给企业提供未来发展的引导,让拍脑袋做决定,变成用数据说话。 人类的潜力真的超乎想象,面对拍脑袋决策和用数据说话两条道路,硬是走出了一条中间的道路:让数据为我拍脑袋的决策说话。搞过数据分析的人都有这样一种默契:就算我的分析报告写得再好、分析得再准确,如果结论不是上司想要的,对方就会揪着一些无伤大雅的细节反复批评。反之,如果结论是上司想要的,对方甚至都不关心数据准不准。(纯粹暴论,玩笑而已,切勿当真) 总之,我们会看到,在有些企业里,数据驱动了,但又没有完全驱动,数据的主导性地位被压制,逐渐沦为一个普通且平凡的工具。
我喜欢用“鲸落”一词形容大数据的谢幕。 因为它留下了丰厚的技术遗产,和全新的商业模式。此外,大数据时代积攒下来的大量数据,也成为了如今 ai 演进最主要的学习资料。虽然我们最终没有引来大数据时代所设想的美好未来,但事到如今回头来看,这个旅途依然值得。相比之后要提到的区块链和元宇宙,大数据真的可以称得上“配享太庙”了。
区块链:前尘往事,切莫再提
有这么一个技术热潮,它席卷全球,让全民狂热、人人参与。资本为它孤注一掷,投入大量的定制硬件。它号称是革命性的技术突破,它发誓要颠覆现有的商业秩序。没错,它就是区块链。
去中心化
一切罪恶始于中本聪提出的 去中心化,作为区块链技术最重要的价值体现,它使得电子货币成为区块链最完美的应用场景。因为电子货币需要脱离现有政府、法律和社会秩序的约束,才能在货币市场自由流动起来,从而被其他国家和地区的人所接受。而电子货币,不考虑数字人民币,单看国外的各种加密货币和它们的衍生品,比如可以算是赛博郁金香的 NFT 等,就知道这东西大致是个什么性质了。可以说,区块链自诞生到世间起,从头到脚,每个毛孔都流露出金钱和欺诈的气息。
在货币交易这个业务场景的加持下,区块链做到了真正的技术突破,开辟了全新的体系,解决了其他技术无法解决的需求。但不幸的是,这可能也是区块链唯一有用的应用场景了。我们中的绝大多数,既非央行、美联储这些掌握国家货币的机构,也不是需要跨国贩毒、走私军火、洗黑钱的神秘大佬。我们日常面对的大多数问题,需要的不是“去中心化”,而是更传统的“效率”、“容错率”、“灵活度”等等。为了最大程度的去中心化,而搞出来的 proof of work (POW) 这类共识机制,除了会让许多企业望而却步,还会被拥有垄断算力的坏分子掌控共识。 区块链的基石注定了它不是什么可以堂而皇之大肆推广的东西。
商业摸索
不可控风险,永远都是企业需要优先规避的。所以业界在摸索区块链落地时,一般都不考虑公共链,而是联盟链。联盟链不对公众公开,加入网络的节点,和参与数据读写的用户,都需要获得授权批准,这一层限制扩大了共识机制的设计空间。比如 15 年由 IBM、英特尔联手成立的 Hyperledger 项目所开发的 fabric 框架,就是目前市面上最好的联盟链框架。
fabric 在 2017 年发布 1.0 版本,当时的共识机制还是使用消息队列 Kafka,主要是考虑到大家对 Kafka 更熟悉,但是 Kafka 的开源框架在当时还没有达成 exactly once delivery 保证,所以经常出错。2020 年,fabric 拿掉 Kafka,而换成了分布式数据库常用的 Raft 协议。Raft 主要解决个别节点出现故障时,如何达成共识的问题,这使得速度向容错让步。而到了 24 年的 3.0 版本,Raft 被换成了 BFT,添加了对黑客劫持,故意捣乱等情况的考虑。这个演化过程体现出 fabric 框架在灵活度、容错率、效率等维度上的调整,遗憾的是,它始终没有找到那个平衡点。
核心问题
复杂度过高是区块链的核心问题。 以 fabric 框架为例,要搭建一个 Hello World 系统,需要首先部署至少 20 多个服务,其中包括负责签发证书的 CA、负责数据传导的共识框架、记录当前状态的数据库、参与读写的对等节点等等。这里面实在是有太多可以出错的地方了!更糟糕的是,区块链引入了太多的新名词和新流程,如果不了解全部,就会寸步难行。这使得不管是负责设计的、开发的、测试的、维护的,还是最后的运营和用户,所有的参与方,都得先成为区块链专家,才能入场。这种全链条的认知压力让许多区块链项目半途而废:立项之初,觉得一帆风顺;多方入场,才发现门槛比想象中高了不止一星半点。算了算,有点不划算,最后搁置下来。
当然,比起复杂度,区块链在效率上的问题也十分突出。 因为默认一切不可信,区块链必须花费更多的资源和流程去检查节点、验收数据真伪,需要大量的双向通讯、数据往返。而且节点增多后,共识的成本也会迅速增加,这是传统的 master-slave 架构完全不用担心的。因此,很多聪明人在设计阶段就发现了这个问题。比如数字人民币,就在白皮书上提到:区块链的效率,无法应对正常的交易需求,所以在架构设计上,数字人民币明确地分开了发行层和交易层,只在频率较低的货币发行、机构对账上用到区块链,而日常交易仍旧走央行的服务器,采用经典的中心化架构。
自我麻醉
在区块链热潮最顶峰的时候,整个业界都是在自我麻醉的,他们没有直面区块链的技术缺陷,而是强行给他贴金,上价值。很多企业在搞区块链落地的时候,都会吹嘘区块链“简单”、“高效”、“安全”,这简直是让人笑掉大牙了。前面我们已经分析过,简单和高效和区块链简直沾不到边,其实就连区块链最引以为傲的安全也好不到哪里去。因为它用的仍旧是老套路的加密算法,都是私钥对数据签名,然后公钥核实签名。加密算法安全,大家都安全,加密算法出了问题,大家都跟着完蛋。这种情况下,经典 SM 架构甚至可能还好一些,因为你还有机会打补丁,换算法。而区块链因为 immutable 的核心机制,是没有办法改内部的加密算法的。这个时候,它就只能等死。
一地鸡毛
热潮褪去,大家发现:那些现有技术解决不了的,区块链也解决不了,而那些能用现有技术解决的问题,区块链也没有提供更好的解法。 对于绝大多数政府、企业、个人,区块链就是这么鸡肋的一个东西。如果说大数据浪潮留下了丰富的技术遗产和先进的商业理念,那么相比起来,区块链留下的是一地鸡毛。这项技术唯一存活的分支,成了各路骗子和傻子的舞台。割韭菜的用来骗韭菜,创业者用来骗投资人,总统用来骗民众……这对于那些为这项技术奠基的计算机科学、网络安全、密码学领域的伟人们来说,真是一个莫大的讽刺。最后,应该在区块链的墓碑上写下:它死了,贡献颇微,遗害甚远,无人追忆。
元宇宙:让我们一起幽默且愉悦地埋葬它
大数据虽然死了,但它留下了丰厚的技术遗产和商业模式。区块链虽然死了,但它的实体还能养活很多黑色产业。而同样是世界级的技术热潮,在他们之后出现的元宇宙,却像个小丑,它莫名其妙地出生,然后又稀里糊涂地去世。
背锅侠的短暂一生
元宇宙这个概念,不等同于它背后的 AR/VR 技术,它是脸书凭空硬炒出来的热点,主要是为了糊弄一些不懂技术的无知大众,靠他们的狂热想象来分散大家的注意力。脸书为什么要炒作这个概念?这就不得不提及 2021 年脸书所遭遇的巨大挫折。首先是他们凑区块链的热闹,投入巨资搞得 Libra 币。在拉拢了 Visa、MasterCard、Paypal 等国际支付巨头后,在准备了两年半,经过了各种测试和宣传造势后,在正式发布的前一天,被美联储叫停,所有投入全部打入水漂。脸书成为了区块链浪潮末端的最后一个小丑(不包括 NFT 那群人)。仅仅两个月后,脸书的内部吹哨人出现,捅破了他们的内容监管问题。因为脸书曾在 2016 年的“剑桥分析数据丑闻”中,间接帮助特朗普赢下了大选,然后在 2020 年放任特朗普的“选举结果无效”的谣言传播,间接引发了冲击国会山事件。两次操作下来,脸书被政府严厉关注,他旗下的所有社交媒体,统统都被美国政府盯上了。重罚、制裁、拆分,怎么狠怎么来。扎克伯格被隔三差五传唤到国会,全国直播挨骂,再一次成为小丑。
在这个多事之秋,气急败坏的扎克伯格决定给脸书来一次改头换面。于是这个科技界四大天王,市值万亿的巨无霸,毫无征兆地宣布了大规模转型,把公司名从脸书改为 meta,把主营方向调整到 metaverse (元宇宙)。 尽管在此之前,它几乎没有在 AR/VR 技术方向投入研究或投放产品。可以说,元宇宙所需要的各种技术储备,脸书几乎都没有。因此,元宇宙这个东西,从诞生之初,就只是 meta 为了起号而画的一张饼。 因此,你会看到,即便在 meta 这么大规模的推广下,也没有任何科技巨头跟进。丑这个热闹的只有那些喜欢跟风的、想用来骗人的、想要刷政绩的……但是,相比大数据和区块链,元宇宙实在是短命。因为一年后,ChatGPT 横空出世,开启了 AI 热潮。meta 抓住这个机会,公开了他们的开源大模型 Llama。Llama 的出现,打破了 OpenAI 对大模型技术的垄断,一夜之间,全世界的技术人员都拥有了独立开发 AI 产品的能力。就这么着,脸书岌岌可危的形象被稀里糊涂地挽回了。而元宇宙呢?就像路边一条,迅速被大家遗忘,早就不知死到哪个角落了(难绷)。
不争气的底层技术
一个技术生态可以分为四层。最底层的硬件,负责捕捉输入、处理问题、然后投放输出。在它之上的是和硬件交流的控制层,也可以说是硬件引擎。第三层就是用引擎开发的应用和服务。最上面,就是这些应用和服务组成的生态。元宇宙是一个如同空中楼阁的生态概念。 目前,AR/VR 的硬件和引擎技术还不成熟,远远不能达到大规模落地的程度。目前,有关 AR/VR 设备最多的行业莫过于游戏。而在游戏领域,目前还没有看到被炒的很厉害的硬设,销量最多的仍旧是平板和游戏机。
未来的路要怎么走
除了游戏行业,很明确地把 AR/VR 技术用在了游戏体验的探索上。其他行业,至今也还是找不到稳定的方向。感觉就像是卡在了先有鸡,还是先有蛋的问题上。硬件和引擎的落后,让很多应用场景就算能想象出来,也无法实现。而没有使用的功能落地,就很难把产品卖出去,资金也就无法回笼。HoloLens 就是一个很好的例子。它最开始面向大众消费者,定位是电视、手机一类的家庭娱乐设备。但略显鸡肋的功能和过高的售价让一般家庭望而却步。所以他们很快转型到了商业场景,比如教育、旅游、工业设计,但这些场景有无法提供足够的体量来消化 HoloLens 的研发成本。现在,微软的 HoloLens 项目主要靠军方的订单吊着,然而最近,微软连军方的这份订单也弄丢了。另一方面,目前市面上 AR/VR 行业的标准化过程依旧艰难,我们可能面临巴别塔倒塌的危险。
尾声:数字时代的三座坟墓
站在未来的人们呵,请将你们的目光投向远方。在那片亘古绵延的数字荒原上,曾矗立着三座风格迥异的墓碑。它们所标记的三场技术浪潮,兴衰轨迹何其相似,而前世今生却又截然不同。它们曾随期望膨胀,一度攀上顶峰,最终却在现实的重力下轰然坠落。如今,碑文已深深刻下,旧时代的帷幕缓缓垂落。而新的故事,正悄然在我们脚下铺展、生长。
本篇博客参考 B 站 Up 主 原子能 的视频系列《让编程再次伟大》撰写而成:
- 大数据时代过去了,我很怀念它【让编程再次伟大#36】
- 区块链已成往事,但我并不怀念它【让编程再次伟大#37】
- 元宇宙,生得幽默,死得滑稽【让编程再次伟大#38】 感谢您的工作!