在过去十年里,有两股重要力量推动了技术的发展:分别是移动和云计算。
移动促进了大型消费互联网公司的崛起:Uber 与 Lyft、Instagram 与 Snap、Robinhood 与 Coinbase 。这些公司基本上都成立于 2009 年至 2013 年间。数字广告在 2010 年代迅速转向移动设备,Facebook 等桌面时代的公司不得不争先恐后地重塑业务。
云计算则支撑了软件即服务 ( SaaS ) 的爆发式增长,并让数据变成企业最宝贵的资源(“数据就是新的石油”云云)。这一领域的新兴公司基本上也都成立于 2009 年至 2013 年之间,其中包括 Slack 与 Airtable 、Stripe 与 Plaid、Snowflake 与 Databricks 等。
从 2015 年到 2022 年间,存储在云端的企业数据占比翻了一番:
存储在云端的企业数据;资料来源:Statista
这是过去 10 年 AWS 收入情况图,很少有图表比这幅图更令人印象深刻(利润率高达 35%!):
移动和云计算让 2010 年代成为技术领域非常非常好的十年。但在过去的几年里,我们看到很多人都在嚷嚷接下来会发生什么。虚拟现实?增强现实?自动驾驶汽车?加密货币?Web 3?
这些技术个个都很有趣,原因各不相同,有趣的用例也各异,但都还非常非常早。整个 VR 行业仅相当于苹果 2021 年营收的 2%。(虽然随着苹果即将推出的混合现实头显,情况可能会有所改变。)围绕新技术的炒作太多,而源于对移动和云计算的焦虑的“平台转变”已经……过时了。AWS 推出时间是 2006 年;iPhone 在 2007 年问世。移动和云计算都还没有饱和,但它们的新机遇并不像以前那样成熟了。与此同时,我们看到前所未有的私有资本开始涌入,去追逐创业公司:
风投资金在 2021 年激增至 3300 亿美元
2020 年代最引人注目且最有可能推动技术发展的力量是什么?也许是人工智能。人工智能在过去几年中得到了显著改善。直到最近,Gmail 的自动补充句子功能几乎还没法用;但现在已经好得吓人。Facebook 用户将认识到 AI 在识别照片里面的朋友方面已变得有多么出色;实际上,Facebook 的 DeepFace 引擎现在比人类还要擅长面部识别。就在去年夏天,我们看到了从 Stable Diffusion 到 Midjourney、ChatGPT 到 Lensa 的一切事物的涌现。人工智能正在成为主流。
Facebook 的DeepFace现在比人类还要擅长面部识别
我们正处在人工智能的转折点(原因稍后会详细介绍),这个转折点正在支撑起创新的寒武纪大爆发。2009 年至 2013 年诞生了数十家由移动和云计算技术提供支持的变革型初创公司。未来几年这样的公司将再度涌现,但这次,人工智能将成为催化剂。
前一段时间,有位朋友问了一个问题:AI 是泡沫,还是下一个大事件?答案可能是两者兼而有之。
最近的大部分讨论都围绕着生成式人工智展开,但“传统”的人工智能仍有很大的发展空间。曝光度最高的人工智能应用是什么?也许没有比 TikTok 的For You Page(为你推荐)更高的了,对于《超国度》那个具有先见之明的超个性化的互联网来说,这可以说是它最好的现代类比。
TikTok 沉浸式、算法性的 For You Page 开创了内容策划的新风尚。一开始,每个发布出去的视频都会被推送给一组的初始受众,然后根据他们观看了多长时间、是否喜欢视频、是否对视频发表了评论等等,对这些观众的反应进行评估。如果受众反应良好,视频就会被推送给更多的受众,如此循环往复。
TikTok的算法
移动和云计算之后技术的下一步会是什么。 聊到了AI,并回想起十年前那张著名的“解绑 Craigslist”的图表。
就是这张图:
将业务从Craigslist解绑出来诞生了大批初创企业,迄今为止这批企业的融资额达到了88.7亿美元 资料来源:CB Insights
这里还有一张,要表达的概念是一样的,但更清晰:
平台 Vs 垂直领域及下一个大解绑 | Andreessen Horowitz 图片来源:Andrew Parker
这些图有一个基本前提,那就是原先市场的主要品类正在被更专注、更好的产品所重塑。通常,颠覆者会利用某项新技术:比方说,Tinder 是第一批只支持移动设备的约会 app 之一。
AI 应用可能也会带来类似的清算。主要的品类——如约会、房地产、求职等——可能会因为有人能更好地利用人工智能而被彻底颠覆。当 AI 可以把跟你完美匹配的对象呈现出来时,为什么还要上 Tinder 没完没了地刷屏?十年之后,我们可能会看到上图有了一个新版本,里面出现的也许是全新的公司 logo——AI 优先的公司会重塑每一个品类。当然了,生成式人工智能一定会从中发挥作用,但类似 TikTok 的推荐系统也很强大;就数字世界将越来越适合我们的独特品味和偏好而言,我们仍处于早期阶段。
看个例子——交易。
从很多方面来说,SHEIN 都算是 TikTok 的姊妹公司。SHEIN 与字节跳动(TikTok 的母公司)都是中国公司,而且位列全球最有价值的三大初创公司之一(字节跳动排名第一,美国的 SpaceX 排名第二,SHEIN 排名第三)。
就像 TikTok 渗透了美国的媒体一样,SHEIN 也打入到美国的快时尚——
美国快时尚市场Shein占据了最大的份额 - Bloomberg Second Measure
这张图换了个视角,把 SHEIN 与 H&M 和 Zara 的销售额进行比较:
中国快时尚品牌Shein如何征服美国市场 - Euromonitor.com
SHEIN 的爆发式增长非常引人注目:SHEIN 已经连续八年(!)每年的增长率都超过 100%,其在非公开市场的最新估值已经超过 Zara 和 H&M 市值之和。2022年 6 月,SHEIN 取代亚马逊,成为 iOS 和 Android 应用商店排名第一的购物应用。
SHEIN 的速度令人瞩目:这里每天都要上架 8000 件新商品,而 Zara 每周才新增 500 件。SHEIN 基本上属于互联网原生的 Zara 和 H&M 转世,利用了更好的技术把从设计到生产的时间从三周压缩到了三天。SHEIN 通过梳理竞争对手的网站和 Google Trends,找出流行的款式,然后快速做出自己的设计,预测需求,实时调整库存。
我们再说回 AI,SHEIN 给我留下的其中一个深刻印象是它的推荐。就像字节跳动会预测你想看的内容一样,SHEIN 会预测你想买什么衣服。SHEIN 之于电商就像字节跳动之于内容。
从某种程度来说,这是 Stitch Fix 开创的个人造型订阅盒概念的更复杂版本。Stitch Fix 给整个过程引入了人,也利用了数据科学,但其基础是新客户引导冗长的问卷调查。而 SHEIN 只根据我输入的四个词(也许还参考了我点击的内容、鼠标悬停的位置等数据)就做出了准确的推荐。
Stitch Fix 的个人造型市场已被证明相对小众,而且它的股票也已受到重创。活跃客户已降至 390 万,同比下降 20 万人(下降 5%)。该公司正在努力向 Freestyle 产品转型——这是一种更传统的购物体验——但这个细分市场仍然只占该公司业务的一小部分。
Stitch Fix 的订阅盒里面是由造型师和数据科学策划的推荐产品
尽管 Stitch Fix 举步维艰,但它的目标是突破性的——个性化商务。这家公司几年前就提出了这个概念,但当时人工智能还不够成熟,没法取代冗长的问卷调查以及小规模的数据科学家队伍。SHEIN 朝着正确方向迈出了一步,但我们仍站在人工智能驱动推荐的风口浪尖。
想象一下,如果有家公司能梳理你的相机胶卷,并以惊人的准确性为你推荐一大批新衣服会怎样?或者,也许这家公司只需要请你将 Instagram 帐户关联一下,然后就能消化你的所有点赞和关注,即可提供极其准确、个性化的时尚推荐。
人工智能的主要消费者应用将大量依赖于娴熟的推荐。这些推荐能预测到连你都不知道的需求与愿望——就像 TikTok 的 For You Page 一样:它能够在人们自己还没意识到之前就向对方表明他们是性少数者。也许上面的示例公司可以在一条 FYP(For You Page)动态消息中重塑商业,让你每次浏览一个精心策划的商品——双击即可购买,向上滑动即可查看下一件东西。
世界正在向着个性化转变,而人工智能是在给这股趋势火上浇油。
2022 年文本生成图像 AI 爆发了。首先出现的是来自 OpenAI 的 DALL-E (这个名字综合了艺术家萨尔瓦多·达利以及皮克斯的那部动画片,《机器人瓦力》,WALL-E)。当然,不是谁都可以直接用 DALL-E,但这方面的创作已经开始在互联网上火起来了;
互联网上用DALL-E 生成 11 张最奇怪的图像 | Mashable
对于这个世界大部分的地区来说,DALL-E 是 AI 的第一个真正的“哇哦”时刻。在与麻省理工学院交流时,OpenAI 的 Sam Altman 把这一点归功于图像所传递的情感力量:
人往往更喜欢更丰富的媒体格式:Instagram (主要媒体是照片)一直都比 Twitter(以文字为主)更受欢迎;与此同时,TikTok (主要是视频)在使用上一直在蚕食 Instagram 的市场,迫使后者也得向视频转型(通过 Reels )。在我看来,类似的偏好也会发生在生成式人工智能身上:图像 > 文本,很快,视频也会 > 图像,以及最终沉浸式 3D 体验将 > 视频。(消费者偏好的这一事实也是我从长远看继续看好 VR 和 AR 的原因。)
在 DALL-E 起势之后,去年夏天 Stable Diffusion 和 Midjourney 的出现彻底改变了局面。Stable Diffusion 具有开创性,因为它是开源的,这意味着开发者基于它做开发。稍微解释一下,Stable Diffusion 将扩散从像素空间转移到了潜在空间,从而推动了质量的显著提高。与此同时,Midjourney 在可访问性方面具有开创性。Discord 上就能使用 Midjourney :任何人都可以注册一个免费账号,并获得 25 个积分,图像则是用公共服务器生成的。用完 25 个积分之后,每月支付 10 美元或 30 美元就可以继续使用(具体多少钱取决于你要创作的图像数量以及你是否希望生成的图像保持私密)。Midjourney 已迅速成为 Discord 上最受欢迎的服务器之一(也许是最受欢迎的服务器?),拥有 740 万会员。
下图是 Midjourney、DALL-E 2 以及 Stable Diffusion 在使用相同的文本提示时生成的图像,各自风格略有不同:
下面这条时间线从更宽泛的角度展示了 AI 图像生成在过去十年是如何得到改进的(请留意近年来提示的复杂性的不断增加,以及输出的保真度在不断提高):
去年是图像模型的转折点,生成的图像质量得到了迅速提高。举个例子:众所周知,AI 很不擅长创作手。除非 AI 具有出色的上下文感知能力,否则很难知道已经弄出了多少根手指。其结果是我们最终会得到很多有四根或六根手指的手。下图是 Midjourney v3(2022 年 7 月)与 Midjourney v4(2022 年 11 月)生成结果的对比,你能看出结果有了明显改进:不再会出现有两只喙或三条腿的企鹅。
当我想到图像生成早期遇到的挑战时,就会回想起一个世纪前动画在早期面临的挑战。米老鼠为什么要戴手套?原因之一是这样制作动画可以更快;手是很难画的。《聪明笨伯》(Fred Flintstone) 和 乔治·杰森(George Jetson)也是如此——你看不见他们的脖子,因为有脖子意味着角色的整个身体都得跟随每个动作和表情而移动。这意味着动画师要做更多的工作。领带和高领让动画师得以投机取巧,加快制作动画的速度。
杰里·邓肯(Jerry Duncan)与聪明笨伯交谈 - Dean Kaner,《幽默时代》
当然了,半个世纪之后,动画已经取得了长足进步。《海底总动员》在某种程度上是皮克斯展示自己可以制作出逼真的水动画的借口。《怪兽电力公司》里面的形象也是如此。皮克斯一直等到第 6 部动画片《超人总动员》才第一次开始描写人类的故事,因为 CGI 技术之前还没有为此做好准备(指玩具总动员)之所以专门讲玩具,部分是因为皮克斯还不能对逼真的人类细节进行渲染——所以在电影中你几乎看不见安迪和他妈妈的影子)。
《黑镜》第二季的《马上回来》(Be Right Back)讲的是一对夫妻一起搬进了新家。结果第二天,丈夫出车祸身亡了。后来他的遗孀得知有一项新服务可以让她与已故的丈夫聊天;这款工具能够消化短信以及社交媒体的历史记录,从而了解伴侣会如何回应,然后代替他与客户聊天。这一集(2013 年播出)的情节现在已经成为现实。在针对个人数据进行训练的基础,初创企业 HereAfter.ai 就提供了与已故亲属的互动化身聊天的服务。
去年,在图像模型出现飞跃的同时,语言模型也突飞猛进。去年 11 月, OpenAI 推出了 ChatGPT ,刚推出五天,这款聊天工具就收获了 100 万用户。ChatGPT 的表现令人难以置信;使用它的感觉跟你第一次用上 Google Search 一样,都有“魔法时刻”降临的感觉。(每次使用 ChatGPT 时,我都会想起亚瑟·克拉克的名言:“任何足够先进的技术都与魔法无异。”)
下面的一些例子说明了 ChatGPT 能做什么:
提示:“什么是虫洞?把我当作 5 岁小孩给我解释一下。”
让chatgpt用通俗易懂的方式解释虫洞
提示:“提供一个 29 岁生日派对的创意。”
使用 chatGPT提出派对创意
提示:“用伴奏的和弦写一首关于在家工作的歌曲。”
让 chatgpt用和弦写音乐
人工智能现在这种发展和采用的节奏可以追溯到 2017 年当时谷歌发表的一篇开创性论文,《Attention Is All You Need》。这篇论文由 Cohere.ai 创始人 Aidan Gomez 与人合著,从中催生出一个规模呈指数级增长的“transformer”模型时代。
不到三年前的 GPT-3 推出时的参数规模为约 2000 亿,但新的 GPT-4 将有约 1,000,000,000,000(万亿)个参数。
来源:Erin Price-Wright
在提出新想法、理解上下文以及回忆信息的能力方面,每个新模型都实现了飞跃。但更大的模型的训练成本也高很多。训练有数千亿个参数的模型可能要花费数百万美元。出于这个原因,大规模模型正在成为初创公司创立的基础。
手写文字识别是最早的人工智能形式之一,邮政服务主要用它来读取信封上的地址。但是人工智能的这个用例非常特殊。在生成式人工智能方面,我们已经看到:1) 图像和语言模型有了巨大改进,以及 2)OpenAI、Hugging Face、Stability.ai 等公司提供的宝贵基础设施。这两个因素相结合拓宽了用例的可能性。
AI系统的语言与图像识别能力得到了迅速改进 资料来源:Our World in Data
我喜欢这个比喻。任何人都可以更轻松地开发出利用 AI 去画画的工具。变革每个行业的机会已经成熟。
如果极度简化的话,我们可以把用例分为两类:1)创意类,以及 2)生产力类。
说到创意,我们看到生成式人工智能降低了创作的门槛。利用 Midjourney,你可以给电影制作概念图。Latitude.ai 等公司开发出 AI Dungeon 等游戏,利用 GPT-3 进行 AI 驱动的探索。与此同时,Alpaca 所做的 Photoshop 插件演示在 Twitter 掀起了一股风暴;这家公司的使命是“将 AI 图像生成能力与人类技能结合到一起”。
这很了不起,而且至今依然适用:2020 年奥斯卡最佳影片《寄生虫》就是用 Final Cut Pro 剪辑的。工具正逐渐变得更实惠、更容易获得,让更多的创作涌现。
人工智能拓宽了可能性。想象一下由人工智能驱动的 Roblox Studio,或者当人工智能与 Figma 结合在一起时可以解锁什么。我制作这张图至今已过去两年多了:
YouTube 是革命性的,但却给创作制造了很高的门槛:1) 工具需要昂贵的投入,以及 2) 使用这些工具需要具备 know-how 知识。TikTok 这一类似无代码的方式降低了这些门槛,创造出一个公平的竞争环境。其结果是 YouTube 上大概每 1000 人才有 1 人创作内容,而接近 60% 的 TikTok 用户都会自己创作内容。
也许今年这张图可以用第三个框更新一下——一个超越无代码创作工具的更直观、强大的工具,并在创作内容的过程中利用生成式人工智能。用这个工具为 Instagram 制作照片、为 TikTok 制作视频或为全新社交网络创作内容。
就像人工智能增强了创意一样,人工智能也增强了生产力。我们在赋予作者和营销人员超能力的工具中就能看到这一点,比方说像 Jasper.ai、Copy.ai、Lex 这样的工具。我让 ChatGPT 帮我头脑风暴,给我的自媒体设计新标语,它的推荐令人印象深刻:
我们从 Gong 身上看到了生产力的提升,它运用了 AI 来帮助 B2B 销售团队提高效率和效力。我们在 Osmosis 身上也能看到这一点,它可以帮助广告代理商生成 AI 广告。我们在 GitHub Copilot 身上也能看到这一点,它可以将自然语言提示转化为数十种编程语言的编码推荐,而且从 2022 年 6 月开始,所有开发者均可用上这款插件。(在安装了 Copilot 的项目当中,约 40% 的代码是由它生成的,在五年之内这个比例可能会达到 80%。)
人工智能(尤其是建立在语言模型基础之上的人工智能)的早期目标是死记硬背的重复性任务。我认为有一个领域被重塑的时机已经成熟:那就是客户支持。这些是今天的人工智能已经可以取得重大进展的领域。更复杂的任务(比如 3D 游戏创作)在未来会有进一步的发展。但任何涉及人类创作的行业(基本上算是每个行业都要受到波及)都会感受到人工智能的影响。
我看到有人已经开始拿早期 AI 应用和早期 iPhone 应用做比较。还记得手电筒 app、lightsaber app、lighter app 吗?还记得《水果忍者》(Fruit Ninja)以及《劲乐团》(Tap Tap Revenge )吗?我们正处在 app 的早期阶段,现在判断什么样的应用是杀手级应用还为时过早。一个迫在眉睫的问题是企业如何才能建立起竞争性护城河;真正的技术差异化将变得很罕见,公司需要找到保持竞争优势的方法,也许是通过建立网络效应,也许是建立用户互动与产品改进的迭代循环。毕竟,事实证明,2008 年代的手电筒应用并没有多厚实的护城河。
现在的手电筒应用已经多如牛毛
软件即服务是个好东西。可预测的经常性收入。80% 以上的毛利率。理想情况下,净收入留存率(NDR) >100%,这意味着即便没有获得任何新客户,你的业务也会逐年稳步增长。(140% NDR 意味着在新客户为零的情况,你的收入仍同比增长 40% ) 。
我的直觉是,很多最好的人工智能初创企业将是 SaaS 公司。好东西为什么要改?
比方说,Runway 就是最令人兴奋的人工智能公司之一。Runway 提供了一个由 AI 驱动的创作套件,看过它的产品演示之后你会瞠目结舌的。
从演示视频可以看出,Runway 提供了文本生成视频功能,让你可以用魔法召唤出一条城市街道,然后快速做出更改(比方说,移除灯柱,或将视频设为黑白)。想象一下你在好莱坞从事特效工作——Runway 可以让你在几秒钟之内添加大爆炸效果,而如果没有 AI 的话,你得花费大量的时间和金钱来做特效。CBS 就是他们的客户之一,使用 Runway 之后,他们的晚间秀剪辑时间从 5 小时缩短到了 5 分钟。New Balance 是另一个客户,他们在 Runway 上用定制的生成模型来设计下一代运动鞋。
Runway 的定价对于任何 SaaS 爱好者来说都很熟悉:
我们还看到人工智能公司转向了其他我们熟悉的商业模式。Midjourney 依赖消费者订阅。去年 12 月,Lensa 开始风靡全球,其商业模式是免费增值 + 小额支付。
1/ Lensa的兴起可以作为消费者行为的一个有趣的案例研究:Lensa app其实早在 2018 就有了,但在推出四年之后的本周才升至应用商店的第一名。关键是Lensa 推出了AI 驱动的“魔法化身”功能。
当然了,Lensa 面临的挑战是防御能力;Lensa 的命脉建立在 Instagram、Twitter 和 TikTok 之上,它得弄清楚如何建立自己的护城河。(同样的问题对基于基础模型创立的 SaaS 公司也许同样适用,就像我们之前在 Jasper 与 ChatGPT 的关系中所看到的那样。)话虽如此,也许 Lensa 并不太关心护城河——据报道该公司在短短几周内就赚了 4000 到 5000 万美元,将来会出现许多能赚钱且对开发者很有意义的 AI 应用,它们无需(或可能也不希望)取得风投规模的成果。(编者注:小富即安)
PromptBase 这家富有创意的新公司采用的商业模式我们也很熟悉。PromptBase 是文本生成图像提示的交易市场——这可能是生成式人工智能的首批交易市场之一。想出正确的提示,从而制作出令人惊叹的 AI 艺术作品是非常困难的。最美的作品往往源自于详细的提示,而撰写提示本身就是一门手艺。以下是生成 Stable Diffusion 图像的示例提示:
一座具备遥远未来主义风格的城市,被笼罩在一个巨大的透明玻璃穹顶下,里面充斥着高楼大厦,位于一篇片只有大型沙丘的荒芜沙漠之中,有太阳的光线,Artstation,满天星的深空挂着一颗闪耀的太阳,大规模,有雾,非常写实,电影般的,彩色的。
PromptBase 上面交易的是类似这样冗长、高度具体的提示。到目前为止,该交易市场已有 11000 名用户。
一旦某项技术普遍改变了各种商品或服务的生产方式,就会被称为是“通用技术”。Our World In Data 的团队认为,人类有两种主要的通用技术:1)农业革命赋予我们大规模的粮食生产,让我们从狩猎和采集过渡到农业;2) 工业革命赋予了我们大规模制造的能力。我认为互联网的出现——也就是数字革命——将标志着第三次革命的出现。但我也同意他们的观点,Transformative AI 是下一个通用技术:
这是一个激动人心的时刻。炒得过火了?也许有一点。但这种炒作也会吸引到推动该领域发展的人才;从某些方面来说,炒作有自我实现的成分。
人工智能不会自己发展。我们需要弄清楚如何与人工智能共存,并利用它来增强人类的能力。学校正在努力弄清楚如何应付 ChatGPT,有很多学校选择禁止它的使用。但我同意沃顿商学院教授 Ethan Mollick 的观点,他认为,“大型语言模型在未来几年内不会停止发展。我们需要找到一种办法来适应这些工具,而不仅仅是取缔它们。”今天的孩子将生活在一个到处都是人工智能的世界里;他们需要了解如何去驾驭那个世界。
当然,还有一些重大的伦理问题需要解决——技术的飞跃往往会在影响深远与反乌托邦这两个极端之间徘徊。我们需要弄清楚的问题包括:
人工智能会成为净就业创造者还是净就业破坏者?我们如何对因人工智能而失业的员工进行再培训?
要弄清楚的事情还有很多。大规模的技术进步往往会引起大规模的社会不和与争执,甚至还会导致冲突,只要我们采取正确的保护措施即可。
我输入的提示:“生活在一个用人工智能建设的未来社会,赛博朋克风格,高分辨率”,Midjourney生成的结果
Midjourney对提示“想象力引擎”的诠释
生成式人工智能很快就会与其他成熟的技术发生冲突,比如 VR 和 AR。想象一下生成沉浸式三维虚拟世界的文本提示。这可能会在不久之后成为可能。技术发展往往非常迅速:在人的一生(63 年)之内,我们就从莱特兄弟首次实现飞行(1903 年)发展到了将人送上距离地球 384400 公里之遥的月球(1969 年)。而今天出生的人们,他们将目睹人工智能重塑人类生活、工作和社会的方方面面。
返回顶部