The future is here, it’s just not evenly distributed yet.这是“赛博朋克之父”威廉·吉布森的一句经典名言,也是亚马逊云科技全球产品副总裁Matt Wood对时下生成式AI技术的现状总结。
解锁生成式AI的4个必备姿势
(资料图)
在亚马逊云科技2023中国峰会上,Matt Wood博士表示,普通企业要想抓住这次机遇,全面解锁生成式AI的价值,需要做好四方面的准备:
一流的基础模型、安全且私有的定制化环境、低成本/低延迟的基础设施保障,以及能提速的专业开发工具。
首先,Matt Wood表示,要想缩小“分布不均匀”的差距,我们首要考虑的应该是那个能最大限度弥补鸿沟的方法。这就不得不搬出亚马逊云科技才发布不久的Amazon Bedrock平台了。
作为一个“基岩”平台,它支持来自AI21 Labs、Anthropic、Stability AI的基础模型,包括“ChatGPT最强竞品”Claude、能支持多种小语种的Jurassic-2、以及不用咱过多介绍的Stable Difussion等。
除此之外,它还包括两个亚马逊云科技独家自研的先进大语言模型Amazon Titan:一个叫Amazon Titan Text,专注于生成式NLP任务,另一个叫Amazon Titan Embeddings,用于搜索和个性化推荐等,可将文本输入翻译成包含语义的嵌入编码,从而让搜索结果更相关、更符合上下文语境。
在Amazon Bedrock平台之上,你可以获得最简单的使用这些模型的体验:只需通过API访问,不用操心任何基础设施,就能快速将它们用于你的应用开发;如果你想对这些基础模型进行定制改造,只需提供少量(低至20个)带标签的示例即可。
其次,非常重要的是安全且私有的定制环境。所谓定制化,就是用相对来说“数量少但质量精”的数据来将预训练好的基础模型转变成一个尤其擅长某类特定任务的“垂直”模型,也就是咱平常说的微调。
在Matt Wood看来,这个过程称得上“game-change”,因为相比直接开发特定任务模型,微调/定制新模型所需数据量更少,导致计算时间也减少,从而能够更快地完成构建。毋庸置疑,定制模型的关键是专有数据,它们基本都是客户宝贵的私有财产。因此,要完成这一过程,一个安全且私有、保证数据不会用于平台基础模型和其他客户训练的环境就尤为重要。
Amazon Bedrock从一开始就主打安全和隐私,以及面向更专业开发者的Amazon SageMaker JumpStart平台,也引入了如上这些先进基础模型,并同样提供安全的微调环境。
接着,当环境和平台都准确就绪,就可以提速开发,思考如何快一点、再快一点地完成目标。答案其实藏在同一处——同样利用生成式AI技术开发的代码AI助手,比如Amazon CodeWhisperer,将显著提升我们的开发速度。
它经过数十亿行代码训练,支持十余种常见编程语言和编程环境,同时:
具备上下文感知能力,不局限于当前文档提供代码建议;
内置安全扫描功能,可迅速检查代码是否存在漏洞并提供修复建议;
可以进行来源检查和标注,让你的每一行代码都有迹可循(尤其针对开源项目);
以及专门加了一个企业级控制功能,可设置公司内部的开发规范、方针等。
据统计,亚马逊内部的开发人员使用Amazon CodeWhisperer后,开发速度直接比以往快了57%,完成项目的成功率也提高了27%。
最后,代码开发完成以后,训练和推理的成本和性能就成了我们要考虑的头等大事。
在此,亚马逊云科技已专门针对大模型(包括LLM和扩散模型)开发了训练和推理芯片:Amazon Inferentia、Amazon Trainium和Amazon Inferentia2。单说其中的Amazon Inferentia芯片,依赖于它开发的Amazon EC2 Inf1实例,就能直接将模型每次的推理成本较普通GPU降低70%。有了它们,普通玩家也能轻松实现算力上的高性价比了。
看完这些,我们能够发现,亚马逊在基础模型构建、私有定制、开发效率和算力成本上的解决方案,实属早有准备(都是此前就已经发布的产品),在如今“尚未平均分布”的技术现状之下,直接就能打包成成熟方案,立刻惠及每一个人。
除了以上四部分,亚马逊云科技在最基础的数据方面同样能提供全面的支持。
如Matt Wood博士所说:数据是生成式Al的起源。如何充分挖掘其中的价值?这是一个从业者都绕不开的问题。在Matt Wood博士看来,我们需要的不仅仅是变革性的技术和基础设施,还包括一个端到端的数据战略,用三个关键词概括就是:全面、集成和治理。
对此,亚马逊云科技亦早有准备:
Amazon Aurora和Amazon RDS,可以提供全面和完整的关系数据库服务;
Amazon Athena和Amazon EMR等7项工具,可以包揽交互查询、大数据处理、仓储、一体化等你能想到的所有分析任务;
Amazon Aurora和Amazon Redshift,已打通连接无缝集成,进一步实现“零ETL”的愿景,减少用户在不同服务间手动迁移或转换数据的工作;
最后,还有全新产品Amazon DataZone,帮你实现透明的数据跨部门共享(现在已开启预览),数据治理的“度”如何拿捏,也不必操心了。