首页 > 新闻 > 正文

神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。

编者按:人工智能的炒作高峰期已过,但其实今年我们还是取得了不少突破的。比方说,GPT-3在自然语言处理的各种令人惊艳的用例,比方说AlphaFold!在蛋白质折叠挑战赛中首次胜出等。不过尽管AI已经逐渐渗透到各行各业,但AI要想实现盈利和规模化发展却面临“长尾效应”的难题。未来AI该何去何从?有哪些大想法?关键问题是什么?知名风投A16Z为我们盘点。原文发表在其官方博客上,标题是:Building AI Businesses

建设AI新经济

就像数据库在1980年代成为软件的核心部分一样,我们现在已进入“ AI / ML inside”(内置人工智能/机器学习)软件的新时代。那么,当内置了AI / ML的时候,商业模式又会变成什么样子?原先的经济原理(以及我们衡量现有软件业务的手段)是否还适用?

AI的新经济(以及它跟传统软件是如何的不同)

大想法:人工智能代表了一种全新的业务,一种利润率可能要比传统软件业务低的业务。有着长长的尾巴的边缘案例就更不用说了,这些都使得这些业务的扩展很具挑战性。用AI / ML开发软件的企业有着光明的前景,但成功的开始在于你得了解建设AI企业跟传统软件的区别(相应地,要管理好别人对它的期望)。

关键问题:基于数据模型的AI业务跟基于代码的软件在本质上是不是有所不同?还是说随着市场的成熟以及GTM(Go To Market,进入市场)的指导手册与工具的发展,人工智能业务最终会变得像软件业务一样?

驯服长尾:AI经济的改良

大想法:人工智能业务边缘案例存在长尾效应,这与解决问题的复杂性以及解决此问题所需的工作量直接相关。不过,有一些方法可以把长尾视为一阶问题并针对性地予以解决。在“AI新经济”的续篇里,我们采访了数十支领先的AI / ML团队,对AI业界“驯服长尾”来之不易的行业秘密进行了总结。其中的建议包括:选择合适的问题进行研究,缩短和优化全局性的长尾,并概括了解决局部长尾问题的新兴技术。

关键问题:解决长尾问题的经济性与云计算成本直接相关,不过云成本曲线会如何变化?这对我们应对人工智能业务边缘案例的长尾来说意味着什么?

遏制复杂性:AI / ML的未来

大想法:AI模型和数据易变且复杂——那更像是形而上学,而不是典型的数据管理或工程学。Anaconda联合创始人兼首席执行官Peter Wang认为:“无所谓“数据”之类的东西,只有被冻结的模型。” a16z的普通合伙人Martin Casado则观察到,或许那些具有物理学背景的人可以更好地理解驯服自然界的那些令人费解的挑战,并因此能“领会”AI / ML开发的独特挑战。但这可不仅仅只是哲学上的辩论!还会对AI / ML业务的利润、组织架构以及建设产生真正影响……尤其是我们目前正处于过渡的艰难时期,客户甚至连自己的要求是什么还不清楚,就想寻求AI / ML的帮助,因为他们知道AI就是未来。

关键问题:康威定律(编者注:Conway’s Law,指设计系统的架构受制于产生这些设计的组织的沟通结构。)如何适用于数据组织?现在价值主要在软件价值链的什么地方积累?

长尾问题以及自主市场

大想法:人工智能业务存在“长尾问题”,因为它们是在对现实世界的复杂性建模。再加上神经网络的本质使然,令问题变得更加复杂,神经网络是出色的内插器,但却是糟糕的外推器。其结果是,开发AI系统变成了协调大规模的、广泛的数据收集工作以便对边缘案例进行建模的问题。目前数据收集的方法是集中式的,自上而下的,并且是由技术巨头所主导的……如果数据收集变成自下而上,而不是自上而下会怎样?

关键问题:如果加密技术为去中心化的数据收集提供机会的话,这会如何给AI初创企业带来优势呢?

适用于运营性AI / ML的工具

随着AI / ML内置到更多的软件里面,对于软件运作而言,数据的作用会变得跟代码一样的重要。全定制的内部工作现在已经让位给一批企业级数据工具。这些工具会如何进行结合?又会如何演变呢?

随着AI成为传统编程的补充甚至取代后者,数据开发工具链也许就会像如今开发工具链一样崛起,这也许会成为企业界最被低估,也是最重要的趋势。——Ben Horowitz

运营性ML / AI的蓝图正在展开

大想法:鉴于可在生产中可靠运行运营性AI / ML的工具出现了爆炸式增长,高端数据科学正在为更多的玩家所用。企业运营所依赖的模型有的就是由这些系统运行的(比如,Lyft或Uber的打车定价机制)。开源库以及方法论也让这些工具包变得更加成熟,并降低了准入门槛。下图就是我们提供的一个用于AI / ML技术栈的模型架构——其中包括了从数据转换到模型训练、开发以及推理等内容。

关键问题:数据栈基于传统技术的既有者怎么才能适应?

AI和ML蓝图

数据体系结构的演变与关于数据的大辩论

大想法:数据本身并没有价值。需要有一套工具和系统来收集、处理、存储并提供所述数据。传统上,数据工具被划分在两个独立但并行的生态体系里面——数据湖处理AI / ML,而数据仓库则为分析和BI提供基础。不过,数据湖和数据仓库的技术能力正在融合,推动了新的数据基础设施设计模式的出现(比方说,数据“lakehouse(湖仓一体)”),使得单个集中的存储点即可处理传统的分析工作负载和以及运营性ML / AI。我们跟数据基础设施技术领先的创始人和开发者(dbt 、Fivetran 、Noteable 、Snowflake),以及跟Databricks一起探讨了数据体系结构的过去,现在和未来。

关键问题:做AI / ML和做分析的独立工具(和团队)是不是正在朝着大融合的方向发展?还是说仍将保持在不同的技术栈(和市场)上?

AI动态

超越炒作的GPT-3

发生了什么:2020年5月,一篇论文中宣布了GPT-3的推出,这是一种经过预训练的机器学习模型,这种模型经过优化后可执行各种自然语言处理任务。2020年7月,OpenAI (GPT-3背后的研发公司)允许对其API进行有限的非公开访问,其中就包括GPT-3以及其他模型背后的部分技术成就。不久之后,各种展示大型语言模型可能性例子和演示纷纷出现。2020年9月,OpenAI把GPT-3技术许可给了微软。

为什么重要:GPT-3让使用者避开了培训数据以及建立AI业务的部分(尽管不是全部)经济成本。这使得自然语言处理(NLP)成为AI研发最有前途的领域之一。a16z的合伙人Frank Chen认为,NLP遵循的是一种老生常谈的计算机科学方法:根本性的数据/算法突破推动创新的初创公司或产品的出现,但是这些突破需要几年的时间才能传播到各处,因为未来的分布是不均匀的。2017年时,我们目睹了第一批基于大规模语言数据集训练的Transformer模型;2020年,我们有了GPT-3。然后就是初创公司的出现,接着将是所有软件都内置了最新的NLP技术。

关键问题:GPT-3对初创企业、既有企业以及“AI即服务”的未来会产生什么影响?我们在通往通用人工智能的路上已经走到了什么位置?我们如何才能知道(如果没有图灵测试的话)?它对未来工作会带来哪些更广泛的问题?有哪些因素需要考虑?会产生何种影响?

人工智能的监管

发生了什么:美国白宫管理和预算办公室(OMB)以及科学技术政策办公室(OSTP)发布了一份备忘录草案,里面包含有10条广泛定义的有关“人工智能应用的管理”原则。该政策让美国的联邦机构用180天的时间来提交有关自己拟议中的法规将如何满足这些原则的解释。

为什么重要:虽然美国是人工智能领域的领导者,但其他国家(尤其是中国)也在对人工智能进行大力投资。

关键问题:人工智能会是新的创新太空竞赛吗?美国的政策领袖既希望提高这一技术的可信性,又不想手伸得过长。不过,“监管”人工智能到底意味着什么呢?

Nvidia + ARM的合并

发生了什么:英伟达宣布有意要收购ARM。Nvidia是GPU的制造商,这是ML最常用的那种计算;ARM则凭借着针对低能耗和低成本进行了优化的体系结构,让自己的足迹遍布了数十亿部设备。

为什么重要:这代表了过去十年计算领域三大技术趋势——云原生,移动优先和机器学习发展到了顶点

关键问题:如果价值不断朝着技术栈向上升,并且硬件、软件、固件、应用等之间的划分在很长一段时间内都不稳定的话,那么是谁在改变游戏规则?如果是整个棋盘都变了呢?

聚焦:AI在生物的应用

对于生物领域的某些最重要的开放性问题而言,人工智能具有广阔的应用前景。比方说,更好,更复杂的模型可以将不同的数据集结合到一起,用来改善药物发现和临床试验;从细胞的工作机制研究到全球疫情大流行趋势发展,新的机器学习技术具备改善预测、建模和仿真的潜力;AI / ML甚至最终可以帮助我们绘制神经逆向图并对其进行逆向工程,从而更好地了解阿尔茨海默氏病等疾病。那么,今年AI的重大研究突破是什么呢?其对生物和医疗保健的影响又如何?

在医疗保健领域解决鲍莫尔成本病问题

大想法:鲍莫尔成本病(Baumol’s Cost Disease)可以解释为什么依靠专门劳动力的服务(例如医疗保健和教育)会变得越来越昂贵,而袜子和电子产品等商品却变得更便宜。而跟软件已经渗透进去,通过将服务变成商品来降低成本的其他领域不一样,软件在医疗保健领域的进军速度很慢。

关键问题:人工智能能不能最终给我们节省大量成本,并让人类的医护人员可以专注于更高级的医疗服务?

16分钟:超越炒作的AlphaFold!蛋白质折叠

发生了什么:最近,Google DeepMind的AlphaFold系统在每两年举行一次的挑战赛中胜过了20个国家/地区的100多支团队,成功地仅靠氨基酸序列就预测出蛋白质的3-D结构。

为什么重要:蛋白质定义了所有的生物并为其提供动力,但是蛋白质可能存在的结构数量实在是太庞大了,并且这些结构实在是太难以发现了(无论是实验中还是在计算上),以至于这已成为生物学的一大挑战。这是深度学习系统战胜其他方法的元年,且其准确度已经可以与实验室的实验相媲美(甚至更快)。

关键问题:这是生物界AI的“ImageNet”(编者注:样本图像库,为AI的图像识别跃进奠定了基础)时刻吗?AlphaFold会不会像GPT-3或TensorFlow那样用到实践上?这对未来的药物发现和其他应用意味着什么?

a16z Journal Club:利用ML寻找新抗生素

发生了什么:一个深度神经网络在经过训练后被用来预测抗生素,在查看了十亿种化合物后,该AI在已知的抗生素中发现了具有独特结构的抗生素。

为什么重要:这项研究表明,通过扫描大量潜在的候选物,然后逐步升级最有前途的进行人工验证,人工智能可以真正有效地用于铅化合物的鉴定。通过降低发现成本,它为初创企业和学术实验室打开了以前可能成本过高的用例的大门。

关键问题:药物发现和研发还有哪些地方有可能运用深度学习神经网络与人工验证的结合的?

延伸阅读:

知名风投机构 A16Z:人工智能领域的新商业

知名风投机构:用“驯服长尾”的方式改良 AI 经济

译者:boxi。

猜你喜欢
文章评论已关闭!
picture loss