为什么你永远买不到3080?显卡价格暴涨的背后原因

看着电商平台上几万人抢一张显卡的壮观景象,一时间没忍住说了句脏话。万万没想到,未曾经历过考研考公的自己,竟然在一张显卡上体验了把千军万马过独木桥的刺激,当然结果必然是落榜了。

面对着屏幕里已经标灰的 3060Ti 显卡,我坐在电脑前不禁陷入了沉思,脑内回想起今年下半年发生的种种:

自九月份英伟达 30 系显卡公布以来,整个 2020 下半年就陷入了一场无尽的 耍猴怪圈 。3080 显卡一秒无货的情况在全球各大电商平台一齐上演,紧接着就是同样秒无的 PS5 主机。

在经历过 空气显卡 、 空气主机 之后,本以为 AMD 的 6000 系显卡会为这潭凝固的死水带来什么改变,结果没想到 AMD 同样耍猴。甚至如果英伟达的 30 系叫 空气显卡 ,AMD 的 6000 系都可以称得上是 氢离子显卡 了,根本连影儿都没有。

一时间气急败坏的情绪难免涌上心头。

是的,我急了。然而我相信会有同等感受的绝对不止我一人,这一时期几乎所有玩家都在关心同一个问题:为什么一张原价的显卡这么难求?

显卡究竟是如何到我们手上的?

为什么几乎买不到原价显卡? 向不同的人提出这个问题,可能会得到完全不一样的答案。

有人可能会说是: 由于渠道商为了清理手中 20 系库存,因此集体抬高 30 系显卡价格 也有人认为是: 大量黄牛与二道贩子用脚本抢购,并高价转卖导致一卡难求 当然还有人觉得是: 最近虚拟货币形势较好,导致新显卡全都流入了矿老板手中 。

这些回答正不正确?可以说全都有道理,但原因不止这些。

要想弄明白整个 2020 下半年是如何陷入这场 耍猴怪圈 的,首先要理清楚一个问题:一张新显卡经过了哪些程序才被送到消费者手上?

-首先要由英伟达、AMD 研发设计显示芯片;

-设计完成后,芯片会委托给台积电、三星等第三方来进行生产;

-随后生产好的芯片将卖给显卡成品的板卡代工商,例如我们熟知的华硕、技嘉等等;

-最后成品显卡将从总代理商到渠道经销商,再突破黄牛和矿老板的围堵,最终来到消费者手上。

根据历史经验,以上四个过程无论哪里出了问题,都有可能造成原价显卡变成虚空幻影的尴尬局面。然而好巧不巧,如今这整个流程几乎全部都出现了问题,2020 真是魔幻的一年。

提示:支持键盘“← →”键翻页

拼算力见实力,GTC2020飞桨携四大主题演讲助阵

在各类AI大会里,英伟达每年两次的GTC大会可谓颇有名头。这当然不仅仅是因为英伟达的GPU产品在AI产业有着举足轻重的地位,也是因为GTC大会连续多年带来的技术热点、行业洞见和指导培训,让开发者得到了切实的帮助。

而自去年苏州阔别一年后,NVIDIAGTC2020终于回到了我们的身边。此次GTC2020采用了线上直播的形式,而内容却不会因为形式的改变而有丝毫的改变。一样的精彩纷呈,一样的干货与技术并重,在去年便贡献了精彩内容的百度飞桨,今年带着四场演讲回来了。

D4A212EE01FF7DF7C3980756E96FE889C644866C_size611_w605_h258.png

飞桨以百度多年的深度学习技术研究和业务应用为基础,集深度学习核心框架、基础模型库、端到端开发套件、工具组件和服务平台于一体,是全面开源开放、技术领先、功能完备的产业级深度学习平台。去年GTC,飞桨(PaddlePaddle)秉持技术实践与理论知识并行的理念,为开发者带来了一场收获满满的技术公开课。

今年,飞桨在GTC2020上带来的四场演讲也是诚意十足,内容覆盖了飞桨推理引擎、大规模分布式训练、EasyDL零门槛高精度AI服务定制、机器学习开发环境BMLCodeLab等诸多内容。四场演讲将会在GTC2020轮番上阵,让我们来看一下吧!

演讲一、飞桨推理引擎性能优化

12月15日下午17:00的GTC2020《深度学习平台及应用》分论坛上,百度资深研发工程师商智洲将会为我们率先带来飞桨推理引擎性能优化的演讲。

此次演讲将介绍飞桨原生推理引擎PaddleInference,以及该引擎中针对GPU推理做的优化工作。飞桨推理引擎是飞桨模型推理部署的重要基础,已在百度内部各核心业务线和众多ToB交付的AI服务中经过充分验证。我们首先介绍飞桨推理引擎针对GPU推理所做的通用优化措施,如OP融合、显存复用、TensorRT集成、混合精度推理等;同时会以文心(ERNIE)模型的推理优化为例来说明针对特定模型的推理优化方法及效果。

此次演讲内容将会以深度学习推理技术的优化和部署为主,在活动进行的同时,飞桨讲师将会与参会者在线互动,为听众们答疑解惑。

演讲二、大规模分布式训练进展与应用

12月17日《云计算和消费者互联网》分论坛中,百度主任研发架构师董大祥,将为大家揭秘飞桨框架大规模分布式训练进展与应用的秘密。此次演讲主题将会围绕飞桨框架的大规模训练与应用展开,介绍大规模分布式训练的功能、性能、以及在产业中的实践。当前飞桨框架2.0RC版本已经release并邀请广大用户试用。

演讲三、用EasyDL零门槛定制高精度AI服务

12月15日《深度学习平台及应用》分论坛上,百度资深研发工程师胡鸣人,百度高级研发工程师刘杰,两位老师将会携手为大家讲述高精度AI服务的打造。

此次演讲将会从实际需求背景出发,介绍EasyDL产品和核心技术特性;介绍EasyDL效果优化的各项实现以及NVIDIAGPU与EasyDL的结合带来的优化;演讲最后还将解析基于GPU进行EasyDL模型部署和实操。

这一课程会更加注重内容的细粒度,基于深度学习技术用例和成功案例,为参会者从0开始讲解如何实现优化和部署,让每个人都有机会接触并掌握相关技术知识。

演讲四、面向机器学习的开发环境BMLCodeLab介绍

在12月15日的《GPU开发与工具》分论坛中,百度AI开发平台总架构师马如悦将会为开发者分享面向机器学习的开发环境BMLCodeLab介绍。

此次演讲将会围绕开发环境BMLCodeLab展开,帮助开发者实现零门槛机器学习开发。演讲的内容主要分为三个部分:

1.交互开发环境BMLCodeLab的背景和特色,并快速入安装和使用。BMLCodeLab基于JupyterLab改进优化,可灵活部署到开发者本地单机、IDC机器、云上托管资源等。在性能上做了高度优化,新增众多企业级特征,并在单机资源受限时无缝扩展到云上集群。

2.高性能数据科学引擎的原理,用于提升分析建模速度。利用GPU和CPU众核并行加速及混合计算、超大数据处理、高效数据存储等技术,让数据科学开发,既保持单机的简单易用,又媲美分布式系统的处理能力。内置高性能引擎的BMLCodeLab,性能比开源产品提升近十倍。

3.内置的易用开发插件,用于提升开发效率。基于开源Jupyterlab扩展机制,BMLCodeLab集成众多功能丰富、简单易用的开发工具。如:轻量级机器学习。应用开发小程序插件,通过简单Python代码,将分析训练成果发布成高性能应用;AI工作流程插件,管理工作流编排和跟踪实验,提升迭代效率。

以创新无止境为主题,今年的GTC2020将会在12月15~19日与开发者朋友们正式见面。百度飞桨已经备下了干货内容,就等与老友再次相见。如果你也对飞桨演讲的内容感兴趣,千万不要忘记点击阅读原文,报名参加哦!

关于飞桨

飞桨(PaddlePaddle)以百度多年的深度学习技术研究和业务应用为基础,是中国首个开源开放、技术领先、功能完备的产业级深度学习平台,包括飞桨开源平台和飞桨企业版。飞桨开源平台包含核心框架、基础模型库、端到端开发套件与工具组件,持续开源核心能力,为产业、学术、科研创新提供基础底座。飞桨企业版基于飞桨开源平台,针对企业级需求增强了相应特性,包含零门槛AI开发平台EasyDL和全功能AI开发平台BML。EasyDL主要面向中小企业,提供零门槛、预置丰富网络和模型、便捷高效的开发平台;BML是为大型企业提供的功能全面、可灵活定制和被深度集成的开发平台。

拼算力见实力,GTC2020飞桨携四大主题演讲助阵

在各类AI大会里,英伟达每年两次的GTC大会可谓颇有名头。这当然不仅仅是因为英伟达的GPU产品在AI产业有着举足轻重的地位,也是因为GTC大会连续多年带来的技术热点、行业洞见和指导培训,让开发者得到了切实的帮助。

而自去年苏州阔别一年后,NVIDIAGTC2020终于回到了我们的身边。此次GTC2020采用了线上直播的形式,而内容却不会因为形式的改变而有丝毫的改变。一样的精彩纷呈,一样的干货与技术并重,在去年便贡献了精彩内容的百度飞桨,今年带着四场演讲回来了。

D4A212EE01FF7DF7C3980756E96FE889C644866C_size611_w605_h258.png

飞桨以百度多年的深度学习技术研究和业务应用为基础,集深度学习核心框架、基础模型库、端到端开发套件、工具组件和服务平台于一体,是全面开源开放、技术领先、功能完备的产业级深度学习平台。去年GTC,飞桨(PaddlePaddle)秉持技术实践与理论知识并行的理念,为开发者带来了一场收获满满的技术公开课。

今年,飞桨在GTC2020上带来的四场演讲也是诚意十足,内容覆盖了飞桨推理引擎、大规模分布式训练、EasyDL零门槛高精度AI服务定制、机器学习开发环境BMLCodeLab等诸多内容。四场演讲将会在GTC2020轮番上阵,让我们来看一下吧!

演讲一、飞桨推理引擎性能优化

12月15日下午17:00的GTC2020《深度学习平台及应用》分论坛上,百度资深研发工程师商智洲将会为我们率先带来飞桨推理引擎性能优化的演讲。

此次演讲将介绍飞桨原生推理引擎PaddleInference,以及该引擎中针对GPU推理做的优化工作。飞桨推理引擎是飞桨模型推理部署的重要基础,已在百度内部各核心业务线和众多ToB交付的AI服务中经过充分验证。我们首先介绍飞桨推理引擎针对GPU推理所做的通用优化措施,如OP融合、显存复用、TensorRT集成、混合精度推理等;同时会以文心(ERNIE)模型的推理优化为例来说明针对特定模型的推理优化方法及效果。

此次演讲内容将会以深度学习推理技术的优化和部署为主,在活动进行的同时,飞桨讲师将会与参会者在线互动,为听众们答疑解惑。

演讲二、大规模分布式训练进展与应用

12月17日《云计算和消费者互联网》分论坛中,百度主任研发架构师董大祥,将为大家揭秘飞桨框架大规模分布式训练进展与应用的秘密。此次演讲主题将会围绕飞桨框架的大规模训练与应用展开,介绍大规模分布式训练的功能、性能、以及在产业中的实践。当前飞桨框架2.0RC版本已经release并邀请广大用户试用。

演讲三、用EasyDL零门槛定制高精度AI服务

12月15日《深度学习平台及应用》分论坛上,百度资深研发工程师胡鸣人,百度高级研发工程师刘杰,两位老师将会携手为大家讲述高精度AI服务的打造。

此次演讲将会从实际需求背景出发,介绍EasyDL产品和核心技术特性;介绍EasyDL效果优化的各项实现以及NVIDIAGPU与EasyDL的结合带来的优化;演讲最后还将解析基于GPU进行EasyDL模型部署和实操。

这一课程会更加注重内容的细粒度,基于深度学习技术用例和成功案例,为参会者从0开始讲解如何实现优化和部署,让每个人都有机会接触并掌握相关技术知识。

演讲四、面向机器学习的开发环境BMLCodeLab介绍

在12月15日的《GPU开发与工具》分论坛中,百度AI开发平台总架构师马如悦将会为开发者分享面向机器学习的开发环境BMLCodeLab介绍。

此次演讲将会围绕开发环境BMLCodeLab展开,帮助开发者实现零门槛机器学习开发。演讲的内容主要分为三个部分:

1.交互开发环境BMLCodeLab的背景和特色,并快速入安装和使用。BMLCodeLab基于JupyterLab改进优化,可灵活部署到开发者本地单机、IDC机器、云上托管资源等。在性能上做了高度优化,新增众多企业级特征,并在单机资源受限时无缝扩展到云上集群。

2.高性能数据科学引擎的原理,用于提升分析建模速度。利用GPU和CPU众核并行加速及混合计算、超大数据处理、高效数据存储等技术,让数据科学开发,既保持单机的简单易用,又媲美分布式系统的处理能力。内置高性能引擎的BMLCodeLab,性能比开源产品提升近十倍。

3.内置的易用开发插件,用于提升开发效率。基于开源Jupyterlab扩展机制,BMLCodeLab集成众多功能丰富、简单易用的开发工具。如:轻量级机器学习。应用开发小程序插件,通过简单Python代码,将分析训练成果发布成高性能应用;AI工作流程插件,管理工作流编排和跟踪实验,提升迭代效率。

以创新无止境为主题,今年的GTC2020将会在12月15~19日与开发者朋友们正式见面。百度飞桨已经备下了干货内容,就等与老友再次相见。如果你也对飞桨演讲的内容感兴趣,千万不要忘记点击阅读原文,报名参加哦!

关于飞桨

飞桨(PaddlePaddle)以百度多年的深度学习技术研究和业务应用为基础,是中国首个开源开放、技术领先、功能完备的产业级深度学习平台,包括飞桨开源平台和飞桨企业版。飞桨开源平台包含核心框架、基础模型库、端到端开发套件与工具组件,持续开源核心能力,为产业、学术、科研创新提供基础底座。飞桨企业版基于飞桨开源平台,针对企业级需求增强了相应特性,包含零门槛AI开发平台EasyDL和全功能AI开发平台BML。EasyDL主要面向中小企业,提供零门槛、预置丰富网络和模型、便捷高效的开发平台;BML是为大型企业提供的功能全面、可灵活定制和被深度集成的开发平台。

拼算力见实力,GTC2020飞桨携四大主题演讲助阵

在各类AI大会里,英伟达每年两次的GTC大会可谓颇有名头。这当然不仅仅是因为英伟达的GPU产品在AI产业有着举足轻重的地位,也是因为GTC大会连续多年带来的技术热点、行业洞见和指导培训,让开发者得到了切实的帮助。

而自去年苏州阔别一年后,NVIDIAGTC2020终于回到了我们的身边。此次GTC2020采用了线上直播的形式,而内容却不会因为形式的改变而有丝毫的改变。一样的精彩纷呈,一样的干货与技术并重,在去年便贡献了精彩内容的百度飞桨,今年带着四场演讲回来了。

D4A212EE01FF7DF7C3980756E96FE889C644866C_size611_w605_h258.png

飞桨以百度多年的深度学习技术研究和业务应用为基础,集深度学习核心框架、基础模型库、端到端开发套件、工具组件和服务平台于一体,是全面开源开放、技术领先、功能完备的产业级深度学习平台。去年GTC,飞桨(PaddlePaddle)秉持技术实践与理论知识并行的理念,为开发者带来了一场收获满满的技术公开课。

今年,飞桨在GTC2020上带来的四场演讲也是诚意十足,内容覆盖了飞桨推理引擎、大规模分布式训练、EasyDL零门槛高精度AI服务定制、机器学习开发环境BMLCodeLab等诸多内容。四场演讲将会在GTC2020轮番上阵,让我们来看一下吧!

演讲一、飞桨推理引擎性能优化

12月15日下午17:00的GTC2020《深度学习平台及应用》分论坛上,百度资深研发工程师商智洲将会为我们率先带来飞桨推理引擎性能优化的演讲。

此次演讲将介绍飞桨原生推理引擎PaddleInference,以及该引擎中针对GPU推理做的优化工作。飞桨推理引擎是飞桨模型推理部署的重要基础,已在百度内部各核心业务线和众多ToB交付的AI服务中经过充分验证。我们首先介绍飞桨推理引擎针对GPU推理所做的通用优化措施,如OP融合、显存复用、TensorRT集成、混合精度推理等;同时会以文心(ERNIE)模型的推理优化为例来说明针对特定模型的推理优化方法及效果。

此次演讲内容将会以深度学习推理技术的优化和部署为主,在活动进行的同时,飞桨讲师将会与参会者在线互动,为听众们答疑解惑。

演讲二、大规模分布式训练进展与应用

12月17日《云计算和消费者互联网》分论坛中,百度主任研发架构师董大祥,将为大家揭秘飞桨框架大规模分布式训练进展与应用的秘密。此次演讲主题将会围绕飞桨框架的大规模训练与应用展开,介绍大规模分布式训练的功能、性能、以及在产业中的实践。当前飞桨框架2.0RC版本已经release并邀请广大用户试用。

演讲三、用EasyDL零门槛定制高精度AI服务

12月15日《深度学习平台及应用》分论坛上,百度资深研发工程师胡鸣人,百度高级研发工程师刘杰,两位老师将会携手为大家讲述高精度AI服务的打造。

此次演讲将会从实际需求背景出发,介绍EasyDL产品和核心技术特性;介绍EasyDL效果优化的各项实现以及NVIDIAGPU与EasyDL的结合带来的优化;演讲最后还将解析基于GPU进行EasyDL模型部署和实操。

这一课程会更加注重内容的细粒度,基于深度学习技术用例和成功案例,为参会者从0开始讲解如何实现优化和部署,让每个人都有机会接触并掌握相关技术知识。

演讲四、面向机器学习的开发环境BMLCodeLab介绍

在12月15日的《GPU开发与工具》分论坛中,百度AI开发平台总架构师马如悦将会为开发者分享面向机器学习的开发环境BMLCodeLab介绍。

此次演讲将会围绕开发环境BMLCodeLab展开,帮助开发者实现零门槛机器学习开发。演讲的内容主要分为三个部分:

1.交互开发环境BMLCodeLab的背景和特色,并快速入安装和使用。BMLCodeLab基于JupyterLab改进优化,可灵活部署到开发者本地单机、IDC机器、云上托管资源等。在性能上做了高度优化,新增众多企业级特征,并在单机资源受限时无缝扩展到云上集群。

2.高性能数据科学引擎的原理,用于提升分析建模速度。利用GPU和CPU众核并行加速及混合计算、超大数据处理、高效数据存储等技术,让数据科学开发,既保持单机的简单易用,又媲美分布式系统的处理能力。内置高性能引擎的BMLCodeLab,性能比开源产品提升近十倍。

3.内置的易用开发插件,用于提升开发效率。基于开源Jupyterlab扩展机制,BMLCodeLab集成众多功能丰富、简单易用的开发工具。如:轻量级机器学习。应用开发小程序插件,通过简单Python代码,将分析训练成果发布成高性能应用;AI工作流程插件,管理工作流编排和跟踪实验,提升迭代效率。

以创新无止境为主题,今年的GTC2020将会在12月15~19日与开发者朋友们正式见面。百度飞桨已经备下了干货内容,就等与老友再次相见。如果你也对飞桨演讲的内容感兴趣,千万不要忘记点击阅读原文,报名参加哦!

关于飞桨

飞桨(PaddlePaddle)以百度多年的深度学习技术研究和业务应用为基础,是中国首个开源开放、技术领先、功能完备的产业级深度学习平台,包括飞桨开源平台和飞桨企业版。飞桨开源平台包含核心框架、基础模型库、端到端开发套件与工具组件,持续开源核心能力,为产业、学术、科研创新提供基础底座。飞桨企业版基于飞桨开源平台,针对企业级需求增强了相应特性,包含零门槛AI开发平台EasyDL和全功能AI开发平台BML。EasyDL主要面向中小企业,提供零门槛、预置丰富网络和模型、便捷高效的开发平台;BML是为大型企业提供的功能全面、可灵活定制和被深度集成的开发平台。

拼算力见实力,GTC2020飞桨携四大主题演讲助阵

在各类AI大会里,英伟达每年两次的GTC大会可谓颇有名头。这当然不仅仅是因为英伟达的GPU产品在AI产业有着举足轻重的地位,也是因为GTC大会连续多年带来的技术热点、行业洞见和指导培训,让开发者得到了切实的帮助。

而自去年苏州阔别一年后,NVIDIAGTC2020终于回到了我们的身边。此次GTC2020采用了线上直播的形式,而内容却不会因为形式的改变而有丝毫的改变。一样的精彩纷呈,一样的干货与技术并重,在去年便贡献了精彩内容的百度飞桨,今年带着四场演讲回来了。

D4A212EE01FF7DF7C3980756E96FE889C644866C_size611_w605_h258.png

飞桨以百度多年的深度学习技术研究和业务应用为基础,集深度学习核心框架、基础模型库、端到端开发套件、工具组件和服务平台于一体,是全面开源开放、技术领先、功能完备的产业级深度学习平台。去年GTC,飞桨(PaddlePaddle)秉持技术实践与理论知识并行的理念,为开发者带来了一场收获满满的技术公开课。

今年,飞桨在GTC2020上带来的四场演讲也是诚意十足,内容覆盖了飞桨推理引擎、大规模分布式训练、EasyDL零门槛高精度AI服务定制、机器学习开发环境BMLCodeLab等诸多内容。四场演讲将会在GTC2020轮番上阵,让我们来看一下吧!

演讲一、飞桨推理引擎性能优化

12月15日下午17:00的GTC2020《深度学习平台及应用》分论坛上,百度资深研发工程师商智洲将会为我们率先带来飞桨推理引擎性能优化的演讲。

此次演讲将介绍飞桨原生推理引擎PaddleInference,以及该引擎中针对GPU推理做的优化工作。飞桨推理引擎是飞桨模型推理部署的重要基础,已在百度内部各核心业务线和众多ToB交付的AI服务中经过充分验证。我们首先介绍飞桨推理引擎针对GPU推理所做的通用优化措施,如OP融合、显存复用、TensorRT集成、混合精度推理等;同时会以文心(ERNIE)模型的推理优化为例来说明针对特定模型的推理优化方法及效果。

此次演讲内容将会以深度学习推理技术的优化和部署为主,在活动进行的同时,飞桨讲师将会与参会者在线互动,为听众们答疑解惑。

演讲二、大规模分布式训练进展与应用

12月17日《云计算和消费者互联网》分论坛中,百度主任研发架构师董大祥,将为大家揭秘飞桨框架大规模分布式训练进展与应用的秘密。此次演讲主题将会围绕飞桨框架的大规模训练与应用展开,介绍大规模分布式训练的功能、性能、以及在产业中的实践。当前飞桨框架2.0RC版本已经release并邀请广大用户试用。

演讲三、用EasyDL零门槛定制高精度AI服务

12月15日《深度学习平台及应用》分论坛上,百度资深研发工程师胡鸣人,百度高级研发工程师刘杰,两位老师将会携手为大家讲述高精度AI服务的打造。

此次演讲将会从实际需求背景出发,介绍EasyDL产品和核心技术特性;介绍EasyDL效果优化的各项实现以及NVIDIAGPU与EasyDL的结合带来的优化;演讲最后还将解析基于GPU进行EasyDL模型部署和实操。

这一课程会更加注重内容的细粒度,基于深度学习技术用例和成功案例,为参会者从0开始讲解如何实现优化和部署,让每个人都有机会接触并掌握相关技术知识。

演讲四、面向机器学习的开发环境BMLCodeLab介绍

在12月15日的《GPU开发与工具》分论坛中,百度AI开发平台总架构师马如悦将会为开发者分享面向机器学习的开发环境BMLCodeLab介绍。

此次演讲将会围绕开发环境BMLCodeLab展开,帮助开发者实现零门槛机器学习开发。演讲的内容主要分为三个部分:

1.交互开发环境BMLCodeLab的背景和特色,并快速入安装和使用。BMLCodeLab基于JupyterLab改进优化,可灵活部署到开发者本地单机、IDC机器、云上托管资源等。在性能上做了高度优化,新增众多企业级特征,并在单机资源受限时无缝扩展到云上集群。

2.高性能数据科学引擎的原理,用于提升分析建模速度。利用GPU和CPU众核并行加速及混合计算、超大数据处理、高效数据存储等技术,让数据科学开发,既保持单机的简单易用,又媲美分布式系统的处理能力。内置高性能引擎的BMLCodeLab,性能比开源产品提升近十倍。

3.内置的易用开发插件,用于提升开发效率。基于开源Jupyterlab扩展机制,BMLCodeLab集成众多功能丰富、简单易用的开发工具。如:轻量级机器学习。应用开发小程序插件,通过简单Python代码,将分析训练成果发布成高性能应用;AI工作流程插件,管理工作流编排和跟踪实验,提升迭代效率。

以创新无止境为主题,今年的GTC2020将会在12月15~19日与开发者朋友们正式见面。百度飞桨已经备下了干货内容,就等与老友再次相见。如果你也对飞桨演讲的内容感兴趣,千万不要忘记点击阅读原文,报名参加哦!

关于飞桨

飞桨(PaddlePaddle)以百度多年的深度学习技术研究和业务应用为基础,是中国首个开源开放、技术领先、功能完备的产业级深度学习平台,包括飞桨开源平台和飞桨企业版。飞桨开源平台包含核心框架、基础模型库、端到端开发套件与工具组件,持续开源核心能力,为产业、学术、科研创新提供基础底座。飞桨企业版基于飞桨开源平台,针对企业级需求增强了相应特性,包含零门槛AI开发平台EasyDL和全功能AI开发平台BML。EasyDL主要面向中小企业,提供零门槛、预置丰富网络和模型、便捷高效的开发平台;BML是为大型企业提供的功能全面、可灵活定制和被深度集成的开发平台。

“逃离”英伟达_详细解读_最新资讯_热点事件

编者按:本文来自微信公众号“半导体行业观察”(ID:icbank),作者:邱丽婷,36氪经授权发布。

继11月亚马逊将 Alexa 语音助手的部分计算任务转移到自主设计的定制设计芯片Inferentia 后,近日,其再次宣布推出了全新的AI训练芯片AWS Trainium,据消息称,这是该公司用于训练机器学习模型的下一代定制芯片。

这意味着亚马逊将减少对英伟达芯片的依赖。

称霸AI芯片领域

近年来,AI热度不断攀升,AI相关应用也在急剧增长,这引发了市场对超大型数据中心的强劲需求。另一方面,AI处理任务的持续增长,又会倒逼服务器的配置要得到持续的升级。为了满足深度学习训练任务,硬件的复杂程度不断提升,处理器性能也被提出了更高的要求。

目前在AI领域主要有GPU、FPGA 和ASIC三种技术路线。其中GPU在AI训练方面已经发展到较为成熟的阶段。而在GPU芯片领域,英伟达是龙头老大。如今,全球估计有3000家AI创业公司,其中一半以上都是在英伟达的平台上构建的。

回看英伟达的发展史,其成立于1993年,这一年,全球有超过二十家的图形芯片公司,到1997年,这个数字猛增至70家。

1999年,英伟达发明了GPU,为了让GPU从软硬件都走向通用,其又在2006年推出了Tesla架构,一改之前使用矢量计算单元做渲染的做法,而是把一个矢量计算单元拆成了多个标量计算渲染单元。这就使得基于这个架构的GPU除了渲染能力强以外,还适合做通用计算。

也就是在这一年,英伟达推出了CUDA。按照他们的说法,这是一种用于通用GPU计算的革命性架构。CUDA将使科学家和研究人员能够利用GPU的并行处理能力来应对其最复杂的计算挑战。

正是得益于这两个方向的布局,英伟达在AI时代如鱼得水。自2016年起,英伟达数据中心业务开始爆发式增长。同比增长率连续七个季度(2QFY17-4QFY18)超100%。

英伟达数据中心业务单季收入及同比增长率 资料来源:英伟达公司官网

与此同时,英伟达GPU在全球主要云厂商中也获得了极大的认可。根据Liftr调查显示,在阿里云、AWS、微软Azure以及Google Clound中,Tesla系列GPU的市场占有率比AMD、赛灵思以及以英特尔大幅领先。充分说明英伟达Tesla系列GPU在通用计算市场的强大竞争力。

逃离英伟达

当然,英伟达的AI芯片王座也不是那么好坐的。

诚如前文所言,一些厂商已经开始自研芯片,除了亚马逊之外,谷歌早在几年前就推出了自称性能可达同等级GPU产品15~30倍的AI专有芯片TPU;华为在去年8月推出“算力最强”的AI(人工智能)处理器Ascend 910(昇腾910)等。

不过他们自研的大多是推理芯片,意图在专用性能上打败英伟达GPU,以摆脱英伟达在训练芯片的垄断。

资料显示,由于神经网络模型在训练阶段需要处理大量数据,同时也要完成不同的学习任务,因此目前通用属性的GPU具备的大量平行运算单元,能够充分满足“训练”对运算的效率与通用性要求。但进入执行阶段,也就是“推理阶段”,一个算法模型可以根据一堆量级不大的新数据得出结论。

这时候采用GPU就显得有些“大材小用”。这就是这些厂商为何研发定制推理芯片重要原因之一,对于大量推理工作,通用性或许不足,但专用肯定绰绰有余。

不仅如此,这些厂商的自研芯片在它所擅长的任务上,可能具备在效能与算力上大幅领先 GPU 的能力。对比发现,谷歌TPU和特斯拉FSD都能轻易做到相较GPU,性能和效率都高出一截的表现,即便这是以牺牲可编程性为代价。

当然,也有一些业界人士对这些自研芯片存有疑虑。因为他们认为,无论是自己做,还是部署其他公司的商用芯片,难度其实不相上下。

但不管怎么说,这些自研芯片的厂商确实对英伟达造成了一定的威胁,并且声势愈发浩大。

挑战英伟达

与此同时,国外还存在Graphcore、Intel和AMD这些厂商,他们则希望从通用角度去挑战英伟达。

首先是Graphcore,其创始人兼CEO Nigel Toon曾在一次访谈中指出:“如果只是要做基本的前馈卷积神经网路(feed-forward convolutional neural networks),GPU是很不错的解决方案,但随着网路变得越来越复杂,人们需要全新的解决方案──这也是为何他们要用ASIC和FPGA。我们接触过的所有创新者都说,GPU正在阻碍他们创新。如果仔细看他们正在研究的模型类型,你会发现主要是卷积神经网络(CNN),而递归神经网络(RNN)和其他类型结构,比如强化学习,并不能很好地映射到GPU。他们需要足够好的硬件平台,这是我们将IPU推向市场的原因。”

按照Graphcore给出的解释,其IPU芯片可以进行推论或训练,从架构的角度来看,这非常重要,因为随着机器学习演进,系统将能够从经验中学习。推论性能表现的关键包括低延迟、能使用小模型、小批次(small batches),以及可能会尝试导入稀疏性(sparsity)的训练模型;IPU可以有效地完成所有这些事情。

与市面上领先的GPU方案相比,如果是执行用以分类静态影像的前馈卷积神经网路,GPU的表现已经相当好,但IPU可以提供两到三倍的性能优势、有时甚至是五倍。对于更复杂的模型,例如有资料来回传递以尝试理解情境(例如对话)的模型;由于资料被传递多次,需要非常快。对于这样的应用,因为所有的模型都保存在处理器中,IPU可以比GPU快很多,甚至可能快十倍、二十倍或者五十倍。

所以在Graphcore眼中,IPU是自CPU、GPU之后的第三大类主流处理器。“通用”在这个路径中是个必选项,而毫无犹豫的必要。

同时,英伟达还面临着老对手–AMD以及英特尔的挑衅。

早在英伟达进军GPGPU的前后,AMD也有与之对应的计划,AMD选择推行“OpenCL”,这导致即使他们在2017年发布了ROCm平台来提供深度学习支持,但也改变不了他们GPU在AI时代几无所获的结局。

于是,今年三月份,AMD又推出了新的CDNA架构。基于这个架构,AMD在本月中发布了新一代的Instinct MI100计算卡。数据显示,新的架构可提供高达11.5 TFLOPS的FP64峰值吞吐量,这使其成为第一个在FP64中突破10 TFLOPS的GPU。与上一代MI50相比,新加速卡的性能提高了3倍。它还在FP32工作负载中拥有23.1 TFLOPS的峰值吞吐量。数据显示,AMD的新加速卡在这两个类别中都击败了Nvidia的A100 GPU。

为了更好地与英伟达竞争,AMD还表示,其开源ROCm 4.0开发人员软件现在具有开源编译器,并统一支持OpenMP 5.0,HIP,PyTorch和Tensorflow。

AMD在GPU领域花的心思并不少,今年10月份,AMD还宣布将以350亿美元价位收购赛灵思,合并后的公司将拥有AMD CPU + AMD GPU + Xilinx FPGA + Xilinx SmartNIC。当然除了硬件外,AMD的Radeon Open Compute (ROCm)混合CPU-GPU开发环境,再加上赛灵思Vitis,足以对抗英伟达颇受欢迎的CUDA开发平台,以及英特尔力推的oneAPI。

英特尔同样是AI芯片领域的活跃者,据介绍,英特尔的Xe架构GPU将覆盖从集成显卡到高性能计算的所有范围。其中代号为Ponte Vecchio的独立GPU则是公司面对HPC建模和仿真以及AI训练而推出的设计。Ponte Vecchio将采用英特尔的7纳米技术制造,并将成为英特尔首款针对HPC和Ai工作负载进行了优化的基于Xe的GPU。但直到目前为止,尚未看到Intel的这款新品。

近日,IFTD2020上,Intel还发布了首款用于5G、人工智能、云端与边缘的eASIC N5X(结构化ASIC),同时发布了最新的Intel开放式FPGA堆栈(Intel OFS),这款产品继承了Agilex FPGA的硬核处理器系统、安全特性,支持Agilex FPGA用于管理启动、身份验证和防篡改特性的安全设备管理器,采用了Diamond Mesa SoC技术。

此外,为了更好地在包括AI在内的应用市场中发挥其包括CPU、GPU、FPGA和AISC在内的芯片的为例,方便开发者编程,Intel还推出了拥有远达理想的OneAPI。整个行业内,英特尔是目前在异构计算上拥有最全产品线的, 在硬件上拥有CPU、独立GPU、FPGA、eASIC、ASIC、VPU、内存和存储等,在软件上拥有统一开发平台oneAPI。

因此,在未来的AI芯片市场上,我们很难去辨别到底谁会笑到最后,但很明显的是,这些厂商将在各自的领域发力,逼迫英伟达吐出吞下的巨大市场。

总结

总的来说,无论是专用还是通用方面,英伟达都面临着来自各个厂商的压力。尤其是对于云厂商而言,在巨大利润漩涡下,谁也不能逃脱,自研芯片成为了必然选择。

当然,就目前的AI芯片市场而言,英伟达仍然可以在一段时间内把控大部分份额,毕竟包括英特尔在内,大多数声势响亮的AI芯片公司才刚刚出货,或正在努力出货的路上(有些还没等到出货就夭折了),这给了英伟达升级产品充裕的时间。

更重要的是,对于GPU而言,软件和开发者生态才是硬道理。只有做好了这个,才是GPU能够商用的前提。

逃离英伟达成为常态,超越英伟达却并不容易。

“逃离”英伟达_详细解读_最新资讯_热点事件

编者按:本文来自微信公众号“半导体行业观察”(ID:icbank),作者:邱丽婷,36氪经授权发布。

继11月亚马逊将 Alexa 语音助手的部分计算任务转移到自主设计的定制设计芯片Inferentia 后,近日,其再次宣布推出了全新的AI训练芯片AWS Trainium,据消息称,这是该公司用于训练机器学习模型的下一代定制芯片。

这意味着亚马逊将减少对英伟达芯片的依赖。

称霸AI芯片领域

近年来,AI热度不断攀升,AI相关应用也在急剧增长,这引发了市场对超大型数据中心的强劲需求。另一方面,AI处理任务的持续增长,又会倒逼服务器的配置要得到持续的升级。为了满足深度学习训练任务,硬件的复杂程度不断提升,处理器性能也被提出了更高的要求。

目前在AI领域主要有GPU、FPGA 和ASIC三种技术路线。其中GPU在AI训练方面已经发展到较为成熟的阶段。而在GPU芯片领域,英伟达是龙头老大。如今,全球估计有3000家AI创业公司,其中一半以上都是在英伟达的平台上构建的。

回看英伟达的发展史,其成立于1993年,这一年,全球有超过二十家的图形芯片公司,到1997年,这个数字猛增至70家。

1999年,英伟达发明了GPU,为了让GPU从软硬件都走向通用,其又在2006年推出了Tesla架构,一改之前使用矢量计算单元做渲染的做法,而是把一个矢量计算单元拆成了多个标量计算渲染单元。这就使得基于这个架构的GPU除了渲染能力强以外,还适合做通用计算。

也就是在这一年,英伟达推出了CUDA。按照他们的说法,这是一种用于通用GPU计算的革命性架构。CUDA将使科学家和研究人员能够利用GPU的并行处理能力来应对其最复杂的计算挑战。

正是得益于这两个方向的布局,英伟达在AI时代如鱼得水。自2016年起,英伟达数据中心业务开始爆发式增长。同比增长率连续七个季度(2QFY17-4QFY18)超100%。

英伟达数据中心业务单季收入及同比增长率 资料来源:英伟达公司官网

与此同时,英伟达GPU在全球主要云厂商中也获得了极大的认可。根据Liftr调查显示,在阿里云、AWS、微软Azure以及Google Clound中,Tesla系列GPU的市场占有率比AMD、赛灵思以及以英特尔大幅领先。充分说明英伟达Tesla系列GPU在通用计算市场的强大竞争力。

逃离英伟达

当然,英伟达的AI芯片王座也不是那么好坐的。

诚如前文所言,一些厂商已经开始自研芯片,除了亚马逊之外,谷歌早在几年前就推出了自称性能可达同等级GPU产品15~30倍的AI专有芯片TPU;华为在去年8月推出“算力最强”的AI(人工智能)处理器Ascend 910(昇腾910)等。

不过他们自研的大多是推理芯片,意图在专用性能上打败英伟达GPU,以摆脱英伟达在训练芯片的垄断。

资料显示,由于神经网络模型在训练阶段需要处理大量数据,同时也要完成不同的学习任务,因此目前通用属性的GPU具备的大量平行运算单元,能够充分满足“训练”对运算的效率与通用性要求。但进入执行阶段,也就是“推理阶段”,一个算法模型可以根据一堆量级不大的新数据得出结论。

这时候采用GPU就显得有些“大材小用”。这就是这些厂商为何研发定制推理芯片重要原因之一,对于大量推理工作,通用性或许不足,但专用肯定绰绰有余。

不仅如此,这些厂商的自研芯片在它所擅长的任务上,可能具备在效能与算力上大幅领先 GPU 的能力。对比发现,谷歌TPU和特斯拉FSD都能轻易做到相较GPU,性能和效率都高出一截的表现,即便这是以牺牲可编程性为代价。

当然,也有一些业界人士对这些自研芯片存有疑虑。因为他们认为,无论是自己做,还是部署其他公司的商用芯片,难度其实不相上下。

但不管怎么说,这些自研芯片的厂商确实对英伟达造成了一定的威胁,并且声势愈发浩大。

挑战英伟达

与此同时,国外还存在Graphcore、Intel和AMD这些厂商,他们则希望从通用角度去挑战英伟达。

首先是Graphcore,其创始人兼CEO Nigel Toon曾在一次访谈中指出:“如果只是要做基本的前馈卷积神经网路(feed-forward convolutional neural networks),GPU是很不错的解决方案,但随着网路变得越来越复杂,人们需要全新的解决方案──这也是为何他们要用ASIC和FPGA。我们接触过的所有创新者都说,GPU正在阻碍他们创新。如果仔细看他们正在研究的模型类型,你会发现主要是卷积神经网络(CNN),而递归神经网络(RNN)和其他类型结构,比如强化学习,并不能很好地映射到GPU。他们需要足够好的硬件平台,这是我们将IPU推向市场的原因。”

按照Graphcore给出的解释,其IPU芯片可以进行推论或训练,从架构的角度来看,这非常重要,因为随着机器学习演进,系统将能够从经验中学习。推论性能表现的关键包括低延迟、能使用小模型、小批次(small batches),以及可能会尝试导入稀疏性(sparsity)的训练模型;IPU可以有效地完成所有这些事情。

与市面上领先的GPU方案相比,如果是执行用以分类静态影像的前馈卷积神经网路,GPU的表现已经相当好,但IPU可以提供两到三倍的性能优势、有时甚至是五倍。对于更复杂的模型,例如有资料来回传递以尝试理解情境(例如对话)的模型;由于资料被传递多次,需要非常快。对于这样的应用,因为所有的模型都保存在处理器中,IPU可以比GPU快很多,甚至可能快十倍、二十倍或者五十倍。

所以在Graphcore眼中,IPU是自CPU、GPU之后的第三大类主流处理器。“通用”在这个路径中是个必选项,而毫无犹豫的必要。

同时,英伟达还面临着老对手–AMD以及英特尔的挑衅。

早在英伟达进军GPGPU的前后,AMD也有与之对应的计划,AMD选择推行“OpenCL”,这导致即使他们在2017年发布了ROCm平台来提供深度学习支持,但也改变不了他们GPU在AI时代几无所获的结局。

于是,今年三月份,AMD又推出了新的CDNA架构。基于这个架构,AMD在本月中发布了新一代的Instinct MI100计算卡。数据显示,新的架构可提供高达11.5 TFLOPS的FP64峰值吞吐量,这使其成为第一个在FP64中突破10 TFLOPS的GPU。与上一代MI50相比,新加速卡的性能提高了3倍。它还在FP32工作负载中拥有23.1 TFLOPS的峰值吞吐量。数据显示,AMD的新加速卡在这两个类别中都击败了Nvidia的A100 GPU。

为了更好地与英伟达竞争,AMD还表示,其开源ROCm 4.0开发人员软件现在具有开源编译器,并统一支持OpenMP 5.0,HIP,PyTorch和Tensorflow。

AMD在GPU领域花的心思并不少,今年10月份,AMD还宣布将以350亿美元价位收购赛灵思,合并后的公司将拥有AMD CPU + AMD GPU + Xilinx FPGA + Xilinx SmartNIC。当然除了硬件外,AMD的Radeon Open Compute (ROCm)混合CPU-GPU开发环境,再加上赛灵思Vitis,足以对抗英伟达颇受欢迎的CUDA开发平台,以及英特尔力推的oneAPI。

英特尔同样是AI芯片领域的活跃者,据介绍,英特尔的Xe架构GPU将覆盖从集成显卡到高性能计算的所有范围。其中代号为Ponte Vecchio的独立GPU则是公司面对HPC建模和仿真以及AI训练而推出的设计。Ponte Vecchio将采用英特尔的7纳米技术制造,并将成为英特尔首款针对HPC和Ai工作负载进行了优化的基于Xe的GPU。但直到目前为止,尚未看到Intel的这款新品。

近日,IFTD2020上,Intel还发布了首款用于5G、人工智能、云端与边缘的eASIC N5X(结构化ASIC),同时发布了最新的Intel开放式FPGA堆栈(Intel OFS),这款产品继承了Agilex FPGA的硬核处理器系统、安全特性,支持Agilex FPGA用于管理启动、身份验证和防篡改特性的安全设备管理器,采用了Diamond Mesa SoC技术。

此外,为了更好地在包括AI在内的应用市场中发挥其包括CPU、GPU、FPGA和AISC在内的芯片的为例,方便开发者编程,Intel还推出了拥有远达理想的OneAPI。整个行业内,英特尔是目前在异构计算上拥有最全产品线的, 在硬件上拥有CPU、独立GPU、FPGA、eASIC、ASIC、VPU、内存和存储等,在软件上拥有统一开发平台oneAPI。

因此,在未来的AI芯片市场上,我们很难去辨别到底谁会笑到最后,但很明显的是,这些厂商将在各自的领域发力,逼迫英伟达吐出吞下的巨大市场。

总结

总的来说,无论是专用还是通用方面,英伟达都面临着来自各个厂商的压力。尤其是对于云厂商而言,在巨大利润漩涡下,谁也不能逃脱,自研芯片成为了必然选择。

当然,就目前的AI芯片市场而言,英伟达仍然可以在一段时间内把控大部分份额,毕竟包括英特尔在内,大多数声势响亮的AI芯片公司才刚刚出货,或正在努力出货的路上(有些还没等到出货就夭折了),这给了英伟达升级产品充裕的时间。

更重要的是,对于GPU而言,软件和开发者生态才是硬道理。只有做好了这个,才是GPU能够商用的前提。

逃离英伟达成为常态,超越英伟达却并不容易。

“逃离”英伟达_详细解读_最新资讯_热点事件

编者按:本文来自微信公众号“半导体行业观察”(ID:icbank),作者:邱丽婷,36氪经授权发布。

继11月亚马逊将 Alexa 语音助手的部分计算任务转移到自主设计的定制设计芯片Inferentia 后,近日,其再次宣布推出了全新的AI训练芯片AWS Trainium,据消息称,这是该公司用于训练机器学习模型的下一代定制芯片。

这意味着亚马逊将减少对英伟达芯片的依赖。

称霸AI芯片领域

近年来,AI热度不断攀升,AI相关应用也在急剧增长,这引发了市场对超大型数据中心的强劲需求。另一方面,AI处理任务的持续增长,又会倒逼服务器的配置要得到持续的升级。为了满足深度学习训练任务,硬件的复杂程度不断提升,处理器性能也被提出了更高的要求。

目前在AI领域主要有GPU、FPGA 和ASIC三种技术路线。其中GPU在AI训练方面已经发展到较为成熟的阶段。而在GPU芯片领域,英伟达是龙头老大。如今,全球估计有3000家AI创业公司,其中一半以上都是在英伟达的平台上构建的。

回看英伟达的发展史,其成立于1993年,这一年,全球有超过二十家的图形芯片公司,到1997年,这个数字猛增至70家。

1999年,英伟达发明了GPU,为了让GPU从软硬件都走向通用,其又在2006年推出了Tesla架构,一改之前使用矢量计算单元做渲染的做法,而是把一个矢量计算单元拆成了多个标量计算渲染单元。这就使得基于这个架构的GPU除了渲染能力强以外,还适合做通用计算。

也就是在这一年,英伟达推出了CUDA。按照他们的说法,这是一种用于通用GPU计算的革命性架构。CUDA将使科学家和研究人员能够利用GPU的并行处理能力来应对其最复杂的计算挑战。

正是得益于这两个方向的布局,英伟达在AI时代如鱼得水。自2016年起,英伟达数据中心业务开始爆发式增长。同比增长率连续七个季度(2QFY17-4QFY18)超100%。

英伟达数据中心业务单季收入及同比增长率 资料来源:英伟达公司官网

与此同时,英伟达GPU在全球主要云厂商中也获得了极大的认可。根据Liftr调查显示,在阿里云、AWS、微软Azure以及Google Clound中,Tesla系列GPU的市场占有率比AMD、赛灵思以及以英特尔大幅领先。充分说明英伟达Tesla系列GPU在通用计算市场的强大竞争力。

逃离英伟达

当然,英伟达的AI芯片王座也不是那么好坐的。

诚如前文所言,一些厂商已经开始自研芯片,除了亚马逊之外,谷歌早在几年前就推出了自称性能可达同等级GPU产品15~30倍的AI专有芯片TPU;华为在去年8月推出“算力最强”的AI(人工智能)处理器Ascend 910(昇腾910)等。

不过他们自研的大多是推理芯片,意图在专用性能上打败英伟达GPU,以摆脱英伟达在训练芯片的垄断。

资料显示,由于神经网络模型在训练阶段需要处理大量数据,同时也要完成不同的学习任务,因此目前通用属性的GPU具备的大量平行运算单元,能够充分满足“训练”对运算的效率与通用性要求。但进入执行阶段,也就是“推理阶段”,一个算法模型可以根据一堆量级不大的新数据得出结论。

这时候采用GPU就显得有些“大材小用”。这就是这些厂商为何研发定制推理芯片重要原因之一,对于大量推理工作,通用性或许不足,但专用肯定绰绰有余。

不仅如此,这些厂商的自研芯片在它所擅长的任务上,可能具备在效能与算力上大幅领先 GPU 的能力。对比发现,谷歌TPU和特斯拉FSD都能轻易做到相较GPU,性能和效率都高出一截的表现,即便这是以牺牲可编程性为代价。

当然,也有一些业界人士对这些自研芯片存有疑虑。因为他们认为,无论是自己做,还是部署其他公司的商用芯片,难度其实不相上下。

但不管怎么说,这些自研芯片的厂商确实对英伟达造成了一定的威胁,并且声势愈发浩大。

挑战英伟达

与此同时,国外还存在Graphcore、Intel和AMD这些厂商,他们则希望从通用角度去挑战英伟达。

首先是Graphcore,其创始人兼CEO Nigel Toon曾在一次访谈中指出:“如果只是要做基本的前馈卷积神经网路(feed-forward convolutional neural networks),GPU是很不错的解决方案,但随着网路变得越来越复杂,人们需要全新的解决方案──这也是为何他们要用ASIC和FPGA。我们接触过的所有创新者都说,GPU正在阻碍他们创新。如果仔细看他们正在研究的模型类型,你会发现主要是卷积神经网络(CNN),而递归神经网络(RNN)和其他类型结构,比如强化学习,并不能很好地映射到GPU。他们需要足够好的硬件平台,这是我们将IPU推向市场的原因。”

按照Graphcore给出的解释,其IPU芯片可以进行推论或训练,从架构的角度来看,这非常重要,因为随着机器学习演进,系统将能够从经验中学习。推论性能表现的关键包括低延迟、能使用小模型、小批次(small batches),以及可能会尝试导入稀疏性(sparsity)的训练模型;IPU可以有效地完成所有这些事情。

与市面上领先的GPU方案相比,如果是执行用以分类静态影像的前馈卷积神经网路,GPU的表现已经相当好,但IPU可以提供两到三倍的性能优势、有时甚至是五倍。对于更复杂的模型,例如有资料来回传递以尝试理解情境(例如对话)的模型;由于资料被传递多次,需要非常快。对于这样的应用,因为所有的模型都保存在处理器中,IPU可以比GPU快很多,甚至可能快十倍、二十倍或者五十倍。

所以在Graphcore眼中,IPU是自CPU、GPU之后的第三大类主流处理器。“通用”在这个路径中是个必选项,而毫无犹豫的必要。

同时,英伟达还面临着老对手–AMD以及英特尔的挑衅。

早在英伟达进军GPGPU的前后,AMD也有与之对应的计划,AMD选择推行“OpenCL”,这导致即使他们在2017年发布了ROCm平台来提供深度学习支持,但也改变不了他们GPU在AI时代几无所获的结局。

于是,今年三月份,AMD又推出了新的CDNA架构。基于这个架构,AMD在本月中发布了新一代的Instinct MI100计算卡。数据显示,新的架构可提供高达11.5 TFLOPS的FP64峰值吞吐量,这使其成为第一个在FP64中突破10 TFLOPS的GPU。与上一代MI50相比,新加速卡的性能提高了3倍。它还在FP32工作负载中拥有23.1 TFLOPS的峰值吞吐量。数据显示,AMD的新加速卡在这两个类别中都击败了Nvidia的A100 GPU。

为了更好地与英伟达竞争,AMD还表示,其开源ROCm 4.0开发人员软件现在具有开源编译器,并统一支持OpenMP 5.0,HIP,PyTorch和Tensorflow。

AMD在GPU领域花的心思并不少,今年10月份,AMD还宣布将以350亿美元价位收购赛灵思,合并后的公司将拥有AMD CPU + AMD GPU + Xilinx FPGA + Xilinx SmartNIC。当然除了硬件外,AMD的Radeon Open Compute (ROCm)混合CPU-GPU开发环境,再加上赛灵思Vitis,足以对抗英伟达颇受欢迎的CUDA开发平台,以及英特尔力推的oneAPI。

英特尔同样是AI芯片领域的活跃者,据介绍,英特尔的Xe架构GPU将覆盖从集成显卡到高性能计算的所有范围。其中代号为Ponte Vecchio的独立GPU则是公司面对HPC建模和仿真以及AI训练而推出的设计。Ponte Vecchio将采用英特尔的7纳米技术制造,并将成为英特尔首款针对HPC和Ai工作负载进行了优化的基于Xe的GPU。但直到目前为止,尚未看到Intel的这款新品。

近日,IFTD2020上,Intel还发布了首款用于5G、人工智能、云端与边缘的eASIC N5X(结构化ASIC),同时发布了最新的Intel开放式FPGA堆栈(Intel OFS),这款产品继承了Agilex FPGA的硬核处理器系统、安全特性,支持Agilex FPGA用于管理启动、身份验证和防篡改特性的安全设备管理器,采用了Diamond Mesa SoC技术。

此外,为了更好地在包括AI在内的应用市场中发挥其包括CPU、GPU、FPGA和AISC在内的芯片的为例,方便开发者编程,Intel还推出了拥有远达理想的OneAPI。整个行业内,英特尔是目前在异构计算上拥有最全产品线的, 在硬件上拥有CPU、独立GPU、FPGA、eASIC、ASIC、VPU、内存和存储等,在软件上拥有统一开发平台oneAPI。

因此,在未来的AI芯片市场上,我们很难去辨别到底谁会笑到最后,但很明显的是,这些厂商将在各自的领域发力,逼迫英伟达吐出吞下的巨大市场。

总结

总的来说,无论是专用还是通用方面,英伟达都面临着来自各个厂商的压力。尤其是对于云厂商而言,在巨大利润漩涡下,谁也不能逃脱,自研芯片成为了必然选择。

当然,就目前的AI芯片市场而言,英伟达仍然可以在一段时间内把控大部分份额,毕竟包括英特尔在内,大多数声势响亮的AI芯片公司才刚刚出货,或正在努力出货的路上(有些还没等到出货就夭折了),这给了英伟达升级产品充裕的时间。

更重要的是,对于GPU而言,软件和开发者生态才是硬道理。只有做好了这个,才是GPU能够商用的前提。

逃离英伟达成为常态,超越英伟达却并不容易。

英伟达CEO黄仁勋并不认为次世代主机是PC的竞争对手

英伟达在本周发布了截至10月25日的第三季度财报,其中营收47.3亿美元,同比涨幅达57%。同时其CEO黄仁勋在采访中被问及他对于次世代主机的看法,他表示PS5和XSX根本不是与PC的竞争对手。下面让我们一起来看看吧!

游侠网1

科技媒体Venturebeat近期对英伟达CEO黄仁勋进行了一次采访,在采访中Venturebeat提到了对于次世代主机与PC之间互相竞争的看法。对此黄仁勋表示,并不认为PS5/Xbox Series次世代主机是竞争对手,毕竟有很多在PC上进行的操作,用户并不能在主机上实现。

游侠网1

但黄仁勋还表示,随着次世代主机的到来,所有游戏内容都将随之提高标准,比如对于光追的支持,这显然对游戏的开发制作都有好处。另一方面,现在人们使用PC的方式,并不仅限于游戏,包括用于艺术、运动等,而PC是完成这些操作的最佳平台。更不用说,你仍然需要一台PC来进行视频会议等,甚至还可以体验到Nvidia GeForce的AI broadcasting等功能。