异世界签证火热派发中!Steam《异界之上》测试开启

动作地牢冒险游戏《异界之上(曾用名:异世界苦手物语)》经历了长久的测试之后,游戏根据玩家的意见和建议进行了一系列的优化更新,在今日游戏将开启新一轮playtest测试,届时玩家能够游玩到全面优化后的全新游戏体验。下面让我们一起来看看吧。

游侠网1

限量异世界签证 火热派发中

现在《异界之上》Playtest测试已经正式开启,想要获取《异界之上》限量发放的异世界签证,现在玩家只需要进入Steam商店页面,搜索 异界之上 进入游戏页面,在下方 加入Ngigate Tale Playtest 的菜单栏中点击 请求访问权限 ,即可即可激活游戏的Playtest,由于本次测试为限量测试,测试名额有限,先到先得。

Steam商店地址:

爽快感加倍 全方位升级战斗系统

在本次《异界之上》的更新中,归功于广大玩家的意见和建议的反馈,各个魔物娘的祝福都得到了全面的强化升级,猫娘罗斯柴尔德的专属祝福系统已经翻新重做,玩家可以在猫娘的祝福之下,收集猫猫币随机触发各种机械效果来协助战斗。此外对于魔核 古拉姆碎片 也进行了全面加强,游戏中的装置道具同样能够获得来自魔核和祝福的加强效果,获得全新的战斗特效。

游侠网2

更多内容:

这就是4K次世代的实力?PS5性能测试竟不敌GTX1080

次世代主机PS5已经发售将近2个月了,大家对PS5的10.28TFs性能也已经了解的比较详细了,此前英伟达曾经表示笔记本RTX 3060显卡比PS5高30%,而近日,据外媒gamersnexus测试,PS5的性能在GTX 1060-GTX 1080之间。

外媒gamersnexus使用了与PS5售价499美元相当的499美元PC配置进行测试,CPU使用了R3 3300X,测试显卡分别为GTX 1060、GTX 1070Ti和GTX 1080,要知道GTX 1060、GTX 1080都已经是4年前的显卡了,GTX 1070Ti也三年多了。

游侠网1
PS5 VS PC《无主之地3》帧数测试

测试中,《鬼泣5》高帧模式,PS5交出了平均108.7帧的成绩,GTX 1060的平均帧数为142.1帧;《无主之地3》性能模式,PS5交出了平均118.9帧的成绩,GTX 1070Ti的平均帧数为130.3帧;《尘埃5》高帧模式,PS5交出了平均119帧的成绩,GTX 1080的平均帧数为108.9帧。

游侠网2
PS5 VS PC《鬼泣5》帧数测试

需要说明的是,1060平均帧数比PS5高可能说明《鬼泣5》N卡优化较好,而且1060并不支持光追。而1080平均帧数低于PS5可能说明《尘埃5》性能模式下画质有大量缩减。

游侠网3
PS5 VS PC《尘埃5》帧数测试

当然,这次测试的结果仅供参考,不一定准确,但是不管结果如何,PS5仍是一款极具性价比的次世代主机,尽管现在想要原价购买到PS5依然比较困难。

《异界之上》今日开启测试 异世界签证火热派发中

动作地牢冒险游戏《异界之上(曾用名:异世界苦手物语)》经历了长久的测试之后,游戏根据玩家的意见和建议进行了一系列的优化更新,在今日游戏将开启新一轮playtest测试,届时玩家能够游玩到全面优化后的全新游戏体验。下面让我们一起来看看吧。

01.jpg

限量异世界签证 火热派发中

现在《异界之上》Playtest测试已经正式开启,想要获取《异界之上》限量发放的异世界签证,现在玩家只需要进入Steam商店页面,搜索“异界之上”进入游戏页面,在下方“加入Ngigate Tale Playtest”的菜单栏中点击“请求访问权限”,即可即可激活游戏的Playtest,由于本次测试为限量测试,测试名额有限,先到先得。

02.gif

爽快感加倍 全方位升级战斗系统

在本次《异界之上》的更新中,归功于广大玩家的意见和建议的反馈,各个魔物娘的祝福都得到了全面的强化升级,猫娘罗斯柴尔德的专属祝福系统已经翻新重做,玩家可以在猫娘的祝福之下,收集猫猫币随机触发各种机械效果来协助战斗。此外对于魔核“古拉姆碎片”也进行了全面加强,游戏中的装置道具同样能够获得来自魔核和祝福的加强效果,获得全新的战斗特效。

03.jpg

此外,游戏针对手柄及键盘的操作手感进行了一系列的优化,玩家能够通过手柄的震动机能感受到更强的操作反馈。同时游戏对于战斗之外的天赋系统也进行了一轮更新,增加更多的天赋选择以确保主角的成长空间。

04.jpg

深入挖掘异世界城堡中的故事

大家可能会好奇这个城堡中的魔物究竟是如何诞生的,在探索城堡的过程中,在与魔物不断战斗的过程中,玩家能够逐步发掘有关于魔物的各色信息。在下水道的旅行商人美兔奇处,可以看到每个魔物和BOSS的故事背景,并且随着战斗次数的增加,还将解锁更多的有趣的故事。

05.jpg

而大家关心的魔物娘同样在本次更新中加入了大量互动剧情,部分魔物娘将会随着冒险进程逐步解锁,赠送蛋糕给魔物娘更能够提升好感,触发不同的剧情对话。随着好感度的一步步提升,玩家还能够看到更多有关于魔物娘的身世信息,了解曾经在她们身上发生了怎样的变化。

06.jpg

动作地牢冒险游戏《异界之上》今日正式开启Steam Playtest测试,想要获取前往异世界签证的玩家现在可以前往Steam商店,搜索“异界之上”点击页面下方“请求访问权限”获取限量测试资格。还有更多全新内容等待各位玩家前往异世界亲自探索。

《英雄联盟》发布新英雄破败之王佛耶戈 技能测试视频

【17173鲜游快报,专注于快速带来全球新游信息】

在此前的《英雄联盟》新赛季直播活动中,拳头公布了2021年首个新英雄“破败之王·佛耶戈”,目前该英雄已经随着山海绘卷、牛年限定皮肤一同上线PBE测试服。英雄联盟官博今日为玩家们分享了佛耶戈被动技能测试,包括冰鸟、死歌等拥有特殊被动的英雄都在此列,一起来看看吧。

测试视频:

破败之王佛耶戈,将世界陷入了败坏的诅咒之中。接下来我们就来介绍这位驱使黑雾、生杀予夺的君王到底拥有什么样的本领。

“任何代价,一概不论。一切暴行,但求有功。为她,我必当如此。”

君命已决(被动)

如果敌方英雄在被佛耶戈命中后的3秒内阵亡,将会变成幽魂

佛耶戈可以通过攻击幽魂来占据该英雄,并回复其8%(+2%/100额外AD)(+1.25%/100AP)(+2%/100%额外攻击速度)生命值,持续10秒。

占据期间,佛耶戈的装备、普通攻击和技能(除终极技能之外)都会变为该敌方英雄所拥有的,同时,佛耶戈还会获得R技能的一次免费施放机会。此外,占据期间的佛耶戈在向敌方英雄移动时还会获得10%的加速效果。

占据期间,佛耶戈会保留召唤师技能、饰品和符文,并且不能使用主动装备和消耗品。

在占据期间,被动装备的冷却时间是共享的。

更多《英雄联盟》相关资讯,敬请关注17173.

《英雄联盟》发布新英雄破败之王佛耶戈 技能测试视频

【17173鲜游快报,专注于快速带来全球新游信息】

在此前的《英雄联盟》新赛季直播活动中,拳头公布了2021年首个新英雄“破败之王·佛耶戈”,目前该英雄已经随着山海绘卷、牛年限定皮肤一同上线PBE测试服。英雄联盟官博今日为玩家们分享了佛耶戈被动技能测试,包括冰鸟、死歌等拥有特殊被动的英雄都在此列,一起来看看吧。

测试视频:

破败之王佛耶戈,将世界陷入了败坏的诅咒之中。接下来我们就来介绍这位驱使黑雾、生杀予夺的君王到底拥有什么样的本领。

“任何代价,一概不论。一切暴行,但求有功。为她,我必当如此。”

君命已决(被动)

如果敌方英雄在被佛耶戈命中后的3秒内阵亡,将会变成幽魂

佛耶戈可以通过攻击幽魂来占据该英雄,并回复其8%(+2%/100额外AD)(+1.25%/100AP)(+2%/100%额外攻击速度)生命值,持续10秒。

占据期间,佛耶戈的装备、普通攻击和技能(除终极技能之外)都会变为该敌方英雄所拥有的,同时,佛耶戈还会获得R技能的一次免费施放机会。此外,占据期间的佛耶戈在向敌方英雄移动时还会获得10%的加速效果。

占据期间,佛耶戈会保留召唤师技能、饰品和符文,并且不能使用主动装备和消耗品。

在占据期间,被动装备的冷却时间是共享的。

更多《英雄联盟》相关资讯,敬请关注17173.

《英雄联盟》发布新英雄破败之王佛耶戈 技能测试视频

【17173鲜游快报,专注于快速带来全球新游信息】

在此前的《英雄联盟》新赛季直播活动中,拳头公布了2021年首个新英雄“破败之王·佛耶戈”,目前该英雄已经随着山海绘卷、牛年限定皮肤一同上线PBE测试服。英雄联盟官博今日为玩家们分享了佛耶戈被动技能测试,包括冰鸟、死歌等拥有特殊被动的英雄都在此列,一起来看看吧。

测试视频:

破败之王佛耶戈,将世界陷入了败坏的诅咒之中。接下来我们就来介绍这位驱使黑雾、生杀予夺的君王到底拥有什么样的本领。

“任何代价,一概不论。一切暴行,但求有功。为她,我必当如此。”

君命已决(被动)

如果敌方英雄在被佛耶戈命中后的3秒内阵亡,将会变成幽魂

佛耶戈可以通过攻击幽魂来占据该英雄,并回复其8%(+2%/100额外AD)(+1.25%/100AP)(+2%/100%额外攻击速度)生命值,持续10秒。

占据期间,佛耶戈的装备、普通攻击和技能(除终极技能之外)都会变为该敌方英雄所拥有的,同时,佛耶戈还会获得R技能的一次免费施放机会。此外,占据期间的佛耶戈在向敌方英雄移动时还会获得10%的加速效果。

占据期间,佛耶戈会保留召唤师技能、饰品和符文,并且不能使用主动装备和消耗品。

在占据期间,被动装备的冷却时间是共享的。

更多《英雄联盟》相关资讯,敬请关注17173.

【图】能源颠覆的进击 特斯拉Model Y性能测试

[汽车之家 专业评测]  拿到特斯拉Model Y的场景和两年前有一些雷同,在进口版Model 3刚刚入华时,我们也是在新年伊始抢先拿到了测试车。时光荏苒,猝不及防,过去短短两年的时间里,特斯拉的销量和市值连续翻倍。关注度的聚拢,也让这一次Model Y的到来要比Model 3更直达人心。所以,您在这篇文章里不仅可以看到实测的产品数据,更能够看到细节之中特斯拉产品发生的变化。

汽车之家

汽车之家

60秒快速了解全文:

1、在汽车之家EV AH-100的测试标准下,2021款 特斯拉中国 Model Y 长续航全轮驱动版车型(以下简称Model Y)的高速续航成绩(90±2km/h)为356km;城市低速续航(30±2km/h)387km;

2、该车0-100km/h加速实测5.06秒;100-0km/h制动实测37.89米;

汽车之家

2021款 特斯拉中国 Model Y售价车型售价(万元)续航里程2021款 长续航全轮驱动版33.99
NEDC工况下594km

2021款 Performance

高性能全轮驱动版

36.99WLTP工况下480km

目前特斯拉Model Y在国内仅推出了长续航版、高性能版两款车型,我们此次的测试车即为2021款 特斯拉中国 Model Y 长续航全轮驱动版车型。至于高性能版车型的表现如何,日后有机会我们也会为大家带来实际测试。

●续航测试

此次测试我们使用了最新版本的汽车之家EV AH-100测试标准,在一些测试细节和结果展示上作出了调整。如果您想了解新测试标准的调整详情,请点击这里查阅新标准的解读文章

汽车之家

○低速工况续航测试

汽车之家

要提前说明的是,本次特斯拉Model Y在进行高低速工况续航测试时,室外环境温度大概在-5℃左右,所以此次续航测试为冬季测试,低温会对纯电动车续航能力产生负面影响。在开始低速工况续航测试前,我们先将车辆电量充满,且在第一次满电跳枪后再进行三次补电操作,以避免虚电。

汽车之家

虽然Model Y的NEDC续航里程为594km,但其充满电后的表显剩余续航里程仅为489km。经过向特斯拉官方求证,该车表显续航里程是建立在EPA工况上的动态显示,所以其满电表显续航也会根据驾驶员综合用车习惯、车辆用电器、环境温度等因素的改变而不同;不过关闭空调或开启空调等操作并不会对其表显续航造成影响。

汽车之家

特斯拉Model Y不提供传统的节能、运动等驾驶模式,将加速模式调至轻松即为“节能状态”;同时该车动能回收力度仅有两级可调,“标准”即为动能回收力度最大;“停止模式”设定为“保持”,即车辆不会低速蠕行。当然,我们在开始续航测试前还要将空调开至23℃自动风量、小计里程清零。

关于空调,此前特斯拉Model 3采用PTC空调,而新款Model 3和Model Y均采用了热泵空调。PTC空调制热能力较强,同时其能耗也较高;而在环境温度不是很低的情况下,热泵空调有着较好的制热效率,能耗低,但当环境温度低于-10℃甚至更冷时,热泵空调的制热效果也会比较一般。对于本次测试时-5℃的环境温度来说,热泵空调是应该能发挥出高效率优势的。

汽车之家

汽车之家

根据EV AH-100的测试标准,我们在行驶100.7km后停止了此次Model Y的低速工况续航测试,车辆平均车速为30.98km/h,其表显电耗为14.6kWh/100km。测试结束后我们立即为其补电,最终充入20.06kWh电量,三次补电均启动失败。最后我们得该车在此次低速工况续航测试中的能耗为19.9kWh/100km,根据车辆动力电池容量计算,该车在低速工况下的续航里程为387km。对于一款中型纯电动SUV而言,其低速能耗表现属于正常水平。

汽车之家

在低速工况续航阶段,车辆实际行驶里程和表显续航里程减少的比例大概维持在1:1.05左右,也就是车辆行驶20km,表显续航减少21km左右。不论Model Y续航能力如何,但其建立在EPA工况基础上的动态续航显示确实可为我们日常用车提供更有价值的参考。

○高速工况续航测试

在开始高速续航测试前,我们同样将车辆充至满电,并对其进行三次补电操作,该车满电时表显续航里程为488km。同时,我们将加速调至轻松模式,动能回收调至标准模式,空调开至23℃自动风量,小计里程清零。

汽车之家

汽车之家

根据EV AH-100的测试标准,我们在行驶了204.2km后停止此次高速工况续航测试,车辆剩余电量为48%,剩余续航里程为233km。

汽车之家

汽车之家

最终,我们为其充入了44.07kWh电量,根据实际行驶里程和充电量计算得Model Y在此次高速工况续航测试下的能耗为21.6kWh/100km,该车在此工况下的续航里程为356km。

汽车之家

在高速工况续航部分,40km之前车辆实际行驶里程和表显续航里程减少的比例大概在1:1.6左右,也就是车辆行驶20km,表显续航减少32km左右。

随着行驶里程的不断增加,车辆掉电比例慢慢处于下降且趋于稳定的状态;在行驶100km以后,车辆实际行驶里程和表显续航里程减少的比例基本可以稳定在1:1.1左右。高速续航再次验证了我们在低速续航给出的观点:Model Y表显续航可以为我们日常用车提供更有价值的参考。

○充电速率测试

汽车之家

在续航测试后,我们也对Model Y的快充速度进行了测试。在国家电网120kW的直流快充桩上,该车从30%电量充至80%电量共耗时52分钟,速度不算快。在快充过程中,我们对车辆充电功率进行了记录,期间最高充电功率为47.9kW左右,最低充电功率在42.9kW左右。

小结:

汽车之家

根据实际续航测试成绩,我们根据35%+65%的城际高速+城市低速比例计算出特斯拉Model Y的综合续航成绩为376km;与Model Y的NEDC续航里程相比,此次该车实际续航成绩基本是打了6折左右。在低温环境下,这样的续航能力不算出色,但应该算不上差。


修改
本文共有 4 个网友评价,其中100.00%好评,0%差评。
评价理由:语句不通/文章阅读困难

亚马逊Alexa科学家:图灵测试70年已成古董,要给AI构建新的「黄金标准」了_详细解读_最新资讯_热点事件

编者按:本文来自微信公众号“新智元”(ID:AI_era)来源:unite.ai,编辑:小匀、yyan,36氪经授权发布。

1950 年,图灵提出著名的「图灵测试」去回答「机器能否思考」的问题,目的是判断机器是否能表现出人类也无法区分的对话行为。70年来,图灵测试也一直作为学术界的AI「北极星」而存在。近日,亚马逊语音助手 Alexa 部门的首席科学家认为,人们现在关心的是人机之间的互动,而不是区分机器和人类。他认为,图灵测试过时了,AI 需要新基准测试!

图灵测试可以退场了吗?

自从1950年艾伦·图灵发表论文回应「机器可以思考吗?」这一问题以来,已经过去70年。

图灵测试的目标,是确定机器是否能表现出人类无法区分的对话行为。在这个游戏中,谁是回应者,是人类还是人工智能,评估者是不被告知的。

在图灵的论文中,他本人也曾暗示过一个事实,即他认为图灵测试最终可能会被击败。他说:「到2000年,在一个模仿游戏中,一个普通人区分AI和人类的几率将低于70%,」

亚马逊语音助手 Alexa 部门的首席科学家罗希特·普拉萨德最近争辩说,长期用于衡量AI模型复杂程度的图灵测试,应该作为AI的基准而淘汰。

70年过去了,图灵测试该退场了吗?

旧基准与新时代:我们关心人机互动,不是区分机器和人类!

为了回答这个问题,让我们回到图灵第一次提出他的论文的时候。

1950年,第一台商用计算机还没卖出去;光缆的基础工作还要4年才能公布;人工智能领域也没有正式建立。

即使他的论文彻底改变了计算机科学和人工智能。但就在随后的2-4年里,图灵也因同性恋罪名而饱受折磨最后自杀。

幸运的是,他的「遗产」继续存在,而且在漫长的岁月里经受住了无数考验。

现在,人工智能已经发生了剧变。我们手机上的计算能力是阿波罗11号的10万倍,再加上云计算和高带宽连接,现在的AI可以在几秒钟内根据海量数据做出决策。

普拉萨德认为,图灵测试在很多方面是有局限性的,正如他手中的Alexa产品一样,很少会关心人类与AI的区别,而更关心与人工智能的密切互动。

例如,你要求你的AI助手关闭车库的灯,你并不希望与其对话。相反,你只希望它完成「确定」。

实际上,图灵自己甚至在他最初的论文中提到了这些当中的一些局限性。

普拉萨德认为,随着人工智能与人们生活方方面面的联系越来越紧密,图灵测试应该被认为是过时的,应被更有用的基准测试所取代。

此话不假,的确,许多早期的聊天机器人是为通过图灵测试而设计的,例如,类似「罗布能奖」 (The Loebner Prize) 和「话匣子挑战赛」 (The Chatterbox Challenge)的聊天机器人年赛,就是聚焦于图灵测试的。

但尽管如此,面对外界不断询问Alexa何时能够通过图灵测试时,普拉萨德指出,图灵测试仍然是聊天机器人和数字助理常用的基准。

他说,使用图灵测试评估机器智能性的其中一个主要问题是,它几乎完全削弱了机器查找信息和执行闪电般快速计算的能力。

比如说,装作停顿。

「3434756的立方根是什么?」

「西雅图到波士顿有多远?」

当听到这些问题时,人工智能程序完全能立即找到答案,但是,它们却会模仿人类的停顿。

除此之外,图灵测试没有考虑到人工智能使用外部传感器收集数据能力的日益增强,忽略了人工智能通过视觉和运动算法与周围世界进行交互的方式——只依赖于文本通信。

创建新的基准?

就像Alexa的功能一样,普拉萨德认为应该创造新的智能评估方式,适用于评估一般类型的智能机器。

这些测试应该能够搞清楚人工智能在多大程度上提高了人类的智力,以及人工智能在多大程度上改善了人们的日常生活。此外,测试应该弄明白人工智能是如何表现出类似人的智能特征的,包括语言能力、自我监督和「常识」。

当前人工智能研究重要的领域,如推理、公平性、对话和感官理解,并不是通过图灵测试来评估的,它们可以通过多种方式进行评估。

当时亚马逊创立Alexa 奖的标准是要求社交机器人与人类对话20分钟。这些机器人将被评估关于广泛话题连贯对话的能力,如科技、体育、政治和娱乐。顾客在机器人开发阶段对其打分,之后再次基于他们与机器人的聊天欲望对其进行打分。在最后一轮中,评委独立负责用五分制对机器人进行评分。评委们所使用的评价标准依赖于让人工智能在适当的情况下表现出移情等重要的人类属性的方法。

最终,普拉萨德认为像Alexa这样的人工智能装置的大量涌现,体现出衡量人工智能进程的重要机会,我们需要不同的策略来利用这个新机会。

普拉萨德解释到,人工智能若要成为处理大量任务方面的专家,只有具备更广泛的学习能力,而不是特定任务的智能,才有可能。因此,在未来十年乃至更长时间里,人工智能服务的实用性,以及它们在周围设备上的对话及主动协助能力是值得进行测试的。

图灵测试为何如此重要?

一个男人(A)女人(B),以及可能是两性的讯问者(C)。

游戏的概念是审讯者呆在与男人(A)和女人(B)都分开的房间里,目的是让审讯者识别男人是谁,女人是谁。在这种情况下,男人(A)的目的是欺骗询问者,而女人(B)可以试图帮助询问者(C)。为了公平起见,不能使用口头提示,而只能来回发送打字的问题和答案。问题就变成了:询问者如何知道该信任谁?

询问者仅通过标签X和Y知道它们,并且在游戏结束时,他只是简单地说「 X是A和Y是B」或「 X是B而Y是A」。

那么问题就变成了,如果我们把男人(A)或女人(B)去掉,把这个人换成一台智能机器,这台机器能不能用它的人工智能系统来欺骗审讯者(C),让他相信这是一个男人或一个女人呢?这就是图灵测试的本质。

换句话说,如果你在不知情的情况下与一个人工智能系统进行交流,而你又假设另一端的 「实体 」是一个人,那么人工智能能不能无限期地欺骗你呢?

图灵测试为何如此重要?

在图灵的论文中,他暗示了一个事实,即他认为图灵测试最终可能会被击败。他说:「到2000年,在一个模仿游戏中,一个普通人区分AI和人类的几率将低于70%,」

关于图灵测试被通过的报道很多。

2014年,一个名为Eugene Goostman的聊天机器人程序,模拟了一个13岁的乌克兰男孩,在一次图灵测试中,这个聊天机器人让伦敦皇家学会33%的评委相信它是人类。尽管如此,批评者很快就指出了测试的不足之处,时间太短!只有5分钟,这不足以来说明智能的程度。

2018年,在谷歌助手的协助下,谷歌Duplex预约系统假装成人类,给一家发廊打电话,同时与发廊的前台人员进行交流。短暂的交流后,「她」成功预约了一次理发。

然而,在这个自然语言处理(NLP)的时代,有自然语言理解(NLU)和自然语言解释(NLI)两个子领域,我们需要问一个问题,在不完全理解其背后的语境的情况下,这台机器是否真的智能?

毕竟,如果回顾一下IBM开发的Watson背后的技术,Watson是一个能够回答自然语言提出的问题的计算机系统,曾击败Jeopardy冠军,但Watson能够击败世界冠军,是通过互联网下载了一大批世界知识,包括维基百科在内的各种来源,却并不了解这种语言背后的背景。虽然,Watson在玩游戏的时候不能上网,但这对于一个人工智能来说,只是一个小小的限制,它只需要在游戏开始前获取人类所有的知识就可以了。

类似于搜索引擎,进行了关键词和参考点。如果一个人工智能能够达到这种理解水平,那么我们应该考虑到,基于今天不断进步的技术,欺骗一个人类5分钟或10分钟,根本没有设置足够高的门槛。 

不断移动的门槛

正是由于对现代AI的需求在改变,我们应该重新考虑图灵测试的新的现代定义。

回顾人工智能的发展史,人工智能能否达到人类水平智能的最终晴雨表,几乎都是基于它是否能在各种游戏中击败人类。

1949年,克劳德-香农发表了关于如何让计算机下棋的想法,因为这被认为是人类智慧的终极巅峰。

1996年2月10日,经过3个小时的艰苦比赛,国际象棋世界冠军加里-卡斯帕罗夫(Garry Kasparov)在与IBM计算机 「深蓝」(Deep Blue)的六局比赛中输掉了第一局,「深蓝」每秒能评估2亿步棋。

快到2015年10月,AlphaGo与三届欧冠卫冕冠军樊麾先生进行了第一场比赛。AlphaGo以5比0的比分赢得了史上第一场与围棋职业选手的比赛。围棋被认为是世界上最复杂的棋局,它有10360种可能的棋步。

可以见得,争论的焦点是,在大型多人在线角色扮演游戏中,人工智能必须能够击败玩家团队。

但目前的测试可能过于依赖欺骗、聊天机器人中的技术。目前,在我们的实际世界中,人工智能将需要进行互动和 「生活」,而不是游戏环境或模拟环境及其定义的规则。 

参考链接:

https://www.unite.ai/head-researcher-for-amazon-alexa-argues-turing-test-is-obsolete/‍

https://www.unite.ai/what-is-the-turing-test-and-why-does-it-matter/

亚马逊Alexa科学家:图灵测试70年已成古董,要给AI构建新的「黄金标准」了_详细解读_最新资讯_热点事件

编者按:本文来自微信公众号“新智元”(ID:AI_era)来源:unite.ai,编辑:小匀、yyan,36氪经授权发布。

1950 年,图灵提出著名的「图灵测试」去回答「机器能否思考」的问题,目的是判断机器是否能表现出人类也无法区分的对话行为。70年来,图灵测试也一直作为学术界的AI「北极星」而存在。近日,亚马逊语音助手 Alexa 部门的首席科学家认为,人们现在关心的是人机之间的互动,而不是区分机器和人类。他认为,图灵测试过时了,AI 需要新基准测试!

图灵测试可以退场了吗?

自从1950年艾伦·图灵发表论文回应「机器可以思考吗?」这一问题以来,已经过去70年。

图灵测试的目标,是确定机器是否能表现出人类无法区分的对话行为。在这个游戏中,谁是回应者,是人类还是人工智能,评估者是不被告知的。

在图灵的论文中,他本人也曾暗示过一个事实,即他认为图灵测试最终可能会被击败。他说:「到2000年,在一个模仿游戏中,一个普通人区分AI和人类的几率将低于70%,」

亚马逊语音助手 Alexa 部门的首席科学家罗希特·普拉萨德最近争辩说,长期用于衡量AI模型复杂程度的图灵测试,应该作为AI的基准而淘汰。

70年过去了,图灵测试该退场了吗?

旧基准与新时代:我们关心人机互动,不是区分机器和人类!

为了回答这个问题,让我们回到图灵第一次提出他的论文的时候。

1950年,第一台商用计算机还没卖出去;光缆的基础工作还要4年才能公布;人工智能领域也没有正式建立。

即使他的论文彻底改变了计算机科学和人工智能。但就在随后的2-4年里,图灵也因同性恋罪名而饱受折磨最后自杀。

幸运的是,他的「遗产」继续存在,而且在漫长的岁月里经受住了无数考验。

现在,人工智能已经发生了剧变。我们手机上的计算能力是阿波罗11号的10万倍,再加上云计算和高带宽连接,现在的AI可以在几秒钟内根据海量数据做出决策。

普拉萨德认为,图灵测试在很多方面是有局限性的,正如他手中的Alexa产品一样,很少会关心人类与AI的区别,而更关心与人工智能的密切互动。

例如,你要求你的AI助手关闭车库的灯,你并不希望与其对话。相反,你只希望它完成「确定」。

实际上,图灵自己甚至在他最初的论文中提到了这些当中的一些局限性。

普拉萨德认为,随着人工智能与人们生活方方面面的联系越来越紧密,图灵测试应该被认为是过时的,应被更有用的基准测试所取代。

此话不假,的确,许多早期的聊天机器人是为通过图灵测试而设计的,例如,类似「罗布能奖」 (The Loebner Prize) 和「话匣子挑战赛」 (The Chatterbox Challenge)的聊天机器人年赛,就是聚焦于图灵测试的。

但尽管如此,面对外界不断询问Alexa何时能够通过图灵测试时,普拉萨德指出,图灵测试仍然是聊天机器人和数字助理常用的基准。

他说,使用图灵测试评估机器智能性的其中一个主要问题是,它几乎完全削弱了机器查找信息和执行闪电般快速计算的能力。

比如说,装作停顿。

「3434756的立方根是什么?」

「西雅图到波士顿有多远?」

当听到这些问题时,人工智能程序完全能立即找到答案,但是,它们却会模仿人类的停顿。

除此之外,图灵测试没有考虑到人工智能使用外部传感器收集数据能力的日益增强,忽略了人工智能通过视觉和运动算法与周围世界进行交互的方式——只依赖于文本通信。

创建新的基准?

就像Alexa的功能一样,普拉萨德认为应该创造新的智能评估方式,适用于评估一般类型的智能机器。

这些测试应该能够搞清楚人工智能在多大程度上提高了人类的智力,以及人工智能在多大程度上改善了人们的日常生活。此外,测试应该弄明白人工智能是如何表现出类似人的智能特征的,包括语言能力、自我监督和「常识」。

当前人工智能研究重要的领域,如推理、公平性、对话和感官理解,并不是通过图灵测试来评估的,它们可以通过多种方式进行评估。

当时亚马逊创立Alexa 奖的标准是要求社交机器人与人类对话20分钟。这些机器人将被评估关于广泛话题连贯对话的能力,如科技、体育、政治和娱乐。顾客在机器人开发阶段对其打分,之后再次基于他们与机器人的聊天欲望对其进行打分。在最后一轮中,评委独立负责用五分制对机器人进行评分。评委们所使用的评价标准依赖于让人工智能在适当的情况下表现出移情等重要的人类属性的方法。

最终,普拉萨德认为像Alexa这样的人工智能装置的大量涌现,体现出衡量人工智能进程的重要机会,我们需要不同的策略来利用这个新机会。

普拉萨德解释到,人工智能若要成为处理大量任务方面的专家,只有具备更广泛的学习能力,而不是特定任务的智能,才有可能。因此,在未来十年乃至更长时间里,人工智能服务的实用性,以及它们在周围设备上的对话及主动协助能力是值得进行测试的。

图灵测试为何如此重要?

一个男人(A)女人(B),以及可能是两性的讯问者(C)。

游戏的概念是审讯者呆在与男人(A)和女人(B)都分开的房间里,目的是让审讯者识别男人是谁,女人是谁。在这种情况下,男人(A)的目的是欺骗询问者,而女人(B)可以试图帮助询问者(C)。为了公平起见,不能使用口头提示,而只能来回发送打字的问题和答案。问题就变成了:询问者如何知道该信任谁?

询问者仅通过标签X和Y知道它们,并且在游戏结束时,他只是简单地说「 X是A和Y是B」或「 X是B而Y是A」。

那么问题就变成了,如果我们把男人(A)或女人(B)去掉,把这个人换成一台智能机器,这台机器能不能用它的人工智能系统来欺骗审讯者(C),让他相信这是一个男人或一个女人呢?这就是图灵测试的本质。

换句话说,如果你在不知情的情况下与一个人工智能系统进行交流,而你又假设另一端的 「实体 」是一个人,那么人工智能能不能无限期地欺骗你呢?

图灵测试为何如此重要?

在图灵的论文中,他暗示了一个事实,即他认为图灵测试最终可能会被击败。他说:「到2000年,在一个模仿游戏中,一个普通人区分AI和人类的几率将低于70%,」

关于图灵测试被通过的报道很多。

2014年,一个名为Eugene Goostman的聊天机器人程序,模拟了一个13岁的乌克兰男孩,在一次图灵测试中,这个聊天机器人让伦敦皇家学会33%的评委相信它是人类。尽管如此,批评者很快就指出了测试的不足之处,时间太短!只有5分钟,这不足以来说明智能的程度。

2018年,在谷歌助手的协助下,谷歌Duplex预约系统假装成人类,给一家发廊打电话,同时与发廊的前台人员进行交流。短暂的交流后,「她」成功预约了一次理发。

然而,在这个自然语言处理(NLP)的时代,有自然语言理解(NLU)和自然语言解释(NLI)两个子领域,我们需要问一个问题,在不完全理解其背后的语境的情况下,这台机器是否真的智能?

毕竟,如果回顾一下IBM开发的Watson背后的技术,Watson是一个能够回答自然语言提出的问题的计算机系统,曾击败Jeopardy冠军,但Watson能够击败世界冠军,是通过互联网下载了一大批世界知识,包括维基百科在内的各种来源,却并不了解这种语言背后的背景。虽然,Watson在玩游戏的时候不能上网,但这对于一个人工智能来说,只是一个小小的限制,它只需要在游戏开始前获取人类所有的知识就可以了。

类似于搜索引擎,进行了关键词和参考点。如果一个人工智能能够达到这种理解水平,那么我们应该考虑到,基于今天不断进步的技术,欺骗一个人类5分钟或10分钟,根本没有设置足够高的门槛。 

不断移动的门槛

正是由于对现代AI的需求在改变,我们应该重新考虑图灵测试的新的现代定义。

回顾人工智能的发展史,人工智能能否达到人类水平智能的最终晴雨表,几乎都是基于它是否能在各种游戏中击败人类。

1949年,克劳德-香农发表了关于如何让计算机下棋的想法,因为这被认为是人类智慧的终极巅峰。

1996年2月10日,经过3个小时的艰苦比赛,国际象棋世界冠军加里-卡斯帕罗夫(Garry Kasparov)在与IBM计算机 「深蓝」(Deep Blue)的六局比赛中输掉了第一局,「深蓝」每秒能评估2亿步棋。

快到2015年10月,AlphaGo与三届欧冠卫冕冠军樊麾先生进行了第一场比赛。AlphaGo以5比0的比分赢得了史上第一场与围棋职业选手的比赛。围棋被认为是世界上最复杂的棋局,它有10360种可能的棋步。

可以见得,争论的焦点是,在大型多人在线角色扮演游戏中,人工智能必须能够击败玩家团队。

但目前的测试可能过于依赖欺骗、聊天机器人中的技术。目前,在我们的实际世界中,人工智能将需要进行互动和 「生活」,而不是游戏环境或模拟环境及其定义的规则。 

参考链接:

https://www.unite.ai/head-researcher-for-amazon-alexa-argues-turing-test-is-obsolete/‍

https://www.unite.ai/what-is-the-turing-test-and-why-does-it-matter/

亚马逊Alexa科学家:图灵测试70年已成古董,要给AI构建新的「黄金标准」了_详细解读_最新资讯_热点事件

编者按:本文来自微信公众号“新智元”(ID:AI_era)来源:unite.ai,编辑:小匀、yyan,36氪经授权发布。

1950 年,图灵提出著名的「图灵测试」去回答「机器能否思考」的问题,目的是判断机器是否能表现出人类也无法区分的对话行为。70年来,图灵测试也一直作为学术界的AI「北极星」而存在。近日,亚马逊语音助手 Alexa 部门的首席科学家认为,人们现在关心的是人机之间的互动,而不是区分机器和人类。他认为,图灵测试过时了,AI 需要新基准测试!

图灵测试可以退场了吗?

自从1950年艾伦·图灵发表论文回应「机器可以思考吗?」这一问题以来,已经过去70年。

图灵测试的目标,是确定机器是否能表现出人类无法区分的对话行为。在这个游戏中,谁是回应者,是人类还是人工智能,评估者是不被告知的。

在图灵的论文中,他本人也曾暗示过一个事实,即他认为图灵测试最终可能会被击败。他说:「到2000年,在一个模仿游戏中,一个普通人区分AI和人类的几率将低于70%,」

亚马逊语音助手 Alexa 部门的首席科学家罗希特·普拉萨德最近争辩说,长期用于衡量AI模型复杂程度的图灵测试,应该作为AI的基准而淘汰。

70年过去了,图灵测试该退场了吗?

旧基准与新时代:我们关心人机互动,不是区分机器和人类!

为了回答这个问题,让我们回到图灵第一次提出他的论文的时候。

1950年,第一台商用计算机还没卖出去;光缆的基础工作还要4年才能公布;人工智能领域也没有正式建立。

即使他的论文彻底改变了计算机科学和人工智能。但就在随后的2-4年里,图灵也因同性恋罪名而饱受折磨最后自杀。

幸运的是,他的「遗产」继续存在,而且在漫长的岁月里经受住了无数考验。

现在,人工智能已经发生了剧变。我们手机上的计算能力是阿波罗11号的10万倍,再加上云计算和高带宽连接,现在的AI可以在几秒钟内根据海量数据做出决策。

普拉萨德认为,图灵测试在很多方面是有局限性的,正如他手中的Alexa产品一样,很少会关心人类与AI的区别,而更关心与人工智能的密切互动。

例如,你要求你的AI助手关闭车库的灯,你并不希望与其对话。相反,你只希望它完成「确定」。

实际上,图灵自己甚至在他最初的论文中提到了这些当中的一些局限性。

普拉萨德认为,随着人工智能与人们生活方方面面的联系越来越紧密,图灵测试应该被认为是过时的,应被更有用的基准测试所取代。

此话不假,的确,许多早期的聊天机器人是为通过图灵测试而设计的,例如,类似「罗布能奖」 (The Loebner Prize) 和「话匣子挑战赛」 (The Chatterbox Challenge)的聊天机器人年赛,就是聚焦于图灵测试的。

但尽管如此,面对外界不断询问Alexa何时能够通过图灵测试时,普拉萨德指出,图灵测试仍然是聊天机器人和数字助理常用的基准。

他说,使用图灵测试评估机器智能性的其中一个主要问题是,它几乎完全削弱了机器查找信息和执行闪电般快速计算的能力。

比如说,装作停顿。

「3434756的立方根是什么?」

「西雅图到波士顿有多远?」

当听到这些问题时,人工智能程序完全能立即找到答案,但是,它们却会模仿人类的停顿。

除此之外,图灵测试没有考虑到人工智能使用外部传感器收集数据能力的日益增强,忽略了人工智能通过视觉和运动算法与周围世界进行交互的方式——只依赖于文本通信。

创建新的基准?

就像Alexa的功能一样,普拉萨德认为应该创造新的智能评估方式,适用于评估一般类型的智能机器。

这些测试应该能够搞清楚人工智能在多大程度上提高了人类的智力,以及人工智能在多大程度上改善了人们的日常生活。此外,测试应该弄明白人工智能是如何表现出类似人的智能特征的,包括语言能力、自我监督和「常识」。

当前人工智能研究重要的领域,如推理、公平性、对话和感官理解,并不是通过图灵测试来评估的,它们可以通过多种方式进行评估。

当时亚马逊创立Alexa 奖的标准是要求社交机器人与人类对话20分钟。这些机器人将被评估关于广泛话题连贯对话的能力,如科技、体育、政治和娱乐。顾客在机器人开发阶段对其打分,之后再次基于他们与机器人的聊天欲望对其进行打分。在最后一轮中,评委独立负责用五分制对机器人进行评分。评委们所使用的评价标准依赖于让人工智能在适当的情况下表现出移情等重要的人类属性的方法。

最终,普拉萨德认为像Alexa这样的人工智能装置的大量涌现,体现出衡量人工智能进程的重要机会,我们需要不同的策略来利用这个新机会。

普拉萨德解释到,人工智能若要成为处理大量任务方面的专家,只有具备更广泛的学习能力,而不是特定任务的智能,才有可能。因此,在未来十年乃至更长时间里,人工智能服务的实用性,以及它们在周围设备上的对话及主动协助能力是值得进行测试的。

图灵测试为何如此重要?

一个男人(A)女人(B),以及可能是两性的讯问者(C)。

游戏的概念是审讯者呆在与男人(A)和女人(B)都分开的房间里,目的是让审讯者识别男人是谁,女人是谁。在这种情况下,男人(A)的目的是欺骗询问者,而女人(B)可以试图帮助询问者(C)。为了公平起见,不能使用口头提示,而只能来回发送打字的问题和答案。问题就变成了:询问者如何知道该信任谁?

询问者仅通过标签X和Y知道它们,并且在游戏结束时,他只是简单地说「 X是A和Y是B」或「 X是B而Y是A」。

那么问题就变成了,如果我们把男人(A)或女人(B)去掉,把这个人换成一台智能机器,这台机器能不能用它的人工智能系统来欺骗审讯者(C),让他相信这是一个男人或一个女人呢?这就是图灵测试的本质。

换句话说,如果你在不知情的情况下与一个人工智能系统进行交流,而你又假设另一端的 「实体 」是一个人,那么人工智能能不能无限期地欺骗你呢?

图灵测试为何如此重要?

在图灵的论文中,他暗示了一个事实,即他认为图灵测试最终可能会被击败。他说:「到2000年,在一个模仿游戏中,一个普通人区分AI和人类的几率将低于70%,」

关于图灵测试被通过的报道很多。

2014年,一个名为Eugene Goostman的聊天机器人程序,模拟了一个13岁的乌克兰男孩,在一次图灵测试中,这个聊天机器人让伦敦皇家学会33%的评委相信它是人类。尽管如此,批评者很快就指出了测试的不足之处,时间太短!只有5分钟,这不足以来说明智能的程度。

2018年,在谷歌助手的协助下,谷歌Duplex预约系统假装成人类,给一家发廊打电话,同时与发廊的前台人员进行交流。短暂的交流后,「她」成功预约了一次理发。

然而,在这个自然语言处理(NLP)的时代,有自然语言理解(NLU)和自然语言解释(NLI)两个子领域,我们需要问一个问题,在不完全理解其背后的语境的情况下,这台机器是否真的智能?

毕竟,如果回顾一下IBM开发的Watson背后的技术,Watson是一个能够回答自然语言提出的问题的计算机系统,曾击败Jeopardy冠军,但Watson能够击败世界冠军,是通过互联网下载了一大批世界知识,包括维基百科在内的各种来源,却并不了解这种语言背后的背景。虽然,Watson在玩游戏的时候不能上网,但这对于一个人工智能来说,只是一个小小的限制,它只需要在游戏开始前获取人类所有的知识就可以了。

类似于搜索引擎,进行了关键词和参考点。如果一个人工智能能够达到这种理解水平,那么我们应该考虑到,基于今天不断进步的技术,欺骗一个人类5分钟或10分钟,根本没有设置足够高的门槛。 

不断移动的门槛

正是由于对现代AI的需求在改变,我们应该重新考虑图灵测试的新的现代定义。

回顾人工智能的发展史,人工智能能否达到人类水平智能的最终晴雨表,几乎都是基于它是否能在各种游戏中击败人类。

1949年,克劳德-香农发表了关于如何让计算机下棋的想法,因为这被认为是人类智慧的终极巅峰。

1996年2月10日,经过3个小时的艰苦比赛,国际象棋世界冠军加里-卡斯帕罗夫(Garry Kasparov)在与IBM计算机 「深蓝」(Deep Blue)的六局比赛中输掉了第一局,「深蓝」每秒能评估2亿步棋。

快到2015年10月,AlphaGo与三届欧冠卫冕冠军樊麾先生进行了第一场比赛。AlphaGo以5比0的比分赢得了史上第一场与围棋职业选手的比赛。围棋被认为是世界上最复杂的棋局,它有10360种可能的棋步。

可以见得,争论的焦点是,在大型多人在线角色扮演游戏中,人工智能必须能够击败玩家团队。

但目前的测试可能过于依赖欺骗、聊天机器人中的技术。目前,在我们的实际世界中,人工智能将需要进行互动和 「生活」,而不是游戏环境或模拟环境及其定义的规则。 

参考链接:

https://www.unite.ai/head-researcher-for-amazon-alexa-argues-turing-test-is-obsolete/‍

https://www.unite.ai/what-is-the-turing-test-and-why-does-it-matter/