图像识别范畴四大天王谁最强谷歌实力碾压微软IBM亚马逊

发布时间：2019-08-12 14:47:11 阅读：8310+ 来源：腾讯科技 作者：责任编辑NO。许安怡0216

新智元报导

来历：perficientdigital

修改：大明、张佳

【新智元导读】作为机器学习最抢手的范畴之一，图画辨认是判别AI聪明与否的一个重要规范。作为首要的参加者，微软、IBM、谷歌和亚马逊在这项技术上投入巨资，那么，究竟哪一家做得更好呢？研讨发现，谷歌在图画辨认方面取得了81.7％的精确率，仅次于人类，四家中排名榜首。

机器学习最抢手的范畴之一是图画辨认。有许多首要参加者在这项技术上投入巨资，包含微软，IBM，谷歌和亚马逊。但哪一个做得最好？

Perficient Digital的研讨团队发布了一份对这四家科技巨子图画辨认的研讨陈述。陈述显现，谷歌在图画辨认方面取得了81.7％的精确率，在四家中最高；IBM在图画辨认方面取得了55.6％的精确率，在四家中最低。

本次研讨触及的图画辨认引擎包含：

亚马逊AWS Rekognition

谷歌Vision

IBM Watson

微软Azure Computer Vision

本次研讨运用了2000张图画，分为四类：

图表

景色

人物

产品

每个图画辨认引擎回来的标签总数如下：

研讨团队运用两种不同的方法来评价每个引擎：

来自每个图画辨认引擎的标签的精确度（500个图画），称之为“精确度评价”。

来自图画辨认引擎的标签是否是描绘每个图画的最佳匹配（2000个图画），这被称为“匹配人类描绘评价”。

一、图画辨认引擎标签精确度

在精确性评价中，对500张图画中的每一张，图画辨认引擎的每一个标签都要评价其是否精确。有“精确、不精确和我不确定”三个选项（只要1.2%的标签被符号为“不确定”）。

这儿的差异在于标签能够被判别为精确，即便它是人类在描绘图画时不太或许运用的标签。例如，室外场景的图片或许被引擎符号为“全景”，并且彻底精确，但依然不是用户想要描绘图画的标签之一。

考虑到这一点，下表是每个引擎的得分：

很显着，赢家是谷歌Vision（精确率81.7%），亚马逊AWS Rekognition排在第二位（精确率77.7%），微软Azure排名第三（精确率75.8%），IBM Watson排名最终（精确率55.6%）。

置信水平

以上分数包含每个引擎回来的一切符号。可是，每个引擎也会回来他们对每个符号的置信度的分数。这使它能够回来更具估测性的标签。以下是每个引擎的置信度得分汇总的数据：

以下是引擎具有90％或更高置信度的一切图画：

这些数据令人入神的是，在朴实的精确性根底上，四个引擎中的三个（亚马逊，谷歌和微软）的得分高于人类符号，最高置信度超越90％。

当咱们将置信水平降至80％或更高时，让咱们看看这是怎么改变的：

在这个等级，咱们看到“人手符号”的分数基本上与咱们在亚马逊AWS Rekognition，谷歌Vision和微软Azure Computer Vision中看到的分数相同。

能够预期，给出低置信度的标签的精确性会下降，事实证明是这样的：

关于接下来的几个图表，研讨人员经过图画辨认引擎在许多类别的置信水平上看精确性。

亚马逊AWS Rekognition

谷歌Vision：

IBM Watson：

微软Azure Computer Vision：

在一切的引擎中，咱们都能够看到，它们在分配给更高置信度分数的标签上做得更好。

二、图画辨认引擎与人类的主意相匹配的程度怎么？

匹配人类描绘评价的不同之处在于，研讨人员向用户出现了每个引擎为每个图画供给的前五个最高置信度标签，而没有告知他们来自哪个图画辨认引擎。

然后，在2000张图画中，研讨人员要求用户挑选并摆放他们以为最能描绘图画的前五个标签。与之前的数据集不同，这儿的要点是最佳匹配人类的主意。这次评价的意图是看看哪个引擎最接近这一点。

关于数据，让咱们从渠道的均匀得分开端，总计：

如图所见，“手动符号”图画的得分远高于任何引擎。这是能够预料到的，由于手动符号的标签的图画描绘是精确的。

四个图画辨认引擎和人类水平之间的间隔非常大。值得留意的是，四个引擎中Google Vision显着功能更高，但手动符号成果的挑选频率仍远高于任何引擎给出的成果。

总归，人类依然能够比机器API更好地辨认图画，并对其他人解说自己的观点。这是由于几个要素的效果，其间包含言语的特异性、具有宽广布景常识根底的引擎常常会重视对人类没有重大意义的特点，因而尽管这些特点是精确的，但人类更有或许描绘他们的感触，更精确地辨认图画。

下图为按图画类型分类的分数视图：

按图画类别区分很有意思。人类手动符号的标签仍是每个类别中方针最多的标签。Google Vision在四个类别中的三类中取胜，亚马逊AWS几乎没有在任何类别中占有优势。

当引擎标签的置信度为90％以上时，四个引擎中的三个得分高于人工标示标签。

三、图画辨认引擎的词汇表

本研讨最风趣的发现之一便是不同渠道上词汇引擎的改变状况。以下是参加比较的四个渠道的原始数据，以及咱们的“手动符号”成果。

当然，依据图画类型不同，词汇发作改变是自然而然的工作（详细数据以下给出）。

下图为AWS Rekognition的成果：

Google Vision:

IBM Watson:

微软 Azure Computer Vision：

如上所见，你或许现已留意到了，咱们将数据分成了一个个单词，但不少数据标签长度都不止一个单词，并且标签的均匀长度会跟着不同引擎发作必定程度的改变，下图所示为每个标签下的均匀单词数量。

最终，是关于每个图画辨认引擎每次反响的均匀字数。

每种引擎下的等级水平

整体看来，一切的引擎间隔人类描绘图画的方法还有很大的间隔。

其他特征：IBM Watson是“艺术家”，AWS是“时髦达人”

IBM Watson独爱五颜六色：其API具有最共同的色彩改变组合和最多的色彩种类。

Google Vision和微软Azure Computer Vision也常常说到“黄色”，但都比不上IBM Watson的“艺术家”气味。

Microsoft Azure Computer Vision能够描绘图画质量：引擎会回来“含糊”以及“像素级”的成果。

进行时词汇：IBM Watson有112个回复以进行时“ing”完毕，Amazon AWS Rekognition这样的回复结束有62个，Microsoft Azure Computer Vision有87个，Google Vision有103个。

IBM Watson喜爱高度描绘性的词语, 并为这些词汇增加语境：pinetum（松树），牛轭（河），LED显现屏（计算机/电视），rediffusion（散布），'蔓藤斑纹（装修），'dado（骰子），'爬山杖（攀爬配备）。

实际上，IBM Watson在许多方面都过于极点地描绘了图画。这或许导致IBM Watson面对的一些精确性上的问题。从活跃方面来说，这种对高度描绘性词语的重视应该运用户更简单找到与其查询恳求相关的图画。

AWS Rekognition是一个“时髦达人”：亚马逊AWS Rekognition喜爱服装。它比其他API更能辨认出短裤、裤子和衬衫。

Google喜爱猫，IBM Watson喜爱狗：谷歌更长于辨认出猫的种类，IBM Watson更长于辨认出狗的种类，并对它们有更详细的了解，乃至能够详细到“德国短毛指针犬”。Microsoft Azure在猫的辨认上仅次于Google Vision，位居第二。

总结

很显着，Google Vision是这场比拼中的赢家，在原始精度和与人类描绘图画的一致性上处于抢先。

IBM Watson在测验中排名最终，但应该留意到IBM Watson在自然言语处理方面体现优异，而NLP这不是本研讨的要点。它是迄今为止仅有一家为自定义NLP模型创立构建完好GUI的首要AI供货商，Watson渠道不只答应分类，还答应经过该GUI提取自定义实体。

相同令人兴奋的是，当置信度大于90％时，四个引擎中的三个引擎的原始精度得分要高于人类手动符号。这是图画辨认引擎功能和发展潜力的强有力的证明。不过，从图画辨认引擎以相似人类的方法描绘图画，并以此进行图画符号的体现来看，未来还有很长的路要走。

https://uracy-study

上一篇：外媒一加或9月26日发

下一篇：AMD的第N次逆袭7nm芯

“如果发现本网站发布的资讯影响到您的版权，可以联系本站！同时欢迎来本站投稿！