弥合AI大规模落地的巨大缺口！阿里、腾讯、百度等联合推出互联网服务AI基准

发布时间：2019-09-17 02:34:05 所属栏目：经验来源：Maglish

导读：现如今，互联网服务正经历着根本性的变化，并逐渐转向智能计算时代。现代互联网服务提供商普遍采用人工智能来增强其服务。在这种背景下，研究人员提出了许多创新的人工智能算法、系统和架构，因此基准（benchmark）和评估基准的重要性也随之上升。然而，现

框架还提供了离线训练和在线推理模块，以构建端到端的应用程序基准。首先，离线训练模块从 AI 问题领域模块中选择一个或多个组件基准，通过指定所需的基准 ID、输入数据和执行参数（如批大小）。然后离线训练模块对模型进行训练，并将训练后的模型提供给在线推理模块。在线推理模块将训练好的模型加载到服务系统中，例如 TensorFlow 服务。通过与关键路径中的其他非 AI 相关模块协作，一个端到端的应用程序基准就构建完成了。

为了能够在大型集群上轻松部署，该框架还提供了部署工具，其中包含两个分别使用 Ansible 和 Kubernetes 的自动部署模板。其中，Ansible 模板支持在物理机或虚拟机上的可扩展部署，而 Kubernetes 模板则用于在容器集群上部署。

2.2 突出 AI 问题领域

为了覆盖互联网服务中广泛的主要人工智能问题领域，作者深入分析了搜索引擎、社交网络和电子商务三大主要互联网服务的核心场景，如表 2 所示。一共确定了 16 个具有代表性的人工智能问题领域：

å¼¥åˆAIå¤§è§„æ¨¡è½åœ°çš„å·¨å¤§ç¼ºå£ï¼é˜¿é‡Œã€è…¾è®¯ã€ç™¾åº¦ç‰è”åˆæŽ¨å‡ºäº’è”ç½‘æœåŠ¡AIåŸºå‡†

表 2：互联网服务中的突出 AI 问题领域

分类：从输入数据中提取不同的主题类，这是一个有监督的学习问题，通过定义一组目标类别并训练模型进行识别。它是互联网服务或其它应用领域的典型任务，广泛应用于类别预测、垃圾邮件检测等多种场景中。

图像生成：提供一个无监督的学习问题来模拟数据的分布并生成图像。此任务的典型场景包括图像分辨率增强，可用于生成高分辨率图像。

文本到文本翻译：将文本从一种语言翻译到另一种语言，这是计算语言学最重要的领域，可以用来智能翻译搜索和对话。

图像到文本：自动生成图像的描述。它可以用来生成图像标题和识别图像中的光学字符。

图像到图像：将图像从一个表示转换为另一个表示。它可以用来合成不同年龄的人脸图像，模拟虚拟化妆。面部老化可以帮助搜索不同年龄阶段的面部图像。

语音识别：将语音输入识别和翻译为文本。该任务主要应用于语音搜索和语音对话翻译。

人脸嵌入表示：将人脸图像在内嵌空间中转化为一个向量。该任务的典型场景是人脸相似度分析和人脸识别。

三维人脸识别：从不同角度从多幅图像中识别出三维人脸信息。主要研究三维图像，有利于实现人脸相似度和人脸认证场景。

目标检测：检测图像中的对象。典型的场景是垂直搜索，如基于内容的图像检索和视频对象检测。

推荐：提供建议。此任务广泛用于广告推荐、社区推荐或产品推荐。视频预测：通过预测先前帧的变换来预测未来的视频帧。典型的应用场景是视频压缩和视频编码，用于高效的视频存储和传输。

图像压缩：压缩图像并减少冗余。从数据存储开销和数据传输效率的角度来看，这项任务对于互联网服务是非常重要的。

三维物体重建：预测和重建三维物体。典型的应用场景有地图搜索、光场渲染和虚拟现实。

文本总结：为文本生成摘要，对于搜索结果预览、标题生成和关键字发现非常重要。

空间变换：执行空间变换。典型应用场景是空间不变性图像检索，这样即使图像被大幅拉伸，也可以检索图像。

学习排序：学习搜索内容的属性，对搜索结果的得分进行排序，这是搜索服务的关键。

2.3 微基准和组件基准

针对上面总结的突出人工智能问题，作者给出了人工智能算法的具体实现。表 3 和表 4 列出了 AIBench 中的组件基准和微基准。总的来说，AIBench 包括 16 个用于 AI 问题的组件基准和 12 个从典型 AI 算法中提取计算单元的微基准。

å¼¥åˆAIå¤§è§„æ¨¡è½åœ°çš„å·¨å¤§ç¼ºå£ï¼é˜¿é‡Œã€è…¾è®¯ã€ç™¾åº¦ç‰è”åˆæŽ¨å‡ºäº’è”ç½‘æœåŠ¡AIåŸºå‡†

表 3：AIBench 组件基准

å¼¥åˆAIå¤§è§„æ¨¡è½åœ°çš„å·¨å¤§ç¼ºå£ï¼é˜¿é‡Œã€è…¾è®¯ã€ç™¾åº¦ç‰è”åˆæŽ¨å‡ºäº’è”ç½‘æœåŠ¡AIåŸºå‡†

表 4：AIBench 微基准

2.4 数据模型

为了满足不同应用的数据集的多样性，作者收集了 15 个具有代表性的数据集，包括 ImageNet、CIFAR、LSUN、WMT English-German、CityScapes、Librispeech、Microsoft Coco、LFW、VGFace2、Robot Pushing、MovieLens、ShapeNet、Gigaword、MNIST、Gowalla 以及来自行业合作伙伴的 3D 人脸识别数据集。

2.5 评价指标

AIBench 专注于准确性、性能和能源消耗等行业重点关注的指标。在线推理的度量包括查询响应延迟、尾部延迟和性能方面的吞吐量、推理精度和推理能耗。离线训练的度量包括每秒处理的样本、训练特定 epoch 的时间、训练达到目标精度的时间和训练达到目标精度的能量消耗。

3、设计和实现应用基准

在 AIBench 框架的基础上，作者实现了第一个端到端的 AI 应用基准，对现实的电子商务搜索任务进行完整的用例建模。

3.1 设计和实现

（编辑：甘孜站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/11

首页

尾页

网站添加社会化标签有	百度站长工具怎么分析
为什么要建手机网站？	怎么看网站是否启动CD