支持语音和视觉交互的虚拟数字人技术规范

2022-08-12 • Orange

本文件按照GB/T 1.1-2020《标准化工作导则第1部分：标准的结构和编写》给出的规则起草。

请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。

本文件由**市人工智能产业协会（Shenzhen Artificial Intelligence Industry Association）标准化委员会提出并归口。

本文件起草单位：**市人工智能产业协会、**市8K超高清视频产业协作联盟、**赛西信息技术有限公司、**市优必选科技股份有限公司、**市金大智能创新科技有限公司、科大讯飞股份有限公司、**市博乐信息技术有限公司、锋睿领创（珠海）科技有限公司、*****耳智能声学科技有限公司、**欧博思智能科技有限公司、蓝亚技术服务（**）有限公司、**酷酷科技有限公司、**光子晶体科技有限公司、**奥尼电子股份有限公司、东莞市律普电子科技有限公司、杭州汇萃智能科技有限公司。

支持语音和视觉交互的虚拟数字人技术范围：

本文件规定了支持语音和视觉进行交互的虚拟数字人的技术要求和测量方法。

本文件适用于支持语音和视觉交互的虚拟数字人及其系统的研发、设计和测试。

支持语音和视觉交互的虚拟数字人技术规范(图1)

规范性引用文件：

下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件，仅注日期的版本适

用于本文件。凡是不注日期的引用文件，其最新版本（包括所有的修改单）适用于本文件。

GB 3096-2008 声环境质量标准；

GB/T 5271.29-2006 信息技术词汇第29部分：人工智能语音识别与合成；

GB/T 12060.5-2011 声系统设备第5部分：扬声器主要性能测试方法；

GB/T 12060.16-2017 声系统设备第16部分：通过语音传输指数客观评价言语可懂度；

GB/T 14277-2013 音频组合设备通用规范；

GB/T 21023-2007 中文语音识别系统通用技术规范；

GB/T 21024-2007 中文语音合成系统通用技术规范；

GB/T 34083-2017 中文语音识别互联网服务接口规范；

GB/T 34145-2017 中文语音合成互联网服务接口规范；

GB/T 35273-2020 信息安全技术个人信息安全规范；

GB/T 35312-2017 中文语音识别终端服务接口规范；

GB/T 36464.1-2020 信息技术智能语音交互系统第1部分：通用规范；

GB/T 36464.2-2018 信息技术智能语音交互系统第2部分：智能**；

GB/T 36464.3-2018 信息技术智能语音交互系统第3部分：智能客服；

GB/T 36464.4-2018 信息技术智能语音交互系统第4部分：移动终端；

GB/T 36464.5-2018 信息技术智能语音交互系统第5部分：车载终端；

SJ/T 11380-2008 自动声纹识别（说话人识别）技术规范；

SJ/T 11540-2015 有源扬声器通用规范；

GB/T 38665.1-2020 信息技术手势交互系统第1部分：通用技术要求；

GB/T 38665.2-2020 信息技术手势交互系统第２部分：系统外部接口；

SJ/T 11348-2016 平板电视显示性能测量方法；

GB/T 35273—2020《信息安全技术个人信息安全规范》。

术语和定义

下列术语和定义适用于本文件。

1.虚拟数字人 virtual digital human：

是基于计算机视觉和语音合成等技术，进行形象、声音、动作等的模型训练后，可以生成虚拟人像并与使用者交互的设备。

2.语音交互 speech interaction：

人类和功能单元之间通过语音进行的信息传递和交流活动。

[GB/T 36464.2-2018，定义3.1]

3.语音识别 speech recognition：

将人类的声音信号转化为文字或者指令的过程。

[GB/T 21023—2007，定义3.1]

4.语音合成 speech synthesis：

将给定的文本转换成与之对应的语音的过程。

[GB/T 34145—2017，定义3.1]

5.自然语言理解 natural language understanding：

让计算机能够理解自然语言文本中蕴含的含义及意图的过程。

6.语音唤醒 speech wake-up;voice trigger：

处于音频流**状态的语音交互系统，在检测到特定的特征或事件出现后，切换到命令词识别、连续语音识别等其他处理状态的过程。

[GB/T 36464.2-2018，定义3.13]

7.误唤醒 false wake-up：

语音交互系统处于音频流**状态，无音频流或者音频流中没有出现唤醒所需的特征或事件时，语音唤醒系统被唤醒的现象。

[改写GB/T 36464.2-2018，定义3.14]

8.噪声 noise：

语音采集过程中，采集到的能干扰对目标语音信号的识别、理解或处理的信号。

9.声纹 voiceprint：

指语音中所蕴含的、能表征和标识特定说话人的独有的特性或特征。

[SJ/T 11380—2008，定义3.1.1]

10.声纹识别 voiceprint recognition：

根据待识别语音的声纹特征识别该段语音所对应的说话人的过程。

[SJ/T 11380—2008，定义3.1.6]

11.麦克风阵列 microphone array：

由具有确定空间拓扑结构的多个麦克风组成的，对信号的空间特性进行采样并处理的系统。T/AIIA-002-2021

12.语音打断 speech interruption：

语音交互系统在播放声音的过程中，当语音采集设备检测到有效语音输入时，终端播放声音，转到语音识别等其他处理过程。

[GB/T 36464.2-2018，定义3.18]

13.隐私标签 privacy label：

由厂商或者开放平台应用定义的涉及使用者私密信息的数据，对该类型数据加以标识的标签。

14.手势 gesture：

用户利用上肢（包括手部和手臂）表达交互意图时，所执行的具体姿态或动作。

15.手势识别 gesture recognition：

从输入的手势图像/视频数据确定用户手势状态。

16.人体姿态估计 pose estimation：

从2D图像中，预测人体的13个关节点和5个头部关键点的图像坐标。13个人体关节点的

定义为：1 脖子（neck）、2 右肩（right shoudler）、3 右肘（right_elbow）、4 右腕（right_wrist）、5 左肩（left_shoudler）、6 左肘（left_elbow）、7 左腕（left_wrist）、8 右髋（right_hip）、9 右膝（right_knee）、10 右踝（right_ankle）、11 左髋（left_hip）、12 左膝（left_knee）、13 左踝（left_ankle）；5个头部关键点的定义为：14 鼻子（nose）、15 右眼（right_eye）、16 左眼（left_eye）、17 右耳（right_ear）、18 左耳（left_ear）。

测试方法

语音交互测试要求

1 测试语料要求：

测试语料应覆盖被测系统的核心词汇，并从被测系统词汇量覆盖、业务覆盖、音节覆盖，以及常用性角度进行设计，具体要求应按GB/T 21023-2007执行。

2 语音测试集要求：

语音测试集应符合以下要求：

1) 语音识别准确率测试应至少由男女老少各 25 名发音人进行录制，语音唤醒功能测试应至少由 100 名发音人录制，具体要求应按 GB/T 21023-2007 执行；

2) 声纹识别测试应至少由 50 名发音人录制验证，具体要求应按 GB/T 21023-2007 执行。

支持语音和视觉交互的虚拟数字人技术规范就先讲到这里了，想要获取更多认证有关的内容，您可关注蓝亚技术，我们将持续为您讲解~ ，您这边有任何疑问也可以联系13632500972 （微同号）

公司以蓝牙无线技术服务起家，目前已拥有数字化实验室、EMC电磁兼容、RF射频、蓝牙BQB、安规、物联网性能、音频性能和可靠性实验室，是华南地区首家取得蓝牙5测试能力的授权实验室。蓝亚技术在武汉的实验室服务华中地区。我们的实验室满足ISO17025：2017体系，并已获得中国CNAS：L9788；美国 A2LA：CN1252；加拿大CAB：CN0028；日本C&S认可、蓝牙联盟BQTF资质；亚马逊合作检测认证供应商资质。

拥有无线产品畅销全球相关测试能力，可提供BQB、SRRC、CR认证（机器人）、FCC、IC、CE、Carplay、AndroidAuto、RCM、MIC/TELEC、研发跟互联软件测试及东南亚、中东、南美洲、非洲等多国转证服务。