声网 MetaChat 元语聊解决方案发布：虽远隔万里，仍可“促膝”畅谈

作者：程雪贞 | 时间：2021-12-30 18:45:50 | 来源：公益扶贫网

　　随着疫情的常态化，当物理层面上的隔离成为必须，我们总要通过其他途径满足人类刚需――社交。怎样才能让人们超越物理的距离，实现最“真实”的见面?语聊房、互动播客、一起X.....线上的片刻相聚，又仿佛蜻蜓点水般的相遇，始终缺少面对面促膝长谈的畅快、老友间耳语交流的私密。对于初次在线上相遇的两个陌生人而言，又如何拉近在线上的“距离”?

　　注册登录、取个名字、生成自己的虚拟形象，选择任一房间进入，接下来你便可以与众多用户体验低延时、稳定、流畅的“元宇宙社交”了。多种虚拟场景随你选，360° 空间音频让无数屏幕后的“社牛”和“社恐”们，体验到虽远隔万里，仍可“促膝”而谈的沉浸感。而这背后用到的便是声网“MetaChat 元语聊”解决方案。

　　传统语聊房只闻其声，不见其“人”，缺少沉浸感。而声网 MetaChat 元语聊解决方案提供了一种全新的语聊方式――用户以虚拟形象参与到畅聊中。目前已支持自定义捏脸、服饰、发型搭配等功能，为用户打造独一无二的 Avatar。此外，用户的虚拟形象风格可按需定制，满足开发者对于拟真、卡通等在内的各种业务场景需求。虚拟形象是“社牛”和“社恐”都能接受的社交方式，具体来说虚拟形象的构建会使得以往缺失在沟通环节中的“身体”重新“在场”，会使得用户的非语言符号、动作等得以具现，这唤醒了具身传播，激发了用户的社交潜能，也让那些喜欢线上交友但却“社恐”的用户多了些许心理慰藉和神秘感。

　　■百变造型和服饰，创造专属 Avatar

　　声网 MetaChat 元语聊解决方案目前提供 Party、咖啡厅、酒吧3种虚拟场景，未来将会拓展诸如会展、自习室、迪厅等在内的多元化场景，开发者可根据业务玩法选择合适的场景，也可按需定制。以上虚拟场景基于 AR-3D 引擎建模，可以实现多风格建筑、物体等 3D 物体效果;雨水、火焰、烟雾等复杂粒子效果;以及碰撞、重力等物理效果;并支持卡通、反射、高光计算、多光源等复杂的材质系统。逼真、沉浸式的虚拟场景避免了单一的语聊场景给用户带来的视觉疲劳，还能缓解用户间沉闷、尴尬的初始沟通气氛。

　　■沉浸式虚拟场景，打造绝佳社交体验(左右滑动观看)

　　目前，每个语聊房可以支持16位玩家，每位玩家都可以看到其他玩家的Avatar，且可以与任一玩家进行动作互动，还可以在任意空座位上就坐，在吧台喝饮料、起舞等。

　　要做到深度的社交沉浸感，一大难点是如何在虚拟社交场景中重现“空间的质感”。空间、距离、尺寸等维度对于判断一个环境是否真实至关重要，也是实现深度沉浸感的重要一环。声网 MetaChat 元语聊解决方案支持 360° 空间音频，可以为语聊房中的玩家带来身临其境的聊天体验和更为沉浸的在场参与感，让沟通更高效、更有趣。

　　所谓空间音频，或许大家在很多场景中都有过体验。例如在“吃鸡”一类的游戏中，我们戴上耳机，可以利用声音带来的方位感判断队友当下所处的位置;亦或是在虚拟会议场景中，大家虽然坐在不同的位置，但你能清楚的听到每个人发出声音的具体方位、甚至感知到声音的远近强弱。

　　声网 360° 空间音频采用纯软件算法方案，能够模拟头部球面区域立体声场，因此不受硬件的限制，用户使用普通耳机在手机或电脑上就能体验。当用户操作 Avatar 在虚拟场景里移动时，听到的音效会根据Avatar的头部及脸部朝向、声源角度和距离不同而变化，完美模拟现实听觉。具体在语聊房场景中：

　　玩家在进入房间后会听到房间内正在播放的背景音乐，例如在咖啡厅场景中会听到轻音乐，在酒吧会有驻场乐队、DJ 等不同效果。玩家走向房间的不同方位也会听到不同的 BGM 效果，比如随着脚步的走远 BGM 音量变小，声音逐渐清晰或减弱等。除此之外，玩家还可以通过前后左右的位置操控，移动到其他玩家身边开启畅聊。最让人激动的是，房间内的 BGM 可以与玩家的音频共存，这就意味着玩家既可以听到房间内的背景音乐，又能听到一定范围内其他玩家的声音，再辅以玩家的虚拟形象，这就完美模拟了真实的互动感。宛若众人在现实中的酒吧听着音乐、喝着酒，畅聊人生得与失，岂不快哉?

　　■轮盘控制角色移动，感受 360° 空间音频

　　未来，声网 MetaChat 元语聊解决方案还将支持语音驱动嘴型和声纹变声两大功能。

　　1. 关于语音驱动嘴型，声网将提供以下两种解决方案：

　　纯音频驱动方案：无需面部表情捕捉，通过算法识别，将中英文(或其他语种)发音跟人像嘴型、面部表情智能关联，驱动人像模拟真人说话，支持2D人像图片和3D人像模型。

　　面部表情捕捉方案：需要调取表情捕捉设备(例如手机前置摄像头)，通过捕捉面部表情系数，准确识别眨眼、皱眉、张嘴、转头等动作。

　　2. 声网声纹变声支持在保持语义内容不变的情况下，将一个人的语音转成另一个人或另一种风格，包括变声和美声两大类：

　　变声：包括声音变换、风格变换和情绪变换，常用于娱乐场景。

　　美声：将不流畅的表达转化为流畅的表达，将疲惫的声音转化为音色饱满的演说，常用语演说等商用场景。

　　纵观元宇宙爆火的当下，我们不难发现科技巨头所展望的“元宇宙社交”，其实已雏形初具：移动互联网的发展开启了虚拟与现实的结合，而实时互动正在将这种结合逐层渗透。或许在不久的将来，我们将可能在虚拟的 KTV 中，与一众 Avatar 挥舞荧光棒，合唱一首《难忘今宵》。

上一篇： MIUI13来了！聚焦基础体验流畅度最高提升52％
下一篇： 2021年终盘点：这一年，人工智能潮水褪去，始见真章