扩展AI代理界面选项与2D和3D数字人类化身
当与生成式人工智能应用程序交互时,用户有多种交流选择——文本、语音或通过数字化身。
传统的聊天机器人或副驾驶应用程序都有文本界面,用户可以在其中输入查询并接收基于文本的响应。对于免提通信,自动语音识别(ASR)和文本转语音(TTS)等语音人工智能技术促进了口头交互,非常适合基于电话的客户服务等场景。此外,将数字化身与语音功能相结合,为用户提供了一个更动态的界面,使用户可以直观地参与到应用程序中。根据Gartner的数据,到2028年,员工人数超过500人的组织中,有45%将利用员工人工智能化身来扩大人力资本的容量
数字化身在风格上可以有很大的不同——一些用例受益于逼真的3D或2D化身,而另一些用例则更适合风格化或卡通化的化身。
3D化身提供完全身临其境的体验,展示逼真的动作和照片真实感。开发这些化身需要专门的软件和技术专长,因为它们涉及复杂的身体动画和高质量的渲染。
2D头像的开发速度更快,是网络嵌入式解决方案的理想选择。它们提供了一种创造交互式AI的简化方法,通常需要美术人员进行设计和动画,但在技术资源方面不那么密集。
为了启动您创建一个逼真的数字人,NVIDIA AI蓝图客户服务的数字人可以为各种用例量身定制。该功能现在包含在对NVIDIA Maxine Audio2Face-2D NIM微服务的支持中。此外,蓝图现在为3D角色开发者提供了使用虚幻引擎渲染的灵活性。
如何在您的代理应用程序中添加一个会说话的数字头像
在数字人类的AI蓝图中,用户与利用NVIDIA ACE技术的AI代理进行交互(图1)。
说明数字人类AI蓝图架构的图表,其中用户与连接到RAG管道的NVIDIA ACE代理交互以生成响应。
图1所示。数字人类的NVIDIA AI蓝图架构图
来自用户的音频输入被发送到ACE代理,ACE代理协调各种NIM微服务之间的通信。ACE代理使用Riva Parakeet NIM将音频转换为文本,然后由RAG管道进行处理。RAG管道使用NVIDIA NeMo检索器嵌入和重新排序NIM微服务,以及LLM NIM,从存储的文档中响应相关上下文。
最后,通过Riva TTS将响应转换回语音,使用Audio2Face-3D NIM或Audio2Face-2D NIM为数字人动画。
设计AI代理应用程序时的注意事项
在全球化企业中,跨语言的沟通障碍会减慢运营速度。具有多语言功能的人工智能头像可以轻松地跨语言交流。数字人类AI蓝图提供会话AI功能,通过Riva ASR,神经机器翻译(NMT)以及智能中断和驳船支持,模拟适应用户语音风格和语言的人类交互。
数字人工智能代理的主要好处之一是它们能够为员工和客户提供“永远在线”的资源。基于rag的人工智能代理不断从交互中学习并随着时间的推移而改进,从而提供更准确的响应和更好的用户体验。
对于考虑数字人机界面的企业,选择正确的化身和呈现选项取决于用例和自定义首选项。
用例:3D化身是高度沉浸式用例的理想选择,比如在实体店、信息亭或主要的一对一互动中,而2D化身则适用于网络或移动会话AI用例。
开发和定制偏好:拥有3D和动画专业知识的团队可以利用他们的技能来创建身临其境和超逼真的化身,而希望快速迭代和定制的团队可以从2D化身的简单性中受益。
比例考虑:在评估角色和相应的渲染选项时,比例是一个重要的考虑因素。流吞吐量,特别是3D角色,高度依赖于所使用的角色资产的选择和质量,所需的输出分辨率和渲染选项的选择(Omniverse Renderer或虚幻引擎)可以在决定每个流计算足迹方面发挥关键作用。
NVIDIA Audio2Face-2D允许从肖像图像和语音输入创建逼真的2D化身。简单的配置允许开发人员快速迭代并为他们的数字人类用例生成目标化身和动画。通过实时输出和云原生部署,2D数字人是交互式用例和交互式网络嵌入式解决方案的流媒体化身的理想选择。
例如,企业希望在多个设备上部署人工智能代理,并将数字人类插入到网络或移动优先的客户旅程中,可以从2D化身减少的硬件需求中受益。
3D逼真的虚拟化身为需要高度同理心的用户参与的用例提供了无与伦比的沉浸式体验。NVIDIA Audio2Face-3D和Animation NIM微服务通过生成混合形状以及微妙的头部和身体动画来动画3D角色,以创建身临其境,逼真的化身。数字人类AI蓝图现在支持两种3D角色渲染选项,包括Omniverse Renderer和虚幻引擎Renderer,为开发人员提供了集成他们选择的渲染选项的灵活性。
要探索数字人类如何增强您的企业,请访问NVIDIA API目录,了解不同的化身选项。
开始使用数字头像
要使用Audio2Face-2D和虚幻引擎NIM微服务进行实际开发,请申请ACE抢先体验或潜入数字人类AI蓝图技术博客,了解如何添加数字人类界面来个性化聊天机器人应用程序。
GARTNER是GARTNER, Inc.和/或其附属公司在美国和国际上的注册商标和服务标志,在获得许可的情况下使用。版权所有。