全息手语翻译辅助技术走进教室
来自普渡大学的一个团队结合了创新和技术,为聋哑和听力困难(DHH)的学生创建了一个新的学习系统。在“全息手语翻译”中,通过可穿戴混合现实智能眼镜(微软HoloLens)观察到的手语化身,将语音实时翻译为精确符号化英语(SEE)。SIGGRAPH与辅助技术项目背后的团队进行了交流,以了解更多关于其开发的信息,以及它如何促进围绕教室无障碍环境的对话。
SIGGRAPH: 分享一些SIGGRAPH 2022教育工作者论坛演讲“全息手语翻译”的背景知识。是什么启发了吗?
FY::我们的研究实验室多年来一直致力于数字手语虚拟形象的研究。在过去,我们通过构建应用程序和结合聋哑/听力困难学生的手语教学代理来探索不同的可穿戴XR设备。随着HoloLens 2的引入和开发者api的增强,我们决定将“全息手语翻译”纳入我们的研究范围。
Christos Mousas (CM):我们为DHH学生构建了一个混合现实(MR)应用程序。我们的系统检测音频输入并在接近实时的情况下显示相应的符号动画。本研究的整体目标是透过全息可穿戴MR的应用,提高DHH大学生对教育资料的可及性及DHH儿童对数学概念的学习。
SIGGRAPH:给我们讲讲“全息手语翻译”的发展。你在创作过程中遇到过什么挑战吗?
FY:最具挑战性的部分是在有限的手语数据集下,为原型设计语音到手语的集成,并测试HoloLens设备的兼容api。我们的团队计划通过实现机器学习和自然语言处理技术来加强这部分应用程序,这是语音到符号集成的终极最佳方法。
CM:我们项目的实施流程包括两个主要步骤。首先,我们通过动作捕捉收集了四堂K-1数学课。一名专业的聋哑人被招募来用精确签名英语(SEE)进行K-1数学讲座。我们利用动作捕捉技术为全息化身捕捉SEE动画。其次,利用Azure语音转文本SDK,在Unity游戏引擎上设计了MR应用程序。该系统将教师输入的语音(音频)转换为英文文本。然后对转换后的句子进行分析,找出相应的符号、韵律标记和韵律修饰语。然后,系统触发数据集中的手势动画片段,并呈现一个逼真的全息手语翻译,他在SEE中做动作。
SIGGRAPH:你们是如何开发这些虚拟形象的?
FY:这个角色最初是由萨拉斯(2020年)创作的。我们购买了先进的骨骼邦定,并重新装配它,以适应我们的运动捕捉流程。然后,通过一个完整的身体、面部和手部跟踪系统,通过记录一名专业的手语,捕捉化身的动画。
SIGGRAPH:这个系统如何有助于提高课堂的可访问性和适应性?
FY:使用数字手语可以从多个角度使DHH学生受益。人工口译通常成本高昂,而且不是随时随地都有的, 尤其是在高等教育方面,而数字手语口译可以为最终用户提供更高的易用性。此外,课程材料可以在课后检索和审查,数字代理可以迎合用户的偏好,提供了更高的适应DHH社区。类似的应用也可以在课堂之外使用,包括日常交流和娱乐活动。
SIGGRAPH:你希望这个系统将来如何使用?你希望用户从中得到什么?
FY:创建这个系统的目的不是取代口译员,而是为DHH人员提供更多的选择和选择。系统的多个方面仍需改进和调整,以更好地适应最终用户的要求和期望。我们希望不断改进该系统,并能够在真实的课堂场景中测试它。
CM:聋人学习者可以在教室里、在家里、在与数字教育材料互动时使用全息化身。然而,全息化身解释器还可以在其他多个领域造福DHH人群,比如在市场或其他公共场所。我们希望用户认为,技术进步可以简化和改善我们的日常生活。
SIGGRAPH:当SIGGRAPH 2022的参与者在会议期间了解到更多关于“全息手语翻译”的知识时,他们能期待什么?
FY:在辅助技术方面,人的因素和投入是至关重要的。我们利用几种尖端技术构建了这个原型,主要目标是为DHH学生在课堂上带来最好的体验。
CM:我们计划展示我们应用程序的开发过程。我们希望参与者通过了解当前的技术限制和潜在的未来方向而受益。毕竟,综合全息手语翻译仍然是一个挑战,各个领域的研究人员应该共同努力,以取得更好的结果。
SIGGRAPH: SIGGRAPH很兴奋能举办有史以来第一次线上线下结合的会议。关于这次经历,你最期待的是什么?
FY:我期待着与在线投稿者见面,也期待着与亲自出席会议的人进行直播演讲。
CM:我们之前经历过这种会议类型(例如ACM CHI 2022)。我们知道,在组织这样一场混合活动时,会面临很多挑战。不过,我们真的很期待社交活动。