Riva和NeMo Megatron的最新技术
使用来自Riva和NeMo威震天的最新技术,在多种语言中构建语音人工智能,并训练大型语言模型
在上周的NVIDIA GTC 2022大会上,NVIDIA宣布了Riva的重大更新,一个用于构建语音AI应用的SDK,以及一个付费的Riva Enterprise。同时也宣布了NeMo Megatron (一个训练大型语言模型的框架)的几个关键更新。
Riva 2.0一般可用性
Riva提供了世界一流的实时自动语音识别(ASR)和文本到语音(TTS)技能,可以在任何云中部署。Snap、T-Mobile、RingCentral和Kore等行业领导者。ai在客户服务中心应用程序、转录和虚拟助理中使用Riva。
最新的Riva版本包括:
- 多种语言的ASR:英语,西班牙语,德语,俄语和汉语。
- 高质量的TTS语音定制独特的语音字体。
- 面向特定领域的定制,使用TAO Toolkit或NVIDIA NeMo,在口音、领域和特定国家的行话方面具有无与伦比的准确性。
- 支持在云计算、预部署和嵌入式平台上运行。
- 一个显示如何使用SSML标签控制Riva文本到语音的音调和速度的GIF。
- NVIDIA Riva可控制的文本到语音,使用SSML标签可以很容易地调整音调和速度。
- 在Riva产品页面上尝试Riva自动语音识别。
Defined.ai与NVIDIA合作,为希望购买语音培训和跨语言、域和录音类型验证数据的企业提供了一个流畅的工作流程。
Riva Enterprise
NVIDIA还推出了Riva Enterprise,这是一款付费产品,提供给大规模部署Riva的企业,并由NVIDIA专家提供业务标准支持。
福利包括:
- 在任何云平台和预部署平台上无限制地使用ASR和TTS服务。
- 在当地工作时间访问NVIDIA AI专家,获得配置和性能方面的指导。
- 长期支持维护控制和升级计划。
- 优先访问新版本和特性。
- Riva Enterprise是NVIDIA Launchpad上的免费试用版,供企业评估和创建应用程序原型。
启动Riva Enterprise操作实验台包括:
- 与实时语音AI api交互。
- 添加语音人工智能功能到会话人工智能应用。
- 微调语音人工智能流水线上的自定义数据,以获得更高的准确性。
NeMo Megatron
英伟达(NVIDIA)宣布对NVIDIA NeMo Megatron进行新升级,这是一个用于训练大型语言模型(LLM)的框架,可提供数万亿参数。基于Megatron论文的创新,与NeMo Megatron研究机构和企业可以训练任何LLM收敛。NeMo Megatron提供数据预处理、并行(数据、张量和管道)、编排和调度以及自动精度适应。
它包括经过彻底测试的配方、流行的LLM架构实现和组织快速开始其LLM旅程所需的工具
瑞典AI、京东、Naver和佛罗里达大学是NVIDIA技术在构建大型语言模型方面的早期使用者。
最新版本包括:
- 超参数调优工具——根据客户的需求和基础设施的限制自动创建配方。
- T5和mT5型号的参考配方。
- 支持在云上培训LLM,从Azure开始。
- 分布式数据预处理脚本,缩短端到端培训时间。
在“实践中的自然语言理解:从成功的企业部署中学到的经验”GTC会话中了解更多关于llm的有趣应用程序和部署它们的最佳实践。
作者介绍:
Siddharth Sharma
Siddharth Sharma是NVIDIA加速计算部门的高级技术营销经理。在加入英伟达之前,Siddharth是Mathworks公司Simulink和statflow的产品营销经理,与汽车和航空公司密切合作,采用基于模型的设计来创建控制软件。
Gordana Neskovic
Gordana Neskovic是AI / DL产品营销团队的成员,负责NVIDIA Maxine。在加入NVIDIA之前,Gordana曾在VMware、Wells Fargo、Pinterest、sfot – itt和KLA-Tencor担任过各种产品营销、数据科学家、AI架构师和工程职位。她拥有Santa Clara University的博士学位,以及塞尔维亚贝尔格莱德大学(University of Belgrade)的电气工程硕士和学士学位。
查看Gordana Neskovic的所有帖子
Sirisha Rella
Sirisha Rella是NVIDIA的技术产品营销经理,专注于计算机视觉、语音和基于语言的深度学习应用。Sirisha在密苏里-堪萨斯城大学获得计算机科学硕士学位,并在美国国家科学基金会-大学习中心担任研究生研究助理。