微软发布了 Azure AI 语音服务的新一代高清(HD)声音预览版本,进一步提升了语音的自然表达能力,尤其在情感感知和上下文理解方面做了改进。这项技术基于先进的声学和语言特征分析,能够生成带有丰富自然变化的语音,自动根据文本中的情感线索调整语音的语调和风格,实现更像人类的自然语音模式。
- 基于 Transformer 模型:这些高清语音使用基于语言模型的结构,通过自动回归模型生成更为细腻、自然的语音输出。
- 支持多语言:Azure AI 提供超过 500 种神经语音,覆盖 140 多种语言和地区,适用于多种应用场景,如语言学习和国际业务沟通。
视频播放器
00:00
00:00
主要特点:
- 人类般的语音生成:新的高清语音模型不仅可以准确解析输入文本,还能理解文本背后的情感,并实时调整语音的语调和情感表达。这使得生成的语音更具人情味和情境适应性。
- 对话风格增强:模型可以自然地模拟对话模式,包含常见的停顿、语气词和轻微的情感变化,使生成的语音听起来像是和人对话,而不是生硬的朗读文本。
- 韵律变化:人类的声音有自然的韵律变化,为了增加语音的自然感,新系统通过引入细微的变化,使每次输出都更具自然感,避免每句话听起来都一模一样。不会让每个句子的语调和节奏完全相同,从而让语音听起来更加逼真。
- 情境感知:系统能够自动感知文本中的情境和情感,并且在不需要手动干预的情况下调整语音的表达,使得每段生成的语音都与文本的上下文高度匹配。
- 多语言支持:支持超过 500 种神经语音,覆盖 140 多种语言和地区,特别适合应用在跨国业务、语言学习等需要多语言转换的场景。
- 易于集成和使用:用户可以使用与非高清语音相同的 SDK 和 REST API 来生成这些高清语音,从而轻松集成到现有的应用程序中。
- 实时交互:高清语音支持实时双向对话模式,可以用在虚拟助理、客户服务等应用中,提供更自然的交互体验。
G3D.AI 是一家开发用于游戏创作的人工智能 (AI) 工具的公司。它旨在通过使用自然语言提示,使游戏创作者能够在很短的时间内构建出精美、新颖的游戏。