1022 字

5 分钟

文本转语音——AI合成超逼真合成语音

2022-06-11

前言#

如果你经常刷视频，也许会发现很多那些短视频里面说话的语音很像，你可能以为他们是模仿某些腔调，其实不然。他们大多都是采用了文本转语言，让 AI 来替他们完成解说。经过 AI 学习后，AI 可以分辨出中文的多音字，儿化音也可以连起来，还可以自动推断出语气和情感。

文本转语音现在网上有很多，其中比较优秀的是微软的文本转语言，下面我们就来看看如何实现。

TIP
文末有懒人版本！！！

创建 Azure 订阅#

我们在使用微软的文本转语音功能前，应该先创建 Azure 订阅。首次创建，微软提供了 12 个月的试用。

首先打开免费试用页面：https://azure.microsoft.com/zh-cn/free/

然后点击“免费开始试用”。如果已经有了微软账户，这里可以直接登录；如果没有账户，可以注册一个。

WARNING
如果是大学生，学校账号关联了微软可以直接使用你的学生邮箱登录；没有关联也可以用学生邮箱注册账号。这会影响到下一步验证。

进到下一步，在出现的页面上填写你的基本信息，使用手机短信或者电话认证。再下一步，需要使用你的信用卡进行身份验证，支持 Visa 和万事达。

WARNING
如果是学生邮箱注册的，免信用卡认证。

填好信息后就成功创建了微软免费 Azure 订阅。

创建语音资源#

创建好订阅后，接下来需要创建语音资源。打开（若提示登录，请使用刚才创建订阅的账号）： https://portal.azure.com/#create/Microsoft.CognitiveServicesSpeechServices

接下来我们创建语音资源：资源组新建一个（名称随意）；区域一般选择 Southeast Asia 或 East Asia；名称随意。定价层选择 FREE F0（免费），当然如果需求量大也可以选择付费层。

填好后点击创建即可。接下来开始文本转语音。

Speech Studio#

打开微软 Speech Studio： https://speech.microsoft.com/portal/

选择“文本转语音 - 语音库”。

在 Voice catalog 里选择你想要的声音样本。语言处中文可选普通话、粤语、台湾腔，还可以选择其他各种语言。点击一个，在右侧选择试听文本；满意后点击“创建音频”。

创建好音频后，就可以正式开始文本转语音了。可以对它进行微调、保存等操作。到此，教程就结束了。

WARNING
注意：免费账号每月 50 万个字符限制！

编程中的文本转语音#

如果你想将微软的文本转语音集成于你的编程环境中，可以参考微软官方文档： https://docs.microsoft.com/zh-cn/azure/cognitive-services/speech-service/get-started-text-to-speech?tabs=terminal

文档已经很详细，这里不再赘述。

EDGE 文本转语音#

我们知道，Edge 是微软的默认浏览器，安装于默认 Windows 中。微软在 Edge 里集成了一部分文本转语音的功能。

微软 Edge 浏览器中有个“大声朗读”的功能，可以直接朗读网页的内容。我们在网页的右上角点击“设置及其他”，在弹出的菜单中选择“大声朗读”即可开始朗读。

但这个功能只能用于朗读，而且语音有限。于是就有网友基于 Edge 文字转语音制作了一个网页版，可播放、可下载。如果你没有信用卡来创建 Azure 订阅，或者你不想这么麻烦，可以直接使用这个网页进行文本转语音。

ToolB 文本转语音：https://toolb.cn/textspeech

总结#

在这里总结一下，使用微软的文本转语音功能，一般需要：

创建 Azure 订阅；
创建语音资源；
在 Speech Studio 里进行语音合成与调整。

如果不想这么麻烦，可以直接使用 Edge 的“大声朗读”功能，或者使用 ToolB 的网页版： https://toolb.cn/textspeech

文本转语音——AI合成超逼真合成语音

https://hoyue.fun/text-voice.html

作者

Hoyue

发布于

2022-06-11

最后更新于

2022-06-11

许可协议

CC BY-NC-SA 4.0