前言
如果你经常刷视频,也许会发现很多那些短视频里面说话的语音很像,你可能以为他们是模仿某些腔调,其实不然。他们大多都是采用了文本转语言,让 AI 来替他们完成解说。经过 AI 学习后,AI 可以分辨出中文的多音字,儿化音也可以连起来,还可以自动推断出语气和情感。
文本转语音现在网上有很多,其中比较优秀的是微软的文本转语言,下面我们就来看看如何实现。
TIP文末有懒人版本!!!
创建 Azure 订阅
我们在使用微软的文本转语音功能前,应该先创建 Azure 订阅。首次创建,微软提供了 12 个月的试用。
首先打开免费试用页面:https://azure.microsoft.com/zh-cn/free/

然后点击“免费开始试用”。如果已经有了微软账户,这里可以直接登录;如果没有账户,可以注册一个。
WARNING如果是大学生,学校账号关联了微软可以直接使用你的学生邮箱登录;没有关联也可以用学生邮箱注册账号。这会影响到下一步验证。

进到下一步,在出现的页面上填写你的基本信息,使用手机短信或者电话认证。再下一步,需要使用你的信用卡进行身份验证,支持 Visa 和万事达。
WARNING如果是学生邮箱注册的,免信用卡认证。

填好信息后就成功创建了微软免费 Azure 订阅。
创建语音资源
创建好订阅后,接下来需要创建语音资源。打开(若提示登录,请使用刚才创建订阅的账号): https://portal.azure.com/#create/Microsoft.CognitiveServicesSpeechServices

接下来我们创建语音资源:资源组新建一个(名称随意);区域一般选择 Southeast Asia 或 East Asia;名称随意。定价层选择 FREE F0(免费),当然如果需求量大也可以选择付费层。
填好后点击创建即可。接下来开始文本转语音。
Speech Studio
打开微软 Speech Studio: https://speech.microsoft.com/portal/
选择“文本转语音 - 语音库”。

在 Voice catalog 里选择你想要的声音样本。语言处中文可选普通话、粤语、台湾腔,还可以选择其他各种语言。点击一个,在右侧选择试听文本;满意后点击“创建音频”。

创建好音频后,就可以正式开始文本转语音了。可以对它进行微调、保存等操作。到此,教程就结束了。
WARNING注意:免费账号每月 50 万个字符限制!

编程中的文本转语音
如果你想将微软的文本转语音集成于你的编程环境中,可以参考微软官方文档: https://docs.microsoft.com/zh-cn/azure/cognitive-services/speech-service/get-started-text-to-speech?tabs=terminal
文档已经很详细,这里不再赘述。
EDGE 文本转语音
我们知道,Edge 是微软的默认浏览器,安装于默认 Windows 中。微软在 Edge 里集成了一部分文本转语音的功能。
微软 Edge 浏览器中有个“大声朗读”的功能,可以直接朗读网页的内容。我们在网页的右上角点击“设置及其他”,在弹出的菜单中选择“大声朗读”即可开始朗读。

但这个功能只能用于朗读,而且语音有限。于是就有网友基于 Edge 文字转语音制作了一个网页版,可播放、可下载。如果你没有信用卡来创建 Azure 订阅,或者你不想这么麻烦,可以直接使用这个网页进行文本转语音。
- ToolB 文本转语音:https://toolb.cn/textspeech

总结
在这里总结一下,使用微软的文本转语音功能,一般需要:
- 创建 Azure 订阅;
- 创建语音资源;
- 在 Speech Studio 里进行语音合成与调整。
如果不想这么麻烦,可以直接使用 Edge 的“大声朗读”功能,或者使用 ToolB 的网页版: https://toolb.cn/textspeech