本文摘要：本文探讨了Python语音识别技术在文本转语音（TTS）与语音转文本（STT）方面的应用，通过`pyttsx3`、SAPI和SpeechLib库实现文本到语音的转换，并利用PocketSphinx开源API进行语音识别以转化为文本。针对普通话识别问题，指出speech_recognition默认不支持中文，需额外下载并配置普通话语言模型和声学模型。文章详细介绍了如何安装相关模块及解决中文识别难题的具体步骤，为语音识别技术的实际应用提供了有效指导。

转载文章

本篇文章为转载内容。原文链接：https://blog.csdn.net/qq_46092061/article/details/113945654。

该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。

作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。

如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

Python语音识别

- - 文本转换为语音
  - 语音转换为文本
  - 普通话识别问题
  - 后序

语音识别技术，也被称为自动语音识别，目标是以电脑自动将人类的语音内容转换为相应的文字和文字转换为语音。

文本转换为语音

使用 pyttsx
使用名为 pyttsx 的 python 包，你可以将文本转换为语音。直接使用 pip 就可以进行安装，命令如下：

pip install pyttsx3

下载缓慢推荐您使用第三方通道下载

pip install -i https://mirrors.aliyun.com/pypi/simple pyttsx3

【示例】使用 pyttsx 实现文本转换语音

import pyttsx3 as pyttsx# 调用初始化方法，获取讲话对象
engine = pyttsx.init()
engine.say('加油！努力吧少年')
engine.runAndWait()

使用 SAPI
在 python 中，你也可以使用 SAPI 来做文本到语音的转换。
【示例】使用 SAPI 实现文本转换语音

from win32com.client import Dispatch# 获取讲话对象
speaker = Dispatch('SAPI.SpVoice')# 讲话内容
speaker.Speak('猪哥猪哥，你真了不起')
speaker.Speak('YL美吗？')
speaker.Speak('ZS说她美吖')# 释放对象
del speaker

使用 SpeechLib
使用 SpeechLib，可以从文本文件中获取输入，再将其转换为语音。先使用 pip 安装，命令如下：

pip install comtypes

【示例】使用 SpeechLib 实现文本转换语音

from comtypes.client import CreateObject
from comtypes.gen import SpeechLib# 获取语音对象,源头
engine = CreateObject('SAPI.SpVoice')# 输出到目标对象的流
stream = CreateObject('SAPI.SpFileStream')infile = 'demo.txt'
outfile = 'demo_audio.wav'# 获取流写入通道
stream.open(outfile, SpeechLib.SSFMCreateForWrite)# 给语音源头添加输出流
engine.AudioOutputStream = stream# 读取文本内容
# 打开文件
f = open(infile, 'r', encoding='utf-8')# 读取文本内容
theText = f.read()# 关闭流对象
f.close()
# 语音对象，读取文本内容
engine.speak(theText)
stream.close()

语音转换为文本

使用 PocketSphinx
PocketSphinx 是一个用于语音转换文本的开源 API。它是一个轻量级的语音识别引擎，尽管在桌面端也能很好地工作，它还专门为手机和移动设备做过调优。首先使用 pip 命令安装所需模块，命令如下：

pip install PocketSphinx
pip install SpeechRecognition

下载地址：https://pypi.org/project/SpeechRecognition/

下载缓慢推荐您使用第三方通道下载

pip install -i https://mirrors.aliyun.com/pypi/simple 模块名

【示例】使用 PocketSphinx 实现语音转换文本

import speech_recognition as sr# 获取语音文件
audio_file = 'demo_audio.wav'# 获取识别语音内容的对象
r = sr.Recognizer()# 打开语音文件
with sr.AudioFile(audio_file) as source:audio = r.record(source)# 将语音转化为文本
# print('文本内容:', r.recognize_sphinx(audio))  # recognize_sphinx() 参数中language='en-US' 默认是英语
print('文本内容:', r.recognize_sphinx(audio, language='zh-CN'))

普通话识别问题

speech_recognition 默认识别英文，是不支持中文的，需要在Sphinx语音识别工具包里面下载对应的普通话包和语言模型。

安装步骤：

下载地址：https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/
点击 Mandarin下载cmusphinx-zh-cn-5.2.tar.gz并解压.
在python安装目录下找到Lib\site-packages\speech_recognition
点击进入pocketsphinx-data文件夹，会看到一个en-US文件夹，再新建文件夹zh-CN
在这个文件夹中添加进入刚刚解压的文件，需要注意：把解压出来的zh_cn.cd_cont_5000文件夹重命名为acoustic-model、zh_cn.lm.bin命名为language-model.lm.bin、zh_cn.dic中dic改为dict格式。即与en-US文件夹中命名一样。

参考：https://blog.csdn.net/qq_32643313/article/details/99936268
致以感谢

后序

浅显的学习语音识别，不足之处甚多，深究后，将更新文章。

感谢跟随老师的代码在未知领域里探索，希望我能走的更高更远

本篇文章为转载内容。原文链接：https://blog.csdn.net/qq_46092061/article/details/113945654。

该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。

作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。

如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

名词解释

作为当前文章的名词解释，仅对当前文章有效。

自动语音识别（Automatic Speech Recognition, ASR）：自动语音识别是一种计算机技术，它允许软件系统或硬件设备通过识别和理解人类说出的语音内容，并将其转换为可读的文本格式。在本文中，Python语音识别技术即涉及此类应用，通过使用如PocketSphinx等开源API，可以将用户说出的普通话音频文件转化为相应的文字信息。

文本到语音（Text-to-Speech, TTS）：这是一种将书面文本转换成可听见的语音输出的技术。在Python编程环境中，可以通过pyttsx3、SAPI以及SpeechLib库实现这一功能。例如，当调用 pyttsx3 库时，程序会根据提供的文本字符串创建并播放对应的语音输出，使计算机能够“朗读”文本内容。

语言模型（Language Model, LM）：在自然语言处理领域，特别是语音识别技术中，语言模型是用来计算给定一系列词语序列出现概率的统计模型。在Python的PocketSphinx模块中，为了支持普通话识别，需要下载并配置特定的普通话语言模型（如zh_cn.lm.bin），该模型能帮助识别引擎预测下一个可能出现的词，从而提高语音转文本的准确率。在文章所述场景下，语言模型是确保识别结果符合中文语法习惯和常用表达的关键组件之一。