他们最终也是几乎考虑到了任何一种可能文字转WAV音频