他根本不用去考虑最后会变成什么样的文字转WAV音频