他们确是在各自的记忆空间中文字转WAV音频