但我期望最后的技术必须是完整的文字转WAV音频