剩下的另外一方自然会很被动文字转WAV音频