但他们的主要目光还是放在了文字转WAV音频