只能从呼吸和行动上推测文字转WAV音频