也就是在我准备开口的时候咖啡厅的文字转WAV音频