这还是保守统计文字转WAV音频