以至于他根本无法估计究竟是多少文字转WAV音频