whisper语音转文本和语音翻译各个参数的含义

18 min read

whisper是一个命令行工具,用于语音转文本和语音翻译。它支持多种语言和多种输出格式。在使用该工具时,需要提供要转换的音频文件作为参数,还可以根据需要选择模型、语言、输出格式等选项。下面是各个参数的含义:

  • --model: 模型名称,包括英文模型和多语言模型
  • --model_dir: 模型所在目录的路径
  • --device: 使用的设备类型,包括CPU和GPU
  • --output_dir: 输出文件所在目录的路径
  • --output_format: 输出格式,包括txt、vtt、srt、tsv、json和all
  • --verbose: 输出详细信息
  • --task: 任务类型,包括transcribe和translate
  • --language: 输入音频的语言类型或输出文本的目标语言类型
  • --temperature: 随机性温度值
  • --best_of: beam search中输出的最佳结果数量
  • --beam_size: beam search中搜索树的宽度
  • --patience: 改变温度值的次数
  • --length_penalty: 长度惩罚系数
  • --suppress_tokens: 要忽略的标记列表
  • --initial_prompt: 初始提示文本
  • --condition_on_previous_text: 基于先前文本进行转换或翻译
  • --fp16: 是否使用FP16精度
  • --temperature_increment_on_fallback: 当beam search失败时增加的温度值
  • --compression_ratio_threshold: 压缩比阈值
  • --logprob_threshold: 对数概率阈值
  • --no_speech_threshold: 无语音阈值
  • --word_timestamps: 是否为单词添加时间戳
  • --prepend_punctuations: 是否在文本前添加标点符号
  • --append_punctuations: 是否在文本末尾添加标点符号
  • --threads: 线程数
  • audio: 要转换的音频文件
usage: whisper [-h]
               [--model {tiny.en,tiny,base.en,base,small.en,small,medium.en,medium,large-v1,large-v2,large}]
               [--model_dir MODEL_DIR] [--device DEVICE] [--output_dir OUTPUT_DIR]
               [--output_format {txt,vtt,srt,tsv,json,all}] [--verbose VERBOSE]
               [--task {transcribe,translate}]
               [--language {af,am,ar,as,az,ba,be,bg,bn,bo,br,bs,ca,cs,cy,da,de,el,en,es,et,eu,fa,fi,fo,fr,gl,gu,ha,haw,he,hi,hr,ht,hu,hy,id,is,it,ja,jw,ka,kk,km,kn,ko,la,lb,ln,lo,lt,lv,mg,mi,mk,ml,mn,mr,ms,mt,my,ne,nl,nn,no,oc,pa,pl,ps,pt,ro,ru,sa,sd,si,sk,sl,sn,so,sq,sr,su,sv,sw,ta,te,tg,th,tk,tl,tr,tt,uk,ur,uz,vi,yi,yo,zh,Afrikaans,Albanian,Amharic,Arabic,Armenian,Assamese,Azerbaijani,Bashkir,Basque,Belarusian,Bengali,Bosnian,Breton,Bulgarian,Burmese,Castilian,Catalan,Chinese,Croatian,Czech,Danish,Dutch,English,Estonian,Faroese,Finnish,Flemish,French,Galician,Georgian,German,Greek,Gujarati,Haitian,Haitian Creole,Hausa,Hawaiian,Hebrew,Hindi,Hungarian,Icelandic,Indonesian,Italian,Japanese,Javanese,Kannada,Kazakh,Khmer,Korean,Lao,Latin,Latvian,Letzeburgesch,Lingala,Lithuanian,Luxembourgish,Macedonian,Malagasy,Malay,Malayalam,Maltese,Maori,Marathi,Moldavian,Moldovan,Mongolian,Myanmar,Nepali,Norwegian,Nynorsk,Occitan,Panjabi,Pashto,Persian,Polish,Portuguese,Punjabi,Pushto,Romanian,Russian,Sanskrit,Serbian,Shona,Sindhi,Sinhala,Sinhalese,Slovak,Slovenian,Somali,Spanish,Sundanese,Swahili,Swedish,Tagalog,Tajik,Tamil,Tatar,Telugu,Thai,Tibetan,Turkish,Turkmen,Ukrainian,Urdu,Uzbek,Valencian,Vietnamese,Welsh,Yiddish,Yoruba}]
               [--temperature TEMPERATURE] [--best_of BEST_OF] [--beam_size BEAM_SIZE]
               [--patience PATIENCE] [--length_penalty LENGTH_PENALTY]
               [--suppress_tokens SUPPRESS_TOKENS] [--initial_prompt INITIAL_PROMPT]
               [--condition_on_previous_text CONDITION_ON_PREVIOUS_TEXT] [--fp16 FP16]
               [--temperature_increment_on_fallback TEMPERATURE_INCREMENT_ON_FALLBACK]
               [--compression_ratio_threshold COMPRESSION_RATIO_THRESHOLD]
               [--logprob_threshold LOGPROB_THRESHOLD] [--no_speech_threshold NO_SPEECH_THRESHOLD]
               [--word_timestamps WORD_TIMESTAMPS] [--prepend_punctuations PREPEND_PUNCTUATIONS]
               [--append_punctuations APPEND_PUNCTUATIONS] [--threads THREADS]
               audio [audio ...]