Julius は音声認識システムの開発・研究のためのオープンソースの高性能な汎用大語彙連続音声認識エンジンです。数万語彙の連続音声認識を一般のPC上でほぼ実時間で実行でき,認識率は90%以上です。言語モデル・音響モデルを任意に入れ替えられ,高い汎用性を持ちます.
Version 4.2 includes new features, improvements and bug fixes. Score
pruning (-bs) is implemented at the 1st pass search for faster
decoding. It can be used in conjunction with the conventional rank
pruning (-b). For audio interface, PulseAudio API is newly supported,
and PortAudio library are updated to V19. At pulseaudio (i.e. Windows
OS), you can choose the capture device by environment variable etc.
The part of codes are refined for stability, by eliminating memory
leaks and efficiency. Some other bugs are fixed.
See the "Release.txt" file for the full list of updates.
バージョン 4.2 はいくつかの新機能,改善およびバグ修正が行われています.
探索では新たにスコアプルーニングが実装されました.これは従来のランクプ
ルーニングと併用できます.オーディオ周りは,新たに PulseAudio API をサ
ポートし,Portaudio ライブラリがV19に更新されました.またPortaudio (す
なわちWindows) では録音デバイスを環境変数等で選択できます.コードを整
理してメモリリークやメモリ効率を改善したことで安定性が増したほか,いく
つかのバグを修正しました.
変更点の詳細な一覧は Release-ja.txt をご覧ください.
New features:
- Additional score-based pruning at the 1st pass. It is disabled by
default, you can enable by using an option "-bs arg". The argument
is score range.
- New support for PulseAudio (--with-mictype=pulseaudio)
- New Option "-adddict", "-addword" to read additional dictionaries / words.
- Portaudio library updated to V19. Audio capture device can be
changed by env. "PORTAUDIO_DEV_NUM". The device list will be
output at start up.
Changed behavior:
- "mkbinhmmlist" now saves pseudo phone list extracted from AM for
faster start up. The output should be used with the same AM
specified at generation. Note that the converted binhmmlist file
can not be used with older Julius.
- Audio library linking was modified at configure script.
When "--with-mictype=..." is explicitly specified, Julius will link
ONLY the audio library. If not specified, Julius will link all the
audio devices whose development file was detected by the configure.
Library functions:
- j_config_load_string_new(char *str): like j_config_load_file(), but
parse the given string to set parameters.
- add_dict(), add_word(): the same as "-adddict" and "-addword".
(They should be called at start up before starting engine)
- (portaudio/Windows) j_open_stream(recog, NUMSTR) to choose device NUM.
ex. 'j_open_stream(recog, "1")' will open device number one.
- (portaudio/Windows) get_device_list(): obtain list of available devices.
Fixes:
- Improved tree lexicon structure for better memory management.
- Reduce malloc calls at reading N-gram.
- Eliminated memory leaks using Valgrind.
- Workarounds to avoid crash with j_close_stream().
- Now allow "-iwsp" only with multi-path acoustic model.
○新機能
- 第1パスのスコアプルーニング."-bs 値" で有効化, "値" はスコア幅.
通常のランクプルーニング(-b 値) と併用.デフォルトはオフ.
- 新オプション "-adddict" "-addword":辞書・単語エントリを追加読み込み.
- PulseAudio サポート (--with-mictype=pulseaudio)
- Portaudio を V19 に更新.
- Portaudio を使う全ての場合において,複数の録音デバイスが利用可能なとき,
環境変数 PORTAUDIO_DEV_NUM で使用する録音デバイスを指定可能にした.
起動時に出力されるデバイス一覧の値を指定する.
○仕様変更を伴う改善
- mkbinhmmlist が音響モデルから抽出した pseudo phone 情報も書きだすよ
うになった.起動の高速化に寄与する.ただし作成した音響モデルとセット
で使用する必要がある.また,このバージョン以降の mkbinhmmlist で作成
した binhmmlist ファイルは以前のバージョンでは使用できない.
- オーディオライブラリのリンク方法の変更.configure に
"--with-mictype" を指定したときは,その指定されたライブラリ*のみ*
をリンクするようになった.指定がないときは,従来通り,検出された
ライブラリを全てリンクする.
○ライブラリ関数
- j_config_load_string_new(char *str): j_config_load_file() と同様,
ただしファイルではなく str に含まれるオプション指定文字列を直接
評価する.
- add_dict() および add_word(): オプション "-adddict" "-addword" と同
じく,辞書や単語を追加する.エンジン起動後動的にはできないので,
エンジンインスタンス生成前に呼ぶこと.
- portaudio 使用時(Windows等), 環境変数 PORTAUDIO_DEV_NUM と同様に,
j_open_stream(recog, NUMSTR) として引数でもデバイス選択が可能.
- portaudio 使用時(Windows等),get_device_list() で利用可能なデバイス
一覧を取得できる.
○性能改善・バグ修正
- 木構造化辞書を一部最適化,特に大語彙でメモリ量を削減
- N-gram読み込み時,場合によっては数万回mallocしていたのを減らした
- メモリリークをほぼ撲滅(Valgrind使用)
- j_close_stream() に関する不具合を複数修正
- "-iwsp" をマルチパス音響モデルだけで使えるよう修正