"コーパスリング"の使い方

操作方法

コーパスリング(同心円リング型表示検索システム)は,音声コーパスをその特徴から絞り込める,視覚的でインタラクティブな検索システムです。入力デバイス,話者数,発話スタイル,言語など,リング上にある種々の属性の中から自身の利用目的にあった項目を指定していくことで,それらの項目に合致するコーパスのみがリングの内側に表示され,絞り込んでいくことができます。

コーパスリングでは,大規模言語資源データベースSHACHIのデータを引用しています。SHACHIはNICTと名古屋大が共同で欧米・アジア諸国の言語資源のメタ情報を大規模に収集したもので,2015年5月時点で約3,000件(うち音声コーパスは約900件)の音声・言語資源に対し,55種類に及ぶ詳細なメタ情報が付与されています。

コーパスの絞り込み

  1. リングに表示されているコーパス属性の中から絞り込みたい属性を選択すると,内側にその属性に対する項目のリングが現れます。
  2. 現れたリングをドラッグして回転させ,所望の項目をリングの下部へ移動させて,赤い枠で囲まれた状態にします。この赤い枠で囲まれた項目に合致するコーパスがリングの内側に表示されます。
  3. さらに絞り込みたい場合は,再度一番外側のリングからコーパス属性を選択し,一番内側に現れるリングを回転させるという操作を繰り返します。(AND検索となり,選択した項目をすべて満たすコーパスのみが表示されます。同じ属性のリングを複数表示させて属性内でAND検索をすることもできます)
  4. 内側に表示されたコーパスをクリックすると,画面右側にそのコーパスの詳細が表示されます。
  5. 属性の選択を解除したい場合は,該当のリング上でクリックするとそのリングが消えます。
コーパス属性

コーパスの特徴は9種類の属性で表されています。各属性について該当する項目がない場合,もしくは属性に関する情報が不明の場合は,「その他・不明」という項目が割り当てられています。

コーパス属性項目
入力デバイス卓上マイク,接話マイク,ピンマイク,固定電話,携帯電話,放送,その他・不明
入力環境防音室,オフィス・教室,騒音下,車内,その他・不明
標本化周波数SR < 10kHz,SR < 20kHz,20kHz ≤ SR,不明
話者数No < 10, No < 100, No < 1000, 1000 ≤ No, 不明
発話長単語,短文,長文,その他・不明
発話スタイル読み上げ,演技,自発,その他・不明
言語日本,アジア,ヨーロッパ,アフリカ,アメリカ,オセアニア,その他・不明
話者非母語,プロ,子ども,高齢者,その他・不明
特徴多言語,方言,対話,感情,非音声,その他・不明
連絡先
NII-SRC Secretariat
国立情報学研究所 音声資源コンソーシアム
東京都千代田区一ツ橋2丁目1番2号
E-mail: src@nii.ac.jp
http://research.nii.ac.jp/src/