[sp2txt]のファイル構成.txt 1.25 KB
Newer Older
藤森雅人's avatar
藤森雅人 committed
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
[sp2txt](ルートフォルダ)ファイル構成
2019年7月26日 藤森雅人

[cpprestsdk_static_tester]

 Visual Studioのソリューションフォルダ
 プログラム本体に相当します。

_README.txt

 このテキスト。

call_api.sh / call_api_log.sh

 吉田さんが書いたシェルスクリプト。
 curlでSpeech to TextのAPIを叩いている。
 今回のプログラムはおおむねこれを模倣するものである。

baseball.wav

 テストデータにする野球実況中継の音声。約55分。
 ステレオ、サンプリングレート48,000。

baseball_01.wav ... baseball_12.wav

 baseball.wavを、音声の先頭と終端で会話が途切れないように
 約5分刻みで12分割したもの。

baseball_01.opus ... baseball_12.opus

 baseball_01.wav ... baseball_12.wavをプログラム中で
 opus形式音声に変換してファイル出力したもの。
 フリーソフトではVLCプレイヤーが再生に便利。

baseball_01.txt ... baseball_12.txt

 baseball_01.wav ... baseball_12.wavの書き起こし結果を
 取得したものをプログラム中でファイル出力したもの。
 JSON形式。

afternoon9_5sec.wav / afternoon12sec.wav / afternoon_narra.wav

 テストデータ音声。内容はラジオ取材らしい。
 順に9.5秒、12秒、約1分。
 変換可能な音声の再生時間に上限のあるアカウントで
 APIを叩く場合はこれを使います。
 宮澤さんのアカウントは無制限だが吉田さんのは月100分までなので、
 吉田さんのを使う場合はこの短い音声を使うのを推奨します。