コーパスの作成:入力数と出力数
内容節:コト節
入力数: 176
出力数=IP-MAT
IP-MAT: 126
出力数=FRAG !>> IP-MAT
FRAG: 5
出力数=CP-FINAL !>> IP-MAT
CP-FINAL: 35 - 1 (FRAG < CP-FINAL)
出力数=CP-QUE !>> IP-MAT
CP-QUE: 12 - 3 (FRAG, CP-FINAL, IP-IMP < CP-QUE)
出力数=IP-IMP !>> IP-MAT
IP-IMP: 3 - 1 (CP-FINAL < IP-IMP)
コーパスの値段
あるブログから
研究に必要なコーパスを揃えるだけでもかなりの出費 - 武蔵野日記
とりあえず最低限必要なリソースは以下のような感じだろうか?
- 毎日新聞94年版 (GDA コーパスの復元に必要、アカデミック価格126,000円)
- 毎日新聞95年版 (京大コーパス、NAIST コーパスの復元に必要、アカデミック価格126,000円)
- 日本語書き言葉均衡コーパス (アカデミック価格52,500円)
- Treebank-3 (いわゆる Penn Treebank、割引価格$1,575=約15万円)
- Web 1T 5-gram Version 1 (いわゆる Google N-gram、$150=約1.5万円)
- Web日本語Nグラム第1版 (日本語版 Google N-gram、団体会員価格42,000円)
これだけでちょうど50万円くらいで、けっこう痛い。
コーパスを作り、構文ツリーをTREGEXで見る
Haruniwa2は、構文解析されたコーパスを自動的に作ってくれます。
例えば、以下のようなニュース記事が…
日本中が歓喜に包まれました。
2018FIFAワールドカップロシア。
日本代表が大事な初戦で南米の強豪・コロンビアに勝利です。4年前のブラジル大会では4-1と完敗を喫したコロンビアにリベンジしたい日本は、前半開始早々でした。
相手がハンドで一発退場となり、日本のPK。
キッカーは香川真司。
しかし、前半39分。
コロンビアに直接、フリーキックを決められて同点に追い付かれます。
後半、日本は本田圭佑を投入します。
すると後半28分。
大迫勇也の決勝ゴールで日本が最高のスタートを切りました。
試合を終えた日本代表は再びキャンプ地のカザンに到着。
グループステージ突破に向け、次のセネガル戦に備えます。
次のようなTree図にアウトプットできます。