β 日本語教師の自然言語処理: コーパスの作成

HARUNIWA2 を使ってコーパスを作成する

コーパスの値段

あるブログから

研究に必要なコーパスを揃えるだけでもかなりの出費 - 武蔵野日記

とりあえず最低限必要なリソースは以下のような感じだろうか?

これだけでちょうど50万円くらいで、けっこう痛い。

 

コーパスを作り、構文ツリーをTREGEXで見る

Haruniwa2は、構文解析されたコーパスを自動的に作ってくれます。

例えば、以下のようなニュース記事が…

(日本、初戦で強豪撃破 この勢いでセネガル戦も)

日本中が歓喜に包まれました。
2018FIFAワールドカップロシア。
日本代表が大事な初戦で南米の強豪・コロンビアに勝利です。

4年前のブラジル大会では4-1と完敗を喫したコロンビアにリベンジしたい日本は、前半開始早々でした。
相手がハンドで一発退場となり、日本のPK。
キッカーは香川真司
しかし、前半39分。
コロンビアに直接、フリーキックを決められて同点に追い付かれます。
後半、日本は本田圭佑を投入します。
すると後半28分。
大迫勇也の決勝ゴールで日本が最高のスタートを切りました。
試合を終えた日本代表は再びキャンプ地のカザンに到着。
グループステージ突破に向け、次のセネガル戦に備えます。

 次のようなTree図にアウトプットできます。

f:id:seki440:20180712135020p:plain

f:id:seki440:20180712135034p:plain

f:id:seki440:20180712135050p:plain

f:id:seki440:20180712135105p:plain

f:id:seki440:20180712135117p:plain

f:id:seki440:20180712135131p:plain

f:id:seki440:20180712135147p:plain

 

f:id:seki440:20180712135216p:plain

f:id:seki440:20180712135227p:plain

f:id:seki440:20180712135242p:plain

f:id:seki440:20180712135310p:plain

f:id:seki440:20180712135356p:plain