2016.06.28
rog

MeCabで新しい単語を形態素解析する

どうもrogです。

早いものでいつの間にか15回目の更新となりました。

そして過去の自分の記事を振り返ってみると、
一回も技術的な記事を書いたことがない事に気が付きました。

一応私も技術者なので、たまには技術ネタで
記事を書かなきゃいけないかなと思いましたので、
今回15回目にして初めて技術的な記事を書くことにします。

本当は、毎日引きこもっている為、日常ネタが尽きただけです。

というわけで、本題に入ります。

IPAdicについて

今回はタイトルの通り形態素解析にMeCabを利用します。
御存知の通りMeCabはオープンソースの形態素解析エンジンです。

辞書ファイルとしては一般的にIPAdicが利用されることが多いと思いますが、
IPAdicは最終更新日が2003年頃で、現在は継続的な更新はされていないため、
ここ数年間で出てきた単語などの解析ができません。

(そもそもでTV番組の名前などは辞書に登録する予定がなかったのかもしれませんが。)

実際にIPAdicで形態素解析やってみた

TV番組名の「関ジャニの仕分け∞」を形態素解析してみます。

関ジャニの仕分け∞
関      名詞,固有名詞,人名,姓,*,*,関,セキ,セキ
ジャニ  名詞,一般,*,*,*,*,*
の      助詞,連体化,*,*,*,*,の,ノ,ノ
仕分け  名詞,サ変接続,*,*,*,*,仕分け,シワケ,シワケ
∞       名詞,サ変接続,*,*,*,*,*
EOS

「関ジャニ」が「セキジャニ」になってしまいました。

こんな感じでTV番組名を解析するとうまくいきません。
MeCabのユーザ辞書に手動で単語を登録することで解析も出来なくはないですが、
毎回手動で単語を追加していたら時間がかかりすぎてしまいます。

新語辞書「mecab-ipadic-neologd」

そんな問題を解決するのがこちらの辞書ファイルです。
更新されなくなったIPAdicをベースに、新語などを取り入れた辞書になっています。
公開は2015年の3月頃なのですが、今でも毎月2回は辞書ファイルを更新してくれています。

MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました

インストール方法は上記ページから遷移できるGitHubに記載があるので割愛します。

新語辞書「mecab-ipadic-neologd」で形態素解析

先ほど上手くいかなかった「関ジャニの仕分け∞」を形態素解析してみます。

関ジャニの仕分け∞
関ジャニの仕分け∞       名詞,固有名詞,一般,*,*,*,関ジャニの仕分け∞,カンジャニノシワケエイト,カンジャニノシワケエイト
EOS

うまくいきました!

おまけ

■IPAdic

とある魔術の禁書目録
とある  連体詞,*,*,*,*,*,とある,トアル,トアル
魔術    名詞,一般,*,*,*,*,魔術,マジュツ,マジュツ
の      助詞,連体化,*,*,*,*,の,ノ,ノ
禁書    名詞,一般,*,*,*,*,禁書,キンショ,キンショ
目録    名詞,一般,*,*,*,*,目録,モクロク,モクロク
EOS

■mecab-ipadic-neologd

とある魔術の禁書目録
とある魔術の禁書目録    名詞,固有名詞,一般,*,*,*,とある魔術の禁書目録,トアルマジュツノインデックス,トアルマジュツノインデックス

彡(゚)(゚)「・・・」

彡(^)(^)「やるやんけ!」

25a1e0b87c4119cddba26e9098eb072d_s

画像がなくて寂しい記事になってしまったので、めかぶ貼っておきますね。

rog

一覧に戻る