鬱くしい日本語のための形態素解析入門

鬱くしい日本語のための
形態素解析入門

0

プロフィール

名前：とろとき
言語： P to / v/el
yh nJ aP r
a

自然言語処理とか機械学習とかを
勉強中の初心者。
ちょっと前はA dod
n riとかやってた。
@trtk
ooo i

中学生

0.
1

形態素解析とは
そもそも形態素って何？
-意味を持つ最小の言語単位
-何が最小単位なのかは割と曖昧
-「今日は晴れ」 = 「今日」+「は」+「晴れ」

つまり形態素解析は…
文を自動で形態素に分けちゃおう！という試み
自然言語処理の土台となる
実際には形態素に分割するだけでなく、他に三つの処理がある

-形態素に分割
上の例みたいな
-品詞の付与
名詞や動詞などを単語に付ける
「今日/
名詞」+「は/
助詞」+「晴れ/
形容詞」
-原型の復元
「珍しき」 → 「珍しい」

01

形態素解析とは
形態素解析の代表的なツール
-U N(2 )
J MA 9 年~
- h S n(6 )
C a e 9 年~
- C b (2 )
Me a 0 年~
- y e (9 ) N w
K T a 0 年~ ← e !

・ KTa
y e はその前に比べ先進的なアプローチを取っている（今回は解説しない）
・ただし現在で最も多く使われるのは Me a
Cb

Me a は精度9 %って言うし、形態素解析はもう解決した分野では？
Cb 9
-9
9 %できるのは新聞記事などのかたい文章
-崩れた日本語（不自然言語）は実用にも満たないこともある
-不自然言語の形態素解析は最近注目されているっぽい次の課題

02

辞書を用意

・辞書を用意
・文章を考えられる全ての単語のパターンで辞書引き
・すべての可能な組み合わせから最適な単語列を発見する
-今回の中で一番大変

03

辞書を用意
辞書選び

・何種類も無料で配布されている
・コスト推定（後述）のため本格的にはコーパスも必要になるが、
単語の辞書だけでも簡単な形態素解析器は作れる

辞書の主要なものとして
-P -i
IAdc
- AS - i
N I jc
Td
- nDc
U ii

単語数は N I - i< U ii<IAdc
AS j c
Td nDc P -i
・今回は実験としてIAdc
P -iを使用
・ただしほとんどの辞書には互換性があり、取り替えられる

04

辞書を用意

辞書の中身
Me a のフォーマットの辞書だと
Cb
きらびやか, 8 , 8 , 4 , 形容動詞語幹,* ,きらびやか,
1 7 27 39
2 1 8 名詞, * ,*
,* , キラビヤカ,
キラビヤカ

史的, 8 , 8 , 0 , 形容動詞語幹,* ,史的,
1 7 27 68
2 1 6 名詞, * ,*
,* , シテキ,
シテキ

プラトニック, 8 , 8 , 7 , 形容動詞語幹,* ,プラトニック,
1 7 27 07
2 1 5 名詞, * ,*
,* , プラトニック,
プラトニック

てらてら, 8 , 8 , 4 , 形容動詞語幹,* ,てらてら,
1 7 27 39
2 1 8 名詞, * ,*
,* , テラテラ,
テラテラ

静謐, 8 , 8 , 4 , 形容動詞語幹,
1 7 27 85
2 1 4 名詞, *,
* ,静謐,
,*
* , セイヒツ,
セイヒツ

単語,
左文脈I,
D右文脈I,
D単語コスト, 品詞細分類1
品詞, ,
品詞細分類2
後で説明品詞細分類3,
活用型,
活用形,
基本形, 発音
読み,

こんな感じになっている。
05

辞書引き
辞書検索のためのデータ構造、トライ木（Ti
r）
e

文字列の最初から順番にたどっていく
これだと O (
(文長) が O 文長)
2
) ( で辞書引きが
できるので総当たりより効率が良い

・ C mmo Pe x e rh
o n rﬁ S ac
-ある文字が開始位置の単語を列挙
-これを全ての文字に適用して
Ti
r 木から辞書引きする
e

>>CS”
> P(東海道新幹線”)
>>東 : 名詞
> :
>>東海 : 名詞
> :
>>東海道 : 名詞
> :
I g b ht:jw k e iogw k トライ木
ma e y t /a ip da r/ i/
p /. i . i
>>東海道新幹線 : 名詞
> :

07
「新幹線」というワードが入っていないのに注意

最適な単語列を発見する
辞書引きをして全てのパターンの単語を引くと

・このような図ができてくれる（ラティス構造と呼ばれる）
・ここから一通りの最適解を導き出す
※1図はかな漢字変換のラティス構造
・後で気がついたよ！
※2 O ,O は文頭と文末の特殊記号
B SE S 08


・ヒュースティックス（規則）に基づく手法（8 年代）
0
・形態素最小法 :
形態素の一番少ない解を優先
・2文節最長一致法 :
文を左から見て2文節毎の長さが長い解を優先
などなど
しかし全く統計的ではない！
09

コスト最小法

・今の形態素解析器はこの方法を基礎としている（Me a , h S n J MA .
C b C a e ,U N. ）
・それぞれの単語と単語の「繋がりやすさ」を数字で表し、和が最小の道をアンサー

具体的には…
1
0

コスト最小法

・連接コスト :
二つの単語のつながりやすさ
・生起コスト :
一つの単語の出現しやすさ

全ての文字の連接コスト+生起コストが最小になる解をアンサー
そのまま求めると計算しきれないので…
秘策 : i ri
Vt b アルゴリズム
e
1
1

左・右文脈I
D

・実は辞書の中の mar .e(
tx f
id 連接表)を見るためのI番号
D

ある単語 A Bが連接をなすとき,
,

・単語Aは左文脈Iを見る
D
・単語Bは右文脈Iを見る
D

mar .e :
tx f
id
左文脈I
D 右文脈I 連接コスト
D
0 15
34 -9
96
15
34 15
32 -7 8
25
15
32 0 -4
91
.
.
. ..
. ..
.

例えば左文脈Iが1 5 で右文脈Iが1 5 だと、ここで連接コストが -7 8
D 34 D 42 25
mar .e には (
tx f
id 単語)、つまり1 0 0 0 0 0
2 0 0 0 0 0 以上のデータがある
※I「0
D 」はB SE S
O /O 1
2

10
0 億以上の連接コストをどうやって決定してるの？

人手（9 年代はじめ）
0

・試行錯誤を繰り返してやっと一つ設定できる
・客観的評価が難しいらしい

統計処理（いま）

・大量の生テキストから推定
・楽
・テキストの質に問題がある

・正解データを人手で作ってデータから推定
・今の形態素解析器は多分これ
・これによりMe a に単語を入れてもコストが推定される
Cb

1
3

コスト推定
一体どうやってコーパスから連接コストを推定するのか

Ｈid nMak v d l MM)
de ro Mo e(
H
・日本語で言うと隠れマルコフモデル
・前の品詞とその単語の品詞の情報から学習する

C n io aR n o F ls R )
o dt n l a d m i d( F
i e C
・難しすぎてよく分からない
・全ての候補を考慮して推定できるのでH MMより精度がいいらしい
・ Me a に採用
Cb

詳細は
東藍,
浅原正幸,松本裕治.0 6条件付確率場による日本語未知語処理.
20.
情報処理学会自然言語処理研究会予稿集.

ht:cnicpn i/1 0 4 2 2 5
t / i i . /a 1 0 0 8 4 3
p /. . j
a d

1
4

まとめ
簡単な形態素解析器を作るには

辞書引き

・トライ構造
・ C mmo Pe x e rhを使って
o n rﬁ S ac
全通りの単語候補（= ラティス構造を作る）


・連接コスト +生起コスト
・ Vtri
i b アルゴルリズムで最適解を見つける
e

コスト推定（オプション）

・統計的に求める
・正解データを作ってそこから推定

1
5

参考・引用文献
P to による日本語自然言語処理 (
yh n 入門自然言語処理の1 章が公開されている)
2
ht:nt.o geo e o snt n /o /o kj/h 2 t
t / l g o l d . m/v / u kd cb o - c 1 . ml
p/ k c c r p h

日本語形態素解析入門 V ro 0 .
es n .1
i 9
ht:n it/ yod ctc / / 1 9 0 1 .d
t / a . ~ t/o / hj j 9 9 5 4 f
p / so e ma ma p

Me a 汎用日本語形態素解析エンジン
Cb
ht:w wj a r/l / C bp f
t / w .p . gﬁe Me a .d
p/ t o s

1
6

鬱くしい日本語のための形態素解析入門

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Destaque

Destaque (16)

Semelhante a 鬱くしい日本語のための形態素解析入門

Semelhante a 鬱くしい日本語のための形態素解析入門 (20)

鬱くしい日本語のための形態素解析入門