ラフ集合からThomas Mannの「魔の山」を考える4


3.2 縮約

 データからパターンを抽出する際、最も簡単なルールを求めたい。ラフ集合の場合は、下近似の部分集合がルールを与えることから、属性の集合を満たす集合により下近似の部分集合を与え、属性数が最小のものを求めることによりルールが生成される。
 前節は、属性が一つの場合を扱ったが、実際に下近似を生成するには、複数の[属性=値]の連言による分割を考える必要がある。例えば、症状と喫煙の連言を考えてみよう。{{1},{2},{3,4},{5,6}}という分割が生成され、クラスの分割に一致した下近似と上近似が求められる。
 必要最小限の属性のみを抽出することは、簡略化と呼ばれる。また、ラベルの下近似を与える最小限の属性集合は、縮約と呼ばれる。{症状と喫煙}は、縮約の一例となる。最小限の[属性=値]の対を持つ規則は、必要最小限の属性数を持つ縮約から求めることができる。例えば、表1の場合、{症状と喫煙}という縮約から、以下のルールを求めることができる。

(3)[症状=重い(慢性)]⇒[クラス=長い]、[症状=重い(急性)]⇒[クラス=短い]、[症状=軽い]∧[喫煙=しない]⇒[クラス=中位]、[症状=軽い]∧[喫煙=する]⇒[クラス=長い]

 次に、[クラス=中位]を満たす集合{1}について考えてみよう。この{1}が、他のクラスを満たす集合{2},{3,4},{5,6}から特定できるような属性の集合を求める。レコード1と属性年代により特定できないレコードの集合を[1]年代と表記すると、属性年代、性別、病名、症状、喫煙に対して、以下のことが定義できる。

(4)
[1]年代=[1,2,3]
[1]性別=[1,5] [1]病名=[1,2,5] [1]症状=[1,2]
[1]喫煙=[1,3,4,5,6]

{1}の部分集合となるものは存在しないので、一つの属性だけで[クラス=中位]を分類することができる情報はない。そこで、これらの属性間の連言を考えてみる。[年代=20-29]∧[性別=女]を満たす集合は、[1]年代∩[1]性別として表記される。この場合、縮約の候補は、以下のようになる。

(5)
[1]性別∩[1]症状=[1]
[1]症状∩[1]喫煙=[1]

{性別,症状}、{症状,喫煙}あたりが候補となりそうだ。{2},{3,4},{5,6}についてもこの方法を適用すると、{症状,喫煙}が縮約となることがわかる。ここまでが、属性数2の縮約である。
次に、属性が3つある縮約を求めてみよう。これまでの議論からわかるように、この縮約は、属性数3となる候補のうち{性別,症状}を包含する属性の集合から生成される。この場合は、{1}ではなく{2},{3,4},{5,6}に関して計算しなければならない。例えば、

(6)
[2]性別∩[2]症状=[2]
[3]性別∩[3]症状=[3,4]
[4]性別∩[4]症状=[3,4]
[5]性別∩[5]症状=[5]
[6]性別∩[6]症状=[6]

となるので、3番目のレコードに着目すれば、

(7)
[3]性別∩[3]症状∩[3]年代=[3]
[3]性別∩[3]症状∩[3]病名=[3,4]
[3]性別∩[3]症状∩[3]喫煙=[3,4]

が得られる。{性別,症状、喫煙}は、{症状,喫煙}を部分集合として含むので、{性別,症状、年代}、{性別,症状、病名}が縮約となる。同様にして、4番目のレコードに着目すれば、

(8)
[4]性別∩[4]症状∩[4]
年代=[4] [4]性別∩[4]症状∩[4]病名=[3,4]
[4]性別∩[4]症状∩[4]喫煙=[3,4]

が得られ、3番目のレコードと同じ結果となる。以上のことから 表1のクラスに関する縮約は、{症状,喫煙}、{性別,症状,年代}、{性別,症状、病名}となる。 ここまで述べてきた計算方法は、一つずつ属性を追加していくことにより縮約にたどりつくボトムアップ型であるが、ラフ集合にはこれとは別に、決定ルールから出発するトップダウン型の計算方法がある。例えば、1番目のレコードは、次のような形式によって記述される。

(8)[年代=20-29]∧[性別=女]∧[病名=持病]∧[症状=軽い]∧[喫煙=しない]⇒[クラス=中位]

これらの属性のうち何が削除されると矛盾が生じるだろうか。例えば、症状と喫煙を削除すると、次のような二つの決定ルールが生成される。

(9)a [年代=20-29]∧[性別=女]∧[病名=持病]⇒[クラス=中位]
(9)b [年代=20-29]∧[性別=女]∧[病名=持病]⇒[クラス=短い]

 ラフ集合では、このことを矛盾が発生したと言う。つまり、{症状,喫煙}は、ルールの記述になくてはならない属性の集合を与えている。この手続きを残りの{2,3,4,5,6}に関しても適用すると、最終的に、{症状,喫煙}、{性別,症状,年代}、{性別,症状、病名}が表1の分類に不可欠な属性の集合となり、これらが縮約となる。

花村嘉英 (2017)「ラフ集合でThomas Mannの「魔の山」を考える-テキストマイニングのトレーニング」より


コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です