3 ラフ集合
津本(2001)に基づき平易なラフ集合の考え方を紹介する。津本論文は、データベース(DB)の中にある集合体の近似的な表現とそれに必要な最小限の属性集合(縮約と呼ばれる)の求め方を説明している。
3.1 近似
「魔の山」の登場人物が患っている病気の症状(表1)について考えてみる。
表1 登場人物の病気の症状
No. (名前または
ニックネーム) 年代 性別 病名 症状 喫煙 クラス(療養所の滞在期間)
Claudia Chauchat 20-29 女 持病 軽い(慢性) なし 中位
Hans Castorp 20-29 男 持病(カタル) 軽い(慢性) あり 長い
Joachim Ziemßen 20-29 男 発熱(肺痛) 重い(慢性) なし 長い
爪を噛む青年 10-19 男 発熱 重い(慢性) なし 長い
Barbara Hujus 20-29 女 持病 重い(急性) なし 短い
Tou-les-deuxの長男 10-19 男 チフス 重い(急性) なし 短い
この表は、1から6までのレコードを持っている。そして、内容は、属性の集合{年代、性別、病名、症状、喫煙}と所属クラス(サナトリウムの滞在期間)である。それぞれ属性には、値の集合がある。例えば、病名に関して大きく分類すると、{持病、発熱、チフス}がそれに当たる。
周知のように、ラフ集合は、各属性がデータの集合{1,2,3,4,5,6}の分割を与えるところに原点がある。[病名=持病]、[病名=発熱]、[病名=チフス]を満たすデータの部分集合は、{1,2,5}、{3,4}、{6}である。表1は、他の属性についても同様の分割を与えている。次に、レコードのラベル付けを考える。ここでは、クラスをそのラベルと仮定する。[クラス=中位]に注目すると、これを満たすデータは、{1}である。これらをまとめると、表2となる。
表2 分割の例
病名による分割 クラスによる分割
持病 {1,2,5} 短い {5,6}
発熱 {3,4} 中位 {1}
チフス{6} 長い {2,3,4,}
病名による分割とクラスによる分割から何が言えるであろうか。一番簡単なことは、[病名=チフス]を満たす分割が、[クラス=短い]を満たす分割の部分集合となっていることである。古典論理によれば、こうした関係は、次のように表記される。
(1)[病名=チフス]⇒[クラス=短い]
ラフ集合では、[病名=チフス]を満たす分割を[クラス=短い]の下近似と呼ぶ。[病名=チフス]を満たせば、クラスは短いが確定するためである。 次に、[クラス=短い]のすべてをカバーする分割について考えてみよう。上述の例では、[病名=持病]を満たす集合と[病名=チフス]を満たす集合の和集合が{1,2,5,6}となり、[クラス=短い]を部分集合とすることができる。これらの集合間の関係は、古典論理を用いると、次のように表すことができる。ラフ集合では、これらの病名に関するデータの分割をそれぞれのクラスの上近似と呼ぶ。
(2)[クラス=短い]⇒[病名=持病]∨[病名=チフス]
この結果、[クラス=短い]の下近似は、[病名=チフス]を満たす集合、上近似は、[病名=持病]または[病名=チフス]を満たす集合で与えられる。これらの関係は、表3にまとめられる。
表3 病名よる上近似と下近似
クラス 分割 上近似 下近似
短い {5,6} {6} {1,2,5,6}
中位 {1} { } {1,2,5}
長い {2,3,4} { } {1,2,3,4,5}
ラフ集合は、近似の質をcard(下近似)/card(上近似)により定義する。例えば、[クラス=短い]の場合、近似の質は、1/4 =0.25である。一方、症状であれば、表4のような近似が得られる。
表4 症状よる上近似と下近似
クラス 分割 上近似 下近似
短い {5,6} {6} {1,2,5,6}
中位 {1} { } {1,2,5}
長い {2,3,4} { } {1,2,3,4,5}
この表から分かるように、例えば、[クラス=短い]の場合、近似の質は、2/2 =1.0である。
ラフ集合では、各属性がデータ集合の分割を構成し、その分割によってクラスや決定属性といったデータのラベルと属性との関係について、近似とその質が測定されていく。その際、ラベルを上近似と下近似で押さえるということが、ラフ集合の特徴として上げられる。
花村嘉英 (2017)「ラフ集合でThomas Mannの「魔の山」を考える-テキストマイニングのトレーニング」より