Thomas Mannの「魔の山」のデータベース化と推定からの分析6


6 推定によるデータベースの分析

 「魔の山」のデータベースの中で、特に問題解決の場面が考察の対象となる。その中で問題解決の場面の比率は0.2とする。母集団から標本を抽出するとき、ファジィという論理計算の結果を基にして、信頼度を95%とするには、誤差を0.09以下にするのに標本はおよそいくつ必要になるのであろうか。
 標本の大きさをnとすると、標本平均と母平均との差の絶対値は95%の確立で、
1.96√0.2(1-0.2)/n 以下であるから、1.96√0.2(1-0.2)/n≦0.09 であればよい。それゆえに、
n≧76.1・・・。よって、n≧77とすればよい。
 但し、小説の構成を単純に起承転結とした場合、起承の部分には問題解決の場面が比較的少ないため、分析の対象を増やすことにより数字の調節ができると考えている。例えば、「魔の山」のデータベースから無作為に1000ラインの幅でデータを選んだ場合、比率が0.2前後になることを説明できれば、上記仮定が正しいことになる。サンプル的に100ライン単位で小さな問題解決の場面も含めて数字にしてみる。

表2 問題解決の場面数
ライン 1から100, 100から200, 200から300, 300から400, 400から500, 500から600, 600から700, 700から800, 800から900, 900から1000, 1100から1200, 1100から1200, 1200から1300, 1300から1400, 1400から1500, 1500から1600, 1600から1700, 1700から1800, 1800から1900, 1900から2000     
問題解決 3, 2, 10, 29, 21, 18, 22, 9, 11, 19, 40, 18, 18, 28, 25, 32, 28, 25, 47, 13
の場面   

 理論的には、n≧77であるから、1600越えぐらいで400となればよい。現状のデータベースでは1800越えであるため多少の修正が必要である。そこで、比率を0.25にすると、n≧89.2となり、表2の数字に近くなるため、問題解決の場面の比率は、0.25ぐらいで良いであろう。

花村嘉英(2017)「Thomas Mannの「魔の山」のデータベース化と推定からの分析」より


コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です