共起ネットワーク
1)上位の単語(例:「こと」「もの」「する」「ある」)は内容的に重要ではない汎用語(ストップワード)であることが多い。
2)たった一度しか出てこない単語は、文脈全体において重要でないことが多い。
3)全部の単語をつなぐとネットワークが大きくなりすぎるので、一部の頻出単語に絞ることで見やすいネットワークを作る。
4)全文中に 1,000種類の単語ペア が見つかったとしても、上位 100件 だけをネットワーク図に入れる、という制限です。
5)単語Aと単語Bが たった1回 一緒に出ただけなら、あまり重要ではないので線を引かない。