日本語の量的テキスト分析用の辞書

Standard

量的テキスト分析ではキーワード辞書が使われることが多いけれど、日本語では社会科学的な分析に用いられるものがほとんどなく、それが研究や教育における障害となっているように思います。でも最近、約15,000語が以下の23分野に分けられている日経シソーラスの存在を知人から教えてもらいました。

[1] "一般・共通"              "経済・産業"               "経営・企業"
[4] "農林水産"                "食品"                    "繊維・木材・紙パ"
[7] "資源・エネルギー"         "金属・土石"               "化学"
[10] "機械・器具・設備"        "電子電機"                 "情報・通信"
[13] "建設"                  "流通・サービス・家庭用品"   "環境・公害"
[16] "科学技術・文化"          "自然界"                  "国際"
[19] "政治"                  "地方"                    "労働・教育・医療"
[22] "社会・家庭"             "地域"

少なくとも新聞記事の分析では使えそうなので、語を集めてYAMLフォーマットにまとめてみました。単語版は、ウェブサイトに掲載されているままですが、複単語版はquantedatokens()で分かち書きをすることで、辞書分析や複単語の結合に使いやすくなっています。

このシソーラスを使う一番簡単な方法は、quanteda

dict <- dictionary(file = "nikkei-thesaurus_multiword.yml")
tokens_lookup(toks, dict)
tokens_compound(toks, dict)

のようにすることです。詳しい辞書の使い方については、Quanteda Tutorialsを参照してください。また、朝日新聞の『聞蔵』や読売新聞の『ヨミダス』から記事をダウンロードする場合は、newspapersを使うと簡単にテキストをRに読み込めます。

French and Chinese seed dictionaries are added to Newsmap

Standard

newsmap is a dictionary-based semi-supervised model for geographical document classification. The core of the package is not the machine learning algorithm but multi-lingual seed dictionaries created by me and other contributors in English, German, French, Spanish, Japanese, Russian, Chinese. We recently added Chinese (traditional and simplified) and French dictionaries, and submitted the package to CRAN.

The number of native speakers of these languages accounts for 30% of world population, which is actually much smaller than I though. Creation of Arabic, Hindi and Portuguese dictionaries will increase the population coverage by 12%, but there is a long way to go!