日本経済学会での量的テキスト分析チュートリアル

先日の日本経済学会の春季大会で量的テキスト分析のチュートリアルをやらせてもらいました。座長である川田恵介さんが提供してくれた鳥取県のハローワークの求人票の分析を題材として、日本語の文書の前処理、頻度分析や共起分析、辞書分析、機械学習の使い方を説明しました。今回は、共起分析を用いた日本語のトークン化および準教師ありトッピクモデル(Seeded-LDA)によって分析の結果を大幅に改善できる点を強調しました。興味がある方は、講義に用いたスライドとファイルを見てください。

武蔵大学データサイエンス研究所での講演

先日、武蔵大学データーサイエンス研究所で、「NYT紙の量的テキスト分析を通じた150年間の地政学的脅威の測定」と題する講演を行いました。主催者の方によれば、オフラインで30名でオンラインで70名程度の方が発表を聞いてくれたようです。今回の発表を通じて、量的テキスト分析の可能性を感じ、日本でより多くの人が研究や実務で、同手法を応用してくれることを期待しています。 今後しばらくは日本にとどまって研究を続けるつもりなので、Quanteda Tutorialsを使った量的テキスト分析の実践的なワークショップの開催を希望する大学や企業の方は連絡をください。 2020年12月23日更新:講演の録画がYoutubeで公開されました。

単語埋め込みによる柔軟な日本語文書の感情分析

先日、Latent Semantic Scaling: A Semisupervised Text Analysis Technique for New Domains and Languagesと題する僕の論文がCommunication Methods and Measuresに掲載されました。当論文では、単語埋め込み(word embedding)を用いることで、すぐに利用できるキーワード辞書などが少ない日本語においても、英語と同様に量的テキスト分析を行えることを示しました。 当論文では、LSSという手法を用いて、新聞の記事から政治に関する語を抽出し、それらを感情に関する種語との距離によって重みづけしています。肯定的な語は「絶好、美麗、秀逸、卓越、優雅、絶賛、善良」は、否定的な語「粗悪、醜悪、稚拙、非礼、貧相、酷評、悪徳」となっています。重みづけの結果は、図にあるように、「絶好、人類、民主化、安定、立国」などが肯定的な語、「私利私欲、暴力団、脱税事件、不透明、流用」などが否定的な語となり、直感的に納得できる結果になっています。これら感情によっての重みづけされた語を用いて、文書を重みづけると適当な感情辞書が無くても、政治的な感情分析ができます。 LSSを使うと、重みづけされる語を変えることで、政治以外のさまざまな主題における感情分析を行えます。さらに、種語を変えることで脅威認識や精神状態などのより特定化された尺度における分析を行うことできます。この論文での日本語文書の処理と分析は、quantedaとLSXというRパッケージだけを使っていて簡単なので、ぜひとも試してみてください。分析を再現するRスクリプトは、Harvard Dataverseからダウンロードできます。

Begin typing your search term above and press enter to search. Press ESC to cancel.

Back To Top