ニュース＆イベント NEWS & EVENTS

2022.04.11 Mon UP

単語の共起ネットワークによる言語の構造的特徴の定量化に成功
～言語の壁を越えた新たなデータ解析法の実現に寄与～

研究の要旨とポイント

単語の共起ネットワークとは、言語を定量的に解析する手法の1つで、言語間の共通点や相違点を評価することができます。
8つの言語に翻訳された4種類の文書を共起ネットワークで解析した結果、連続する3個以上の単語を解析対象とした場合に、各言語の重要な特徴が出現することを明らかにしました。
一部の解析指標はテキストデータの内容の影響を受けて変化することも発見しました。
本研究をさらに発展させることで、異なる複数の言語を統合的に解析できる新しい言語学—数理言語学—の構築が期待されます。

研究の背景
研究結果の詳細
用語
論文情報
研究室
東京理科大学について

東京理科大学工学部情報工学科の池口徹教授、眞岸祈平氏(2021年度工学研究科修士課程修了)、同大学教養教育研究院の松本朋子講師、埼玉大学大学院理工学研究科の島田裕准教授らの研究グループは、単語の共起ネットワークを用いて、8つの言語(ギリシャ語、英語、ドイツ語、フランス語、ロシア語、フィンランド語、中国語、日本語)からなる4種類の文書(新約聖書の福音書(マルコ伝、マタイ伝、ルカ伝、ヨハネ伝)、国連議事録、パリ協定、小説)のテキストデータを解析し、各言語の構造的特徴を複数のパラメータで定量化することに成功しました。

その結果、連続するn個の単語で共起ネットワークを形成し、nの値を変化させることで生じる変化を観察することで、n ≥ 3で各言語の重要な特徴が出現することが明らかになりました。また、定量化に用いた解析指標の一部はテキストデータの内容に影響を受けて変化することや、日本語とフィンランド語は、格の種類の多さなど他の言語と大きく異なる構造的特徴を有していることを発見しました。

本研究を発展させることで、異なる言語で記述された膨大なデータの解析が可能となる新しい言語学—数理言語学—の実現につながることが期待されます。

本研究の成果は、2022年4月1日に国際学術誌「Nonlinear Theory and Its Applications, IEICE」にオンライン掲載されました。

研究の背景

近年、大量のテキストデータから必要な情報を取り出すテキストマイニングという分析法が注目されています。テキストマイニングを使ったデータ分析では、様々な言葉を形態素に分解して集計し、出現頻度や関連性などを可視化することができます。例えば、記述式アンケートの分析に適用することで、顧客ニーズや課題の探索を迅速に行うことができます。テキストマイニングの1種である共起ネットワークは、単語同士の関連性や出現パターンの類似性を踏まえて文章中の単語の繋がりを可視化したもので、様々な文章の構造的特徴を評価する際に利用されています。

共起ネットワークとは、n個の連続する単語を各頂点とし、それらを接続することで、単語の関係性をネットワークにして表現します。共起ネットワークにより、単語の関連性を可視化することができるので、出現頻度の高い表現の把握や文全体の趣旨の理解などに応用できます。また、最近の研究により、共起ネットワークを活用することで複数の言語の文法上の特徴を捕捉できることが明らかとなりました。しかしながら、n = 2を対象とした研究が多く、n = 3以上の離れた位置にある単語間の関係性については未解明のままでした。

そこで本研究グループは、世界中の言語の構造的特徴の共通点や相違点を明らかにするため、同一内容で異なる言語で記述された様々なテキストデータを対象として、nの値 (n = 2～8) を系統的に変化させることで解析を行い、各言語に固有の構造や文法規則をより詳細に明らかにしようと試みました。

研究結果の詳細

本研究では、8言語 (ギリシャ語、英語、ドイツ語、フランス語、ロシア語、フィンランド語、中国語、日本語)、4種類の文書 (新約聖書の福音書 (マルコ伝、マタイ伝、ルカ伝、ヨハネ伝))、国連議事録、パリ協定、小説) のテキストデータの解析を行いました。これらの有名な文書を研究対象とした理由は、様々な言語に翻訳されており、言語間での差異を見出しやすいと判断したためです。

共起ネットワークで作成したn = 2～8のネットワークの構造的特徴について、①単語数、②頂点 (形態素(※1)) 数、③密度 (※2)、④三角形クラスタ係数C₃ (※3)、⑤四角形クラスタ係数C₄ (※4)、⑥平均最短経路長L (※5) という6つの指標を用いて定量化し、評価しました。その結果、n = 2では現れなかった言語間での違いがn ≥ 3で現れるようになったこと、一部の解析指標はテキストデータの内容に影響を受けて変化することを明らかにしました。

また、膠着語に分類される日本語とフィンランド語が他の言語と大きく異なる構造的特徴を有していることも発見しました。ただし、nが増加したときの平均最短経路長 L の変化には両言語で違いがあることから、Lの値の変化によって、日本語とフィンランド語を区別できることが示唆されました。

本研究の成果について、研究を主導した池口教授は「世界中の様々な言語で書かれたデータに対して、言語の壁を乗り越え、言語横断的にデータを解析する技術を開発できれば、言語に依存しない新たなデータ解析の枠組みや従来にない情報処理原理を構築することが可能となります。本研究の進展によって、様々な言語の文法機能に現れる数理的な共通性・普遍性からメタ文法規則を導出することで、数理言語学とも呼ぶべき新たな言語学の礎を確立することができます。また、データを記述する個々の言語の特殊性に依らないメタ文法規則の存在を明らかにできれば、定量的な言語分類を実現し、言語が分岐する要因を究明することもできると考えています」と話しています。

※本研究は日本学術振興会の科研費 (JP18K12701, JP20H00596, JP21H03514, JP21H03508) の助成を受けて実施したものです。

用語

※1 形態素 : ある言語における意味をもつ表現の最小単位。

※2 密度 : 2E / N(N-1)で定義される値。Eは接続の数、Nは頂点の数を表している。

※3 三角形クラスタ係数 C₃ : 文書中の連続する3つの単語が互いに関連し、三角形構造をつくるときの指標。局所的な構造特性を評価する際に使用される。

※4 四角形クラスタ係数 C₄ : 文書中の連続する4つの単語が互いに関連し、四角形構造をつくるときの指標。局所的な構造特性を評価する際に使用される。

※5 平均最短経路長 L : 任意の頂点から他の任意の頂点に到達するまでに必要な最小のステップ数を平均化した値。ネットワーク全体の構造特性を評価する際に使用される。

論文情報

雑誌名

Nonlinear Theory and Its Applications, IEICE

論文タイトル

Investigation of the structural features of word co-occurrence networks with increasing numbers of connected words

著者

Kihei Magishi, Tomoko Matsumoto, Yutaka Shimada, and Tohru Ikeguchi