報告:otaru-open.city の公開

Otaru Open Cityというサイトを作成しました。このサイトでは、小樽市が公開しているデータやドキュメントを対象として、自然言語処理の技術を用いて可視化しながら、信憑性も保つために一次情報に結びつけつつ、情報提供することを目標としています。

キーワードを含む発言から動画をスタート

小樽市議会はYouTubeで議会の様子を配信しています。今回のポイントは、その動画の字幕(書き起こし)を収集し、市長や議員の発言に含まれる頻出語句をWordCloudとして可視化しているところです。このワード(Word)をクリックすることで、ワードを含む発言から動画をスタートできます

発表:JSAI2020 高丸

[4Q3-GS-9-01] 東京都議会会議録における議案への賛否を表明する発言の分析

NTCIR-15 QA Lab-PoliInfo-2 Stance Classification Taskに向けて

〇高丸 圭一1、木村 泰知2、内田 ゆず3、佐々木 稔5、吉岡 真治4、秋葉 友良6、渋木 英潔7 (1. 宇都宮共和大学、2. 小樽商科大学、3. 北海学園大学、4. 北海道大学、5. 茨城大学、6. 豊橋技術科学大学、7. 国立情報学研究所)

キーワード:政治情報、地方議会会議録、Stance Classification 筆者らは評価型タスクNTCIR-15 QA Lab-PoliInfo-2において東京都議会会議録を対象として、議会における議員の発言から、議員が所属する会派の各議案への賛否を推定するStance Classification Taskを企画している。
例えば会議録「受動喫煙防止は、我が都議会自民党の公約であり、私自身も、ぜひ積極的に進めていただきたいと心から願う一人です。しかしながら、そのことと、今回提出された条例案がよいものかというのは別の話であり、残念ながら、この条例には問題が多く、賛成できないというのが、我が党の考えです。」という発言から「都議会自民党」は提出された議案へ「反対」を表明していることが分かる。本稿では、Stance Classification Taskの正解データの構築に向けて、議案への賛否を表明する発言の分析結果について述べる。

発表:JSAI2020 佐々木

大規模地方議会会議録の分散表現 (word2vecモデル) の公開

共通パラメータ等

パラメータ名
トークン化Comainu
size200
window5
negative5
min_count5
sg1 (skip-gram)
hs0
iter20

分散表現(Comainuで単語分割したもの)

地方議会会議録Word2vecモデル(xz圧縮 2.5GB)
日本語WikipediaWord2vecモデル(xz圧縮 2.7GB)

ダウンロード方法

http://local-politics.jp/word2vec/

(w2v と jsai2020) を入力する

参考文献

JSAI2020 [4Rin1-59] 大規模地方議会会議録の分散表現を用いた地方議会のトピック分析

〇佐々木 稔1、乙武 北斗2、木村 泰知3

(1.茨城大学、2.福岡大学、3.小樽商科大学)

キーワード:地方議会会議録、分散表現、トピック分析、データ公開

本研究では,地方議会会議録に対して,地方議会でどのような話題が議論されているかについてテキストマイニング手法を利用した分析を行う.既存研究では話題の分析を行う際に,最も適切な単語単位はどの程度なのか,大規模な都道府県議会会議録から得られた単語の分散表現が利用可能なのかについて研究が行われていない.本稿では,NTCIR14 Segmentation task で利用されたデータセットを用いて,単語分割や学習データの違いにより,トピックモデルの結果がどの程度異なるのかについて分析を行った.その結果,単語分割については,Comainu を用いたことにより,固有名詞や複合名詞を扱えるようになり,トピックの意味が理解しやすくなり,ラベル付けが容易できることを確認した.学習コーパスについては, 地方議会会議録を学習データとした分散表現を用いることで,細かな表現に対応できるこ可能性があることを確認した.しかしながら,異なる分散表現を用いたときのトピックには明確な違いを確認することができなかった.

発表:NLP2020

  1. 木村泰知, 渋木英潔, 高丸圭一 , 秋葉友良, 石下円香, 内田ゆず, 小川泰弘, 乙武北斗, 佐々木稔, 三田村照子, 横手健一, 吉岡真治, 神門典子
    NTCIR-15 QA Lab-PoliInfo2 のタスク設計
  2. 小川泰弘, 木村泰知, 渋木英潔, 秋葉友良, 横手健一, 乙武北斗, 石下円香
    NTCIR-15 QA Lab-PoliInfo-2 における Dialog Summarization
    A4-5 2020年3月
  3. 桧森拓真, 木村泰知, 荒木健治
    会議録に含まれる法律名を対象としたEnd-to-Endのエンティティリンキングの性能評価
    言語処理学会第26回年次大会(NLP2020) F1-2 2020年3
f7e806f981783b63417026e51e949a91

NLP2020-EntityLinkin-himori

発表:DEIM2020

  • 木村泰知, 秋葉友良, 石下円香, 内田ゆず, 小川泰弘, 乙武北斗, 佐々木稔, 渋木英潔, 高丸圭一, 三田村照子, 横手健一, 吉岡真治, 神門典子
  • NTCIR-15 QA Lab-PoliInfo-2 のデータセット構築
  • 第12回データ工学と情報マネジメントに関するフォーラム (第18回日本データベース学会年次大会) 2020年3月

報告:セコム科学技術振興財団のインタビュー

最近は,セコム科学技術振興財団の特定領域研究助成のおかげで,自由に研究をさせてもらっています.その研究テーマのインタビュー記事が公開されたとの連絡があったのでURLを貼ります.https://www.secomzaidan.jp/tokutei/security.htmlこの研究は,湯淺先生をはじめ,河村先生,本田先生,高丸先生,内田先生に協力してもらいながら進めています.