東京都議会会議録データセット

地方議会会議録を対象とした政治情報のデータセットをGitHubで公開 (2019年3月12日公開)

GitHubから「NTCIR14 QALab-PoliInfo Formal Run dataset 」をダウンロードできます。

NLP2019 発表資料(15MB)

NLP2019-NTCIR-ver3

以下は、NTCIR14 QALab-PoliInfoのDry Run 開催期間中に利用したもの(古い情報)です。

重要

本サイトでデータセットの手続きをする前に,NTCIR QALab-PoliInfoの「参加登録」「(NTICR事務局と)覚書の締結」を済ませてください.

QALab-PoliInfoへ

データセット取得までの流れは,次の通りです.

  1. NTCIR-14 QALab-PoliInfo への参加登録
  2. NTCIR-14 QALab-PoliInfo 事務局との覚書の取り交わし
  3. 東京都議会会議録のデータセットの利用規約についての同意 ← 本サイトで行う手続き
    • 利用規約に同意して頂ければ,データセットを提供いたします.
データセットの概要

5つのJson形式のファイル ( Dry Run の Training Dataset ) が含まれています.

  • File1. 東京都議会会議録
    • 対象期間:平成23年4月から平成27年3月までの4年間
    • 行数:115,750
  • File2. Segmentation Task (File1を必要とするタスク)
    • 入力:議会会議録中の「発言」とその発言の「引用」
    • 出力:引用を正確に理解するために読むべき発言中の記述(文列)
  • File3. Summarization Task
    • 入力:議会会議録中の「発言」と要約の「制限字数」
    • 出力:意見、根拠、条件、例示など(発話者の意図)が明瞭に伝わる「要約」
  • File4(被験者A, 被験者B) Classification Task
    • 入力:政策を示すキーワードを含む、議会会議録中の「発言」
    • 出力:「根拠を伴う賛成」、「根拠を伴う反対」、「その他」への分類
    • トピック「築地市場の豊洲移転について」
    • 2つのファイル
      • 注釈者A による結果
      • 注釈者B による結果
どのようなデータなのか?
QALab-PoliInfoにおける Dry Run

QALab-PoliInfoでは,政治情報の課題(フェイクニュース検出やファクトチェックの基盤技術となる,情報抽出,自動要約,意見抽出など)について,数多くの研究者と議論できるコミュニティをつくりたいと考えています.DryRunのデータセットは,たたき台であり,Formal Run に向けて,参加者と話し合うための材料となれば幸いです.Dry Runの後には,できれば直接お会いして,どのようなデータセットにするべきか,どのような問題があるのか,議論をしながら(飲み会もしつつ),みんなで評価方法も考えて,Fornal Runのあり方を検討したいと思っています.最終的には,自然言語処理技術を用いて,政治情報に含まれる課題を解決していきたいです.

覚書を取り交わしたら、データ配布とSlackの招待をするので、よろしくお願いします。

今後の予定
  • 2018年7月9-10日 第236回自然言語処理研究発表会 @ 理研AIP(COREDO日本橋15階)で「 QA Lab-PoliInfoタスク」の研究発表をします.
    • 政治情報の信憑性判断における情報アクセス技術の役割 -NTCIR-14 QA Lab-PoliInfoタスクの提案-
    • 木村 泰知 (小樽商大/理研AIP), 渋木 英潔 (横浜国大), 阪本 浩太郎 (横浜国大/NII),石下 円香 (NII), 三田村 照子 (CMU), 神門 典子 (NII/総研大)

何か問題がありましたら,木村泰知 kimura(at)res.otaru-uc.ac.jp  まで,お知らせください.

研究課題:「議論の背景・過程・結果を関連づける地方政治コーパスの構築とその学際的応用

研究代表者:木村泰知(小樽商科大学)