サイズ: 4885
コメント:
|
← 2025-05-25 18:19:38時点のリビジョン60 ⇥
サイズ: 4941
コメント:
|
削除された箇所はこのように表示されます。 | 追加された箇所はこのように表示されます。 |
行 40: | 行 40: |
'''「人の活動を支援するAIシステムの開発」''' |
|
行 47: | 行 49: |
行 69: | 行 70: |
'''【キーワード】''' 古文書、OCR、近代公文書データセット、深層学習 '''【背景と目的】''' 本研究室では、数年にわたり、近代公文書自動解読システムの開発を進めています。近代とは明治~昭和初期の時代のことを指します。この時代の公文書は、当時の史実が記録された歴史資料でもあり、近代史や当時の出来事を知るための貴重な資料でもあります。 日本の行政機関の文書からは、当時の日本国内および日本が統治していた近隣諸国における政策、当時の災害や疫病、などを知ることができ、各市町村に保管されている文書からは、その地域の歴史も知ることがでます。 しかしながら、くずし字や旧字体が多用された手書き文書であり、古文書の知識がないと読むことが難しいため、解読は容易ではありません。 このような近代公文書を歴史専門家のみでなく、外国人研究者や一般の人々が手軽に読めるようにするため、近代公文書自動解読システムは不可欠です。 '''【解読結果と課題】''' システムの現時点での認識精度は約95%です。下図は比較的丁寧に書かれた文書の解読結果の例です。吹き出し部分はシステムが誤認識しており、専門家により訂正しています。癖のある手書き文字、未知の単語(学習データにない単語)を表す手書き文字に対する認識精度が低く、いかにこれを改善するかが課題となっています。課題解決には様々なアプローチがあり、'''この研究に参加してくれる学生を広く募集します。 ''' {{attachment:example_ocr_result.jpg|システムによる解読例}} |
. '''【キーワード】''' 古文書、OCR、近代公文書データセット、深層学習 '''【背景と目的】''' 本研究室では、数年にわたり、近代公文書自動解読システムの開発を進めています。近代とは明治~昭和初期の時代のことを指します。この時代の公文書は、当時の史実が記録された歴史資料でもあり、近代史や当時の出来事を知るための貴重な資料でもあります。 日本の行政機関の文書からは、当時の日本国内および日本が統治していた近隣諸国における政策、当時の災害や疫病、などを知ることができ、各市町村に保管されている文書からは、その地域の歴史も知ることがでます。 しかしながら、くずし字や旧字体が多用された手書き文書であり、古文書の知識がないと読むことが難しいため、解読は容易ではありません。 このような近代公文書を歴史専門家のみでなく、外国人研究者や一般の人々が手軽に読めるようにするため、近代公文書自動解読システムは不可欠です。 '''【解読結果と課題】''' システムの現時点での認識精度は約95%です。下図は比較的丁寧に書かれた文書の解読結果の例です。吹き出し部分はシステムが誤認識しており、専門家により訂正しています。癖のある手書き文字、未知の単語(学習データにない単語)を表す手書き文字に対する認識精度が低く、いかにこれを改善するかが課題となっています。課題解決には様々なアプローチがあり、'''この研究に参加してくれる学生を広く募集します。 ''' {{attachment:example_ocr_result.jpg|システムによる解読例}} |
山田研究室
研究室の基本情報
場所 |
ゼミの曜日 |
教員 |
16号館6F |
木曜 |
山田雅之(やまだまさし) |
研究室見学
期間 |
6月9日~6月20日(木曜3~5限推奨) |
場所 |
木曜3~5限 11号館3F 画像メディア実験室 |
|
上記以外 16号館6F 山田研究室 |
- 見学に来た場合は、学籍番号と氏名を指定の用紙に記入してもらいます
- 見学に来たか否かを採否決定の際に参考にします
面談
1次面接
日時 |
6月23日(月)18:30~ |
|
6月24日(火)17:00~ |
|
6月25日(水)14:00~ |
|
6月27日(金)10:00~ |
場所 |
16号館6F 山田研究室 |
16号館6Fエレベータホールにきて、扉がしまっていたら、エレベータホールの内線電話で呼び出してください。
面談予約
下記要領でメールで連絡ください。
メール宛先 |
|
メールタイトル |
2025年度ゼミ面接希望 |
本文 |
学籍番号、氏名、面談希望日時、志望理由(400字程度) |
研究室紹介
「人の活動を支援するAIシステムの開発」
研究室の方針
- 自分ができることを積み重ね、少しずつできることを増やす
- 作りたいシステムや解決したい課題などを、幅広い視点で考え、そのためにできそうなことを見つけ、卒業研究につなげていく
研究室の特徴
- メディア工学科の宮崎・中・兼松ゼミと共同で、ゼミを運営しています
- AI技術を使った各種システム、CG・VRを使ったコンテンツ制作、アプリケーションの開発などを行っています
ホームページ Open Media Lab
研究テーマの例
現4年生の研究テーマ
神社参拝マナーを学べるVRコンテンツの開発(研究紹介動画:音注意)
- プラモデルの組み上げ作業支援システムの開発
- 強化学習を用いた自走ロボットの研究
- 近代公文書の行検出および文字認識の研究
- 大規模言語モデルを用いた多言語文章要約システムの研究
- ファッションコーディネートの評価に関する研究
- 剣道の練習支援システムの開発
- ゴミのポイ捨の地理的分布を自動可視化するシステムの開発
現大学院生の研究テーマ
- 近代公文書自動解読のための自己教師あり学習手法の研究
- ブレインストーミングを活性化するための対話システムの研究
- 食資源に関する地域コミュニティー形成支援に関する研究
研究トピック 「近代公文書自動解読システムの開発」
【キーワード】 古文書、OCR、近代公文書データセット、深層学習 【背景と目的】 本研究室では、数年にわたり、近代公文書自動解読システムの開発を進めています。近代とは明治~昭和初期の時代のことを指します。この時代の公文書は、当時の史実が記録された歴史資料でもあり、近代史や当時の出来事を知るための貴重な資料でもあります。 日本の行政機関の文書からは、当時の日本国内および日本が統治していた近隣諸国における政策、当時の災害や疫病、などを知ることができ、各市町村に保管されている文書からは、その地域の歴史も知ることがでます。 しかしながら、くずし字や旧字体が多用された手書き文書であり、古文書の知識がないと読むことが難しいため、解読は容易ではありません。 このような近代公文書を歴史専門家のみでなく、外国人研究者や一般の人々が手軽に読めるようにするため、近代公文書自動解読システムは不可欠です。 【解読結果と課題】 システムの現時点での認識精度は約95%です。下図は比較的丁寧に書かれた文書の解読結果の例です。吹き出し部分はシステムが誤認識しており、専門家により訂正しています。癖のある手書き文字、未知の単語(学習データにない単語)を表す手書き文字に対する認識精度が低く、いかにこれを改善するかが課題となっています。課題解決には様々なアプローチがあり、この研究に参加してくれる学生を広く募集します。