Kotenseki
「和漢古典籍オープンデータセット」(仮称)
オープンデータとして公開されている近世以前の和書・漢籍の古典籍の画像や OCR でテキスト化したデータ等を評価実験したり機械処理したりしやすいような形で提供することを目的としたデータセットです。 当面、日本漢文や和刻本の漢籍を中心に視覚言語モデル (Vision-Language Model; VLM) を用いた新しい世代の OCR のデータを中心に収録する予定です。
NDL 古典籍 OCR を用いたデータはこちら: 日本古典籍体現系オープンデータセット 日本古典籍著作オープンデータセット