議論の整理・・・貴学のパネル(※1)によれば、文字資料をデジタル化しインターネットで閲覧させるのは困難があるとされている。例えばルネサンス期において書かれた資料は、OCRで復元するのも困難としている。現在、貴学のHUMIプロジェクトではデジタルカメラの使用によって文字資料を判読可能なように「読める画像」にする処理が行われている。
問題発見・・・しかしながら、得られる結果はあくまで画像であり、文字ではない。文字列にする必要性はある。
論証・・・なぜなら、文字資料に対し検索などの処理をするときには、一般的に画像ではなく文字列に対して処理するからである。
結論・・・そこで私は、現在の機械学習の成果を応用し、得られた画像を画像処理し文字列化する研究をしたい。
※1高宮利行、岩井茂昭、松田隆美、アンドルー・アーマー「慶應義塾大学 HUMI プロジェクトのデジタル・リサーチ・ライブラリー構想」
コメントを残す