ScanSnap→読取革命でマリみてコーパスをつくるでござる


ドキュメントスキャナの ScanSnap S1500 を手に入れてからとりあえず論文やら書類やらをボンガボンガ読み取らせて紙をなくしていくお部屋のレコンキスタをやってます.

 で,ついに OCR の「読取革命」も買ってしまいまして,いよいよ夢の「マリみてコーパス」作成に取りかかりました.

 「無印」の冒頭部分を読み取らせて――


これを OCR で認識させると,こんな結果が得られました:

ごきげんよう
ごきげんよう
 さわやかな朝の挨拶が、澄みきった青空にこだまする。
 マリア様のお庭に集う乙女たちが、今日も天使のような無垢な笑顔で、背の高い門をくぐり
抜けていく。
 汚れを知らない心身を包むのは、深い色の制服。
 スカートのプリーツは乱さないように、白いセ上フーカラーは翻らせないように、ゆっくり
と歩くのがここでのたしなみ。もちろん、遅刻ギリギリで走り去るなどといった、はしたない
生徒など存在していようはずもない。
 私立リリアン女学園
 明治三十四年創立のこの学園は、もとは華族の令嬢のためにつくられたという、伝統あるカ
トリック系お嬢さま学校である。
 東京都下。武蔵野の面影を未だに残している緑の多いこの地区で、神に見守られ、幼稚舎か
ら大学までの一環教育が受けられる乙女の園
 時代は移り変わり、元号が明治から三回も改まった平成の今日でさえ、十八年通い続ければ


まったく手は加えてません.まずまずの精度ですね.もとのページにあったルビは無視してくれたようです.うむうむ.