2015-10-01から1ヶ月間の記事一覧

Unicodeでは濁点や半濁点を別扱いしてることがあるので結合した

PDFをテキストに変換して使うことがときどきあります。今日処理してたPDFな電子書籍の中に、テキストデータは持っているのに、なんかしらんけど検索がうまくかからないことが多い、という変なファイルがありました。ぜんぜん検索できないならまだわかるんだ…