未分類

pdfからtextの抽出法

以前はacrobatのtext選択機能を使っていたのだが、いかんせんめんどうだった。前田さんからxpdfのお話を伺って早速試してみる。
1.Linux boxにxpdfのパッケージを入れる。apt-get install xpdf
2.適当なフォルダにhoge.pdfをアップロードする。
3.pdfがおいてあるフォルダで”pdftotext hoge.pdf”を実行
4.hoge.txtが作成されるので、回収。
5.exciteのtext翻訳で・・(ry
結構精度よく展開してくれるので重宝しています。2段組とかになってるドキュメントは若干内容が前後しますが、まぁそれくらいはてめえで直せってことで。前田さん有難うございます。（もともとはnamazuのお話をしていたのですが。。)