カテゴリー
未分類

pdfからtextの抽出法

以前はacrobatのtext選択機能を使っていたのだが、いかんせんめんどうだった。前田さんからxpdfのお話を伺って早速試してみる。
1.Linux boxにxpdfのパッケージを入れる。apt-get install xpdf
2.適当なフォルダにhoge.pdfをアップロードする。
3.pdfがおいてあるフォルダで”pdftotext hoge.pdf”を実行
4.hoge.txtが作成されるので、回収。
5.exciteのtext翻訳で・・(ry
結構精度よく展開してくれるので重宝しています。2段組とかになってるドキュメントは若干内容が前後しますが、まぁそれくらいはてめえで直せってことで。前田さん有難うございます。(もともとはnamazuのお話をしていたのですが。。)

Similar Posts:

    None Found

作成者: YasuKeiichi

音声・音響・聴覚情報処理に興味がある研究者。現在は吃音についての研究を行っている。Linuxを1998年より嗜む。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください