カテゴリー
未分類

pdfからtextの抽出法

以前はacrobatのtext選択機能を使っていたのだが、いかんせんめんどうだった。前田さんからxpdfのお話を伺って早速試してみる。
1.Linux boxにxpdfのパッケージを入れる。apt-get install xpdf
2.適当なフォルダにhoge.pdfをアップロードする。
3.pdfがおいてあるフォルダで”pdftotext hoge.pdf”を実行
4.hoge.txtが作成されるので、回収。
5.exciteのtext翻訳で・・(ry
結構精度よく展開してくれるので重宝しています。2段組とかになってるドキュメントは若干内容が前後しますが、まぁそれくらいはてめえで直せってことで。前田さん有難うございます。(もともとはnamazuのお話をしていたのですが。。)

About Keiichi Yasu

音声・音響・聴覚情報処理に興味がある研究者。現在は吃音についての研究を行っている。Linuxを1998年より嗜む。

カテゴリー
未分類

かさ

撥水が悪くなってきたので防水スプレーを吹きかけようか。もうスプレーしまくりで。

About Keiichi Yasu

音声・音響・聴覚情報処理に興味がある研究者。現在は吃音についての研究を行っている。Linuxを1998年より嗜む。

カテゴリー
未分類

8時半におきて

勉強。すずしくてはかどる。

About Keiichi Yasu

音声・音響・聴覚情報処理に興味がある研究者。現在は吃音についての研究を行っている。Linuxを1998年より嗜む。