PPLでPDFを読む方法

polymonyrks2022/08/05(金) - 21:44 に投稿

(本記事はエンジニア向けです、ややテクニカルです)

PPLはSafariで動いているのでSafariで読み込めるHTML形式にPDFを変換する必要があります。

pdf2htmlEXというソフトはレイアウト崩れも殆どなくきれいに変換してくれます。ACMのDigital Libraryなどでも採用されている模様です。なのでPPLはpdf2htmlEX形式で変換されたHTMLに対応させました。

サンプル:特許法の解説(出典元はこちら

使い方は左上のボタンで起動、起動後は左のボタンでUndo, Reset, 右のボタンで目次の表示・非表示です。

以下、具体的にPDFをPPLで読む方法です。

 

0.オンラインコンバーター

オンラインのコンバーター(例えばconvertioはpdf2htmlEXを用いてPDFをHTMLに変換しています。)も利用できるかもです。以下の1,2、3は自分で導入した場合の説明です。オンラインコンバーターを利用する場合は4に進んでください。

1.pdf2htmlEXの導入

自分で導入する場合は公式を参考にします。

2.文書リーダーの差し替え

(後述の「4.ファイル準備」で「4.1.オフラインHTMLファイルのロード」な場合はこの2.の作業は不要です)
pdf2htmlEXの用意したデフォルトのリーダー用JSファイル(pdf2htmlEX.min.js)を改造して、1.幅最大で拡大できる機能、2.目次のOn/Offができるようにしました。ファイルを差し替えなくても動きますが、差し替えるとPPLのボタンから1.2.が実行できるようになります。
 

2.1.pdf2htmlEX.min.jsの場所の特定

ターミナルで、以下のコマンドを打つと場所が分かります。
pdf2htmlEX -v
 

2.2.ファイルの置き換え

その場所のpdf2htmlEX.min.jsをこのファイルに置き換えます。dockerで導入した場合は違うやり方になりそうです(どなたか教えてくださるとありがたいです)。
 

3.pdf2HTMLExの実行

以下のコマンド推奨です。xxx.pdf(対象ファイル名)と/home/xxx/Desktop(出力先)は適宜書き換えてください。

pdf2htmlEX xxx.pdf --dest-dir /home/xxx/Desktop --tounicode 1 --decompose-ligature 1 --turn-off-ligatures 1

これでPPLで読めるhtmlが生成されました。

 

4.ファイル準備

4.1.オフラインHTMLファイルのロード

アプデ(ver.2.0.5)で対応予定です。

4.1.1.ファイルロードボタンの表示化

デフォルトではファイルロードボタンは非表示になっています。下記画像のようにオプション画面でlocal HTML ToggleをYesにします。

yesno

4.1.2.ファイル選択

下記動画のようにやります。どこかのページを開いておいて、先程有効化したボタン(Undo,Resetボタンの少し上に出現します)を選択、ローカルのHTMLを選択します。

flow

 

4.2.サーバーへのアップロード

サーバー上に上記htmlをアップロードして読むことも可能です。ホスティングが必要です(DropBoxなどにアップロードしたものをファイル選択、では駄目です)。