フォーラム: 公開討議 (スレッド #33913)

TXT及びHTML形式のファイルをEPWING化する手順について (2013-04-22 10:09 by Takamine #68453)

お世話になっております。
以前から自分で入力した単語集や対訳文のEPWING化を試みてきました。成功したケースもあり、失敗したのも結構ありました。字数の多い小説などに至っては、失敗ばかりしていました。そこで、お伺いしたいのですが、大久保様が公開してくださった青空文庫EPWINGのような辞書を作成するには、どういったツール及び手順が必要なのかを差し支えない範囲でお教えいただけないでしょうか。よろしくお願いします。

メッセージ #68453 への返信×

ログインしていません。投稿を区別するために投稿者のニックネームをつけてください(ニックネームの一意性は保証されません。全く別の人も同じ名前を利用することが可能ですので本人であることの特定には利用できません。本人であることを保証したい場合にはログインして投稿を行なってください)。 ログインする

RE: TXT及びHTML形式のファイルをEPWING化する手順について (2013-04-22 21:57 by ohkubo-k #68468)

Takamineさま

全て EBStudio という、EBWin/EBPocket作者の hishida 様のEPWINGデータ作成ソフトを利用しています。テキストデータの編集には Linux 環境も併用しています。
 http://www31.ocn.ne.jp/~h_ishida/EBStudio.html

EBStudio に渡す入力データは、ごくシンプルな HTML ファイルです。
 http://hishida.s271.xrea.com/manual/EBStudio/
こちらのマニュアルの、五 ファイル形式→本文HTML形式→EBStudioでサポートするHTML要素 あたりをご覧下さい。

世の中にある電子テキストは、XML形式だったり、青空文庫のように様々な装飾指定のあるHTMLだったりします。これをEBStudio用のHTMLに変換するには、自作のJavaプログラムやsed, nkf といったテキスト処理の一般的なツールを様々に組み合わせています。
どういう風に変換するかは、元のテキストファイル次第で実に様々です。

Takamine様がどのようにEPWINGを作ろうとされたかは分かりませんが、少なくとももとテキストが1GB近くとか、見出しが数百万件とか、辞書内リンクも数百万件とかでも、そのこと自体でEPWINGデータを作成できなかったことはありません。
むしろ、HTMLとしてタグの対応が取れていないとか、基本的な入力データの問題のためにEBStudioがエラーとすることは良くあり、そういったことの対応のために元テキストを修正したり、変換プログラムを改良することが、変換作業のメインだったりします。

青空文庫のEPWING化では、aの閉じタグが </ a> のようになっていたり、<a href=http...> といように href=後の " が欠けていたり、と言った問題が数カ所ありました。これらはEBStudioでエラーになるので直さなければなりませんでしたが、元テキストのデータ量からすれば、たった数カ所とは驚異的な少なさでした。おかげでほとんど苦労せずEPWING化できました。

外字については、独仏などのごく基本的な記号付き文字のレベルなら問題ありません。
C:\Program Files\EBStudio\sample に、Gaiji.xml, GaijiMap.xml が付いています。
これを使えばOKです。
ギリシャ語など、独自文字を外字として作成する場合はEBStudio付属の fontdumpw を使えば、面倒な 16x16 ドットの画像データ作成もできます。

EBStudioのヘルプはとても良く書かれており、ジャンプ先や検索キーなどの細かな指定方法も実に良く作り込まれています。最初はなかなかハードルが高いかも知れませんが、慣れると大体やるべき事は同じなので、特に面倒なことはありません。元になる電子データをどう集めて整えるか、という問題以外は・・・・。
#68453 への返信

メッセージ #68468 への返信×

ログインしていません。投稿を区別するために投稿者のニックネームをつけてください(ニックネームの一意性は保証されません。全く別の人も同じ名前を利用することが可能ですので本人であることの特定には利用できません。本人であることを保証したい場合にはログインして投稿を行なってください)。 ログインする

RE: TXT及びHTML形式のファイルをEPWING化する手順について (2013-04-22 23:06 by Takamine #68472)

OHKUBO様
 さっそくご返事いただき、ありがとうございます。プログラム言語などにまったく縁のない私ですので、今まではひとつひとつ入力したデータを少し整形してEPWING化を試みてきました。OHKUBO様が新規公開してくださった青空文庫EPWING版にヒントをいただき、手元にある角川文庫や新潮文庫をEPWING化しようと思い、質問させていただいた次第です。ご教示を拝見して、自分にはやはり無理だということが分かりました。今後は方向を変えて、EBOOKへの変換をやってみようと思っております。
 
#68453 への返信

メッセージ #68472 への返信×

ログインしていません。投稿を区別するために投稿者のニックネームをつけてください(ニックネームの一意性は保証されません。全く別の人も同じ名前を利用することが可能ですので本人であることの特定には利用できません。本人であることを保証したい場合にはログインして投稿を行なってください)。 ログインする