話題(スレッド): Project Gutenbergの全文EPWING化について

Project Gutenbergの全文EPWING化について (2015-03-12 05:14, kunio40, #75712)

大久保様

このたび、青空WING最新更新版の動作確認をして、大変便利に使わせていただいております。
御案内とは存じますが、青空文庫の外国版ともいうべきProject Gutenbergが次のインターネット上で公開されています。

http://www.gutenberg.org/

青空WINGの技法を応用すれば、Project Gutenbergの全文EPWING化も夢ではないように存じます。
当面、大久保様が研究なさっていらっしゃるフランス語に関連するフランス人作家、例えば、バルザックなどの用例辞典でトライしていただければ幸甚に存じます。

メッセージ #75712 への返信×

ログインしていません。投稿を区別するために投稿者のニックネームをつけてください(ニックネームの一意性は保証されません。全く別の人も同じ名前を利用することが可能ですので本人であることの特定には利用できません。本人であることを保証したい場合にはログインして投稿を行なってください)。 ログインする

Re: Project Gutenbergの全文EPWING化について (2015-03-12 22:25, ohkubo-k, #75720)

こんにちは。
Project GutenbergのEPWING化は、実は昨年試していて、こっそり公開しています。

https://sourceforge.jp/projects/aozorawing/releases/61500

gutenwing-140630.zip は、人気作100作(英語作品のみ)+αのテキストだけをEPWINGにしたものです。
青空WINGの作品テキストだけのもの(作家別用例辞典でも、てにをは辞典でもないもの)に相当します。
解凍したしたフォルダ直下に 外字置換ファイルも一応あります。

gutenwing-plus-140630.zip は、それに作家別用例辞典風に工夫をした(動詞は原型で検索できるように)ものです。"ask him" の検索で "ask him", "asked him" などの文例が見つかります。

某所でこっそり告知してみたのですが、あんまり(とういうか全然)反響が無かったので、それっきり放置していました。
英語のコーパスに関しては、ネット上に多機能なものが多種多様にありますので(かなり高度なものまで)、EPWINGで単機能のものを作ってもあんまり意味はないのかなと思っております。

ちなみに、昨年6月の時点でProject Gutenbergのテキストをできる限りダウンロードしたら、12GBにもなりました。
経験上、EBStudioでEPWINGにできるのは 900MB くらいの HTML ファイルまでです(どういう理由でこの制限があるのかは分かっていません)。仕方がないので作品の取捨選択をしようとしたものの、どう選別すればいいのか私にはわからず、結局ダウンロード数の多い人気作ベスト100が Gutenberg のサイトにありましたので、それらの作品(+α)程度でまとめました(ただし英語のみ。スペイン語のドンキホーテとかラテン語のPrincipiaとかイタリア語の君主論とかは除きました)。

青空文庫のテキストファイルは、仕様が厳格で機械処理しやすかったのですが、Gutenbergのほうは ASCII/いろいろなヨーロッパの文字コード/UTF-8などが入り乱れ、UTF-8でも?に文字化けしているものもあり、HTMLの形式もバラバラでした。作品も短いものもあれば、「聖書」全部で一ファイル(欽定訳の旧約・新約全部)まであり、同じように処理するのは無理がありました。

また、今日、昨年作ったダウンロードプログラムをちょっと動かしたら、プログラムによるダウンロードの制限が厳しくなったらしく、数作品ダウンロードした後に、CAPTCHAによる認証を求められて進みませんでした。
作品ファイルは、機械ダウンロード用に公開されているFTPサーバーからダウンロードしているのですが、一部のファイルはそこになく、仕方がないのでブラウザで参照するHTMLファイルを直接ダウンロードしたのが良くなかったようです。
この辺りのファイル管理も青空文庫に比べると、ファイルのパス名などの仕様も厳密ではなく(大文字小文字、.htm/.htmlの違いなども)、単純な機械処理の繰り返しで済まないのが厄介です。


なお私はフランス語の「研究」などいたしておりません(笑)。そんなレベルには一生到達しません。するわけがありません!
来週末に初級クラスの期末試験です。複合過去・半過去・単純未来の語尾変化に頭を抱えています・・・・
バルザック、ああ、恥ずかしながら名前だけですね。すみません。まあ、EPWINGを出すとき、それじゃ恥ずかしいかと思い、シェイクスピアの四大悲劇などを読んだり、源氏物語のあらずじ版を読んだり、オデュセイアを読んでみたり、いろいろ読むきっかけにはなっています。
というわけで『ゴリオ爺さん』くらい読んでみますね。もちろん和訳で。
#75712 への返信

メッセージ #75720 への返信×

ログインしていません。投稿を区別するために投稿者のニックネームをつけてください(ニックネームの一意性は保証されません。全く別の人も同じ名前を利用することが可能ですので本人であることの特定には利用できません。本人であることを保証したい場合にはログインして投稿を行なってください)。 ログインする

Re: Project Gutenbergの全文EPWING化について (2015-03-13 17:07, kunio40, #75728)

[メッセージ #75720 への返信]
大久保様

> Project GutenbergのEPWING化は、実は昨年試していて、こっそり公開しています。
>
> https://sourceforge.jp/projects/aozorawing/releases/61500
>
> gutenwing-140630.zip は、人気作100作(英語作品のみ)+αのテキストだけをEPWINGにしたものです。
> 青空WINGの作品テキストだけのもの(作家別用例辞典でも、てにをは辞典でもないもの)に相当します。
> 解凍したしたフォルダ直下に 外字置換ファイルも一応あります。
>
> gutenwing-plus-140630.zip は、それに作家別用例辞典風に工夫をした(動詞は原型で検索できるように)ものです。"ask him" の検索で "ask him", "asked him" などの文例が見つかります。

さすが大久保様、トライ済みとは感服の至りです。
早速、ダウンロードして御例示の"ask him"で動作確認をしたところ、gutenwing-140630では完全一致、全文一致両検索は件数0、全文検索はOK、gutenwing-plusはいずれもokでした。

> 某所でこっそり告知してみたのですが、あんまり(とういうか全然)反響が無かったので、それっきり放置していました。
> 英語のコーパスに関しては、ネット上に多機能なものが多種多様にありますので(かなり高度なものまで)、EPWINGで単機能のものを作ってもあんまり意味はないのかなと思っております。

確かに、英語コーパスは豊富ですが、フランス語コーパスは少ないように見受けられます。gutenwing-plusに収録されているフランス人の著作のうちフランス語原文もあるのは、今のところ、Victor Hugo, "Les misérables"、Guy de Maupassant, "Œuvres complètes de Guy de Maupassant"、Alexandre Dumas, "Le Conte de Monte-Cristo"、Voltaire, "Candide"です。
当面、前記著作フランス語のEPWING化を行っていただくと、私も含めフランス語愛好者に役立つことを確信いたします。

> ちなみに、昨年6月の時点でProject Gutenbergのテキストをできる限りダウンロードしたら、12GBにもなりました。
> 経験上、EBStudioでEPWINGにできるのは 900MB くらいの HTML ファイルまでです(どういう理由でこの制限があるのかは分かっていません)。仕方がないので作品の取捨選択をしようとしたものの、どう選別すればいいのか私にはわからず、結局ダウンロード数の多い人気作ベスト100が Gutenberg のサイトにありましたので、それらの作品(+α)程度でまとめました(ただし英語のみ。スペイン語のドンキホーテとかラテン語のPrincipiaとかイタリア語の君主論とかは除きました)。
>
> 青空文庫のテキストファイルは、仕様が厳格で機械処理しやすかったのですが、Gutenbergのほうは ASCII/いろいろなヨーロッパの文字コード/UTF-8などが入り乱れ、UTF-8でも?に文字化けしているものもあり、HTMLの形式もバラバラでした。作品も短いものもあれば、「聖書」全部で一ファイル(欽定訳の旧約・新約全部)まであり、同じように処理するのは無理がありました。
>
> また、今日、昨年作ったダウンロードプログラムをちょっと動かしたら、プログラムによるダウンロードの制限が厳しくなったらしく、数作品ダウンロードした後に、CAPTCHAによる認証を求められて進みませんでした。
> 作品ファイルは、機械ダウンロード用に公開されているFTPサーバーからダウンロードしているのですが、一部のファイルはそこになく、仕方がないのでブラウザで参照するHTMLファイルを直接ダウンロードしたのが良くなかったようです。
> この辺りのファイル管理も青空文庫に比べると、ファイルのパス名などの仕様も厳密ではなく(大文字小文字、.htm/.htmlの違いなども)、単純な機械処理の繰り返しで済まないのが厄介です。

御苦労なさったことがよく分かります。

> なお私はフランス語の「研究」などいたしておりません(笑)。そんなレベルには一生到達しません。するわけがありません!
> 来週末に初級クラスの期末試験です。複合過去・半過去・単純未来の語尾変化に頭を抱えています・・・・
> バルザック、ああ、恥ずかしながら名前だけですね。すみません。まあ、EPWINGを出すとき、それじゃ恥ずかしいかと思い、シェイクスピアの四大悲劇などを読んだり、源氏物語のあらずじ版を読んだり、オデュセイアを読んでみたり、いろいろ読むきっかけにはなっています。
> というわけで『ゴリオ爺さん』くらい読んでみますね。もちろん和訳で。

期末試験に合格されますように心からお祈り申し上げます。
なお、『ゴリオ爺さん』は、世界的なベストセラーとなった〖21世紀の資本〗(トマ・ピケティ著)にも引用されており、Project Gutenbergでは英語版が公開されています。
#75720 への返信

メッセージ #75728 への返信×

ログインしていません。投稿を区別するために投稿者のニックネームをつけてください(ニックネームの一意性は保証されません。全く別の人も同じ名前を利用することが可能ですので本人であることの特定には利用できません。本人であることを保証したい場合にはログインして投稿を行なってください)。 ログインする

Re: Project Gutenbergの全文EPWING化について (2015-03-14 10:54, ohkubo-k, #75731)

どうせ作るなら数作品だけではつまらないので、やはり、フランス語についても百作品くらい、ついでなのでドイツ語についてもそういう作品集EPWINGを作ってみようかと思います。

o Books: l.french (sorted by popularity)
  http://www.gutenberg.org/ebooks/search/?query=l.french
o Books: l.german (sorted by popularity)
  http://www.gutenberg.org/ebooks/search/?query=l.german
o Category:FR Genre
  http://www.gutenberg.org/wiki/Category:FR_Genre
o FR Littérature (Genre)
  http://www.gutenberg.org/wiki/FR_Litt%C3%A9rature_%28Genre%29
o FR Théâtre (Genre)
  http://www.gutenberg.org/wiki/FR_Th%C3%A9%C3%A2tre_%28Genre%29
  シェイクスピアの全訳発見!ただし19世紀のもの。
  http://www.gutenberg.org/files/18143/18143-h/18143-h.htm
  坪内逍遥訳なみに古めかしい、か?でも
  "JULIETTE.—O Roméo! Roméo!—Pourquoi es-tu Roméo?—Renie ton père et rejette ton nom; ou, si tu ne le veux pas, jure seulement de m'aimer, et je cesse d'être une Capulet. "
  おお!(ちょっと)読める!ちょうど先週 si ~ を習ったばかり。

あたりから適当に取捨選択することになると思います。
もちろん、ユーゴー、モーパッサン、デュマ、ヴォルテールなどの有名どころは全作品取り込むつもりです。

ただ、EPWINGの仕様上、アクセント記号付きのアルファベットは外字になるので、全文検索でそういう文字を含む単語を正しく検索できません。
以前、欧州評議会の多言語議事録をEPWING化したときも、当然同じ問題がありました。
 http://lailaps.sourceforge.jp/
仕方がないので、文字のアクセント記号などを除いた単語で検索すると、その語が出てくる段落が見つかるようにしました。
EBWinなどでは、"語1 & 語2"を検索すると、2つの語が両方出てくる段落を見つかられるのですが、語が段落のどこにあってもヒットしてしまいます。
gutenwing-plus のように、2語ずつまとめて用例検索できるようにするか、まあ、作りながら試行錯誤するつもりです。
#75728 への返信

メッセージ #75731 への返信×

ログインしていません。投稿を区別するために投稿者のニックネームをつけてください(ニックネームの一意性は保証されません。全く別の人も同じ名前を利用することが可能ですので本人であることの特定には利用できません。本人であることを保証したい場合にはログインして投稿を行なってください)。 ログインする

Re: Project Gutenbergの全文EPWING化について (2015-03-15 04:50, kunio40, #75734)

[メッセージ #75731 への返信]
大久保様

> どうせ作るなら数作品だけではつまらないので、やはり、フランス語についても百作品くらい、ついでなのでドイツ語についてもそういう作品集EPWINGを作ってみようかと思います。

御多忙中にもかかわらず、新プロジェクトに取り上げていただき、誠にありがとうございます。
できれば、スペイン語作品も含めていただければ、望外の喜びです。

> もちろん、ユーゴー、モーパッサン、デュマ、ヴォルテールなどの有名どころは全作品取り込むつもりです。

ぜひお願い申し上げます。

> ただ、EPWINGの仕様上、アクセント記号付きのアルファベットは外字になるので、全文検索でそういう文字を含む単語を正しく検索できません。
> 以前、欧州評議会の多言語議事録をEPWING化したときも、当然同じ問題がありました。
>  http://lailaps.sourceforge.jp/
> 仕方がないので、文字のアクセント記号などを除いた単語で検索すると、その語が出てくる段落が見つかるようにしました。
> EBWinなどでは、"語1 & 語2"を検索すると、2つの語が両方出てくる段落を見つかられるのですが、語が段落のどこにあってもヒットしてしまいます。
> gutenwing-plus のように、2語ずつまとめて用例検索できるようにするか、まあ、作りながら試行錯誤するつもりです。

EPWING仕様の制約よく分かりました。
新プロジェクトの完成を大いに期待しております。
#75731 への返信

メッセージ #75734 への返信×

ログインしていません。投稿を区別するために投稿者のニックネームをつけてください(ニックネームの一意性は保証されません。全く別の人も同じ名前を利用することが可能ですので本人であることの特定には利用できません。本人であることを保証したい場合にはログインして投稿を行なってください)。 ログインする

Re: Project Gutenbergの全文EPWING化について (2015-03-18 22:43, ohkubo-k, #75758)

Gutenbergの人気作 ベスト100作品に出てくる作家の全作品(技術的に取得可能なものだけ)をまとめてみました。

英 http://classicalepwing.sourceforge.jp/etc/titles-english.html
仏 http://classicalepwing.sourceforge.jp/etc/titles-french.html
独 http://classicalepwing.sourceforge.jp/etc/titles-german.html
伊 http://classicalepwing.sourceforge.jp/etc/titles-italian.html
西 http://classicalepwing.sourceforge.jp/etc/titles-spanish.html

英語作品は、多言語からの英訳作品もあり、とても豊富です。ヴォルテールにしろニーチェにしろ、原語よりも英訳テキストの方がそろっていました。

Project Gutenberg では、元々単純テキスト(ASCII)で作品収集を始め、その後、ISO-8856-1(ヨーロッパ主要言語の主なアクセント記号付文字を含む)やUTF-8でのテキストに、その後、挿絵などを含むHTML形式などに移ったようです。
上記の作品リストは HTML ファイルを基準にしたものです。ただしヴォルテールのカンディードだけは単純テキストしかなかったので、それだけ手作業で追加しました。

私には見たこともない著作者ばかりなのですが、だいたいこんなところで十分そうなものでしょうか。
実はEPWING化は済んでいます。各言語ごとに1GB強くらいになりました。
#75731 への返信

メッセージ #75758 への返信×

ログインしていません。投稿を区別するために投稿者のニックネームをつけてください(ニックネームの一意性は保証されません。全く別の人も同じ名前を利用することが可能ですので本人であることの特定には利用できません。本人であることを保証したい場合にはログインして投稿を行なってください)。 ログインする

Re: Project Gutenbergの全文EPWING化について (2015-03-19 05:10, kunio40, #75760)

[メッセージ #75758 への返信]
大久保様

御多忙中のところ、早速お取り組みいただき、誠にありがとうございます。

> Gutenbergの人気作 ベスト100作品に出てくる作家の全作品(技術的に取得可能なものだけ)をまとめてみました。
>
> 英 http://classicalepwing.sourceforge.jp/etc/titles-english.html
> 仏 http://classicalepwing.sourceforge.jp/etc/titles-french.html
> 独 http://classicalepwing.sourceforge.jp/etc/titles-german.html
> 伊 http://classicalepwing.sourceforge.jp/etc/titles-italian.html
> 西 http://classicalepwing.sourceforge.jp/etc/titles-spanish.html
>
> 英語作品は、多言語からの英訳作品もあり、とても豊富です。ヴォルテールにしろニーチェにしろ、原語よりも英訳テキストの方がそろっていました。

各リストを拝見したところ、ワイルドのフランス語・ドイツ語訳、ベルヌのイタリア語訳、ドイルのスペイン語訳などがあります。
パラレル・コーパスの研究には役立つと思われます。

> Project Gutenberg では、元々単純テキスト(ASCII)で作品収集を始め、その後、ISO-8856-1(ヨーロッパ主要言語の主なアクセント記号付文字を含む)やUTF-8でのテキストに、その後、挿絵などを含むHTML形式などに移ったようです。
> 上記の作品リストは HTML ファイルを基準にしたものです。ただしヴォルテールのカンディードだけは単純テキストしかなかったので、それだけ手作業で追加しました。
>
> 私には見たこともない著作者ばかりなのですが、だいたいこんなところで十分そうなものでしょうか。
> 実はEPWING化は済んでいます。各言語ごとに1GB強くらいになりました。

もし技術的に可能であれば、『新潮世界文学』全49巻にも取り上げられているWilliam Shakespear、W. Somerset Maugham、D. H. Lawrenceを英語版に含めていただければ幸甚に存じます。
なお、ファイルサイズを小さくするには、原語のみに絞ることも考えられます。
EPWING化がお済みの由、御公開が待ち遠しいですね。
#75758 への返信

メッセージ #75760 への返信×

ログインしていません。投稿を区別するために投稿者のニックネームをつけてください(ニックネームの一意性は保証されません。全く別の人も同じ名前を利用することが可能ですので本人であることの特定には利用できません。本人であることを保証したい場合にはログインして投稿を行なってください)。 ログインする

Re: Project Gutenbergの全文EPWING化について (2015-03-19 22:25, ohkubo-k, #75779)

> もし技術的に可能であれば、『新潮世界文学』全49巻にも取り上げられているWilliam Shakespear、W. Somerset Maugham、D. H. Lawrenceを英語版に含めていただければ幸甚に存じます。

はい、試してみます。ほかに(私の個人的な趣味で)追加するかもしれません。
いろいろ試行錯誤しつつ、4月の公開を目指します。
#75760 への返信

メッセージ #75779 への返信×

ログインしていません。投稿を区別するために投稿者のニックネームをつけてください(ニックネームの一意性は保証されません。全く別の人も同じ名前を利用することが可能ですので本人であることの特定には利用できません。本人であることを保証したい場合にはログインして投稿を行なってください)。 ログインする

Re: Project Gutenbergの全文EPWING化について (2015-04-18 17:49, ohkubo-k, #75963)

[メッセージ #75779 への返信]
> > もし技術的に可能であれば、『新潮世界文学』全49巻にも取り上げられているWilliam Shakespear、W. Somerset Maugham、D. H. Lawrenceを英語版に含めていただければ幸甚に存じます。

上記作家の(技術的に収録可能な)全作品+欽定訳聖書にしました。
どこでもいいのですが、英仏独伊西ということで、Lailaps のページに置きました。

http://lailaps.sourceforge.jp/
http://lailaps.sourceforge.jp/#gutenwing

http://lailaps.sourceforge.jp/titles-english.html

英語版は全文検索で、それ以外は前方一致で単語・フレーズの出現箇所を検索できます。
私の語学力では、これらがどう役に立つのかよくわかりませんが、青空WINGのようにどなたかの何かの役に立てば幸いです。
#75779 への返信

メッセージ #75963 への返信×

ログインしていません。投稿を区別するために投稿者のニックネームをつけてください(ニックネームの一意性は保証されません。全く別の人も同じ名前を利用することが可能ですので本人であることの特定には利用できません。本人であることを保証したい場合にはログインして投稿を行なってください)。 ログインする