話題(スレッド): プチ・ロワイヤル仏和 PetitRoyal.air=2013/11/26-23:56:36版

プチ・ロワイヤル仏和 PetitRoyal.air=2013/11/26-23:56:36版 (2014-06-25 14:55, if, #73612)

大久保様
始めまして。
この度「プチ・ロワイヤル仏和辞典第4版」を購入し、EPWING化を試みた if と申します。
途中エラーが複数出ましたが、ちゃんと(?)EPWING化できて、EBWin等で検索できました。
大変有用なソフトウェアを公開して頂き、誠にありがとうございます。

可能であればエラーに関して解決できればと思い投稿させて頂きました。
もしお時間がある時にでも確認して頂ければ幸いです。
よろしくお願い申し上げます。

(大久保様はフランス語をお勉強中とのこと。当方も突然できたフランスの友人と交流すべく独学中です。本ソフトウェアには本当に助けられています。感謝申し上げます。)

・バージョン
PetitRoyal.air 21,556,504 バイト 2013/11/26 23:56:36
petit_royal.sqlite 205,667,328 バイト

・出力抜粋

creating items.html
ファイルサイズ:205667328
未知のファイルサイズです。
2010/08/31版として処理します。
......ERROR: '要素タイプ"dd"は、対応する終了タグ"</dd>"で終了する必要があります。'
ERROR: 'com.sun.org.apache.xml.internal.utils.WrappedRuntimeException: 要素タイプ"dd"は、対応する終了タグ"</dd>"で終了する必要があります。'
...ERROR: <tr><td><span class='mid' rank='13'>cr?mer</span><span class='hat' pf='/' sf='/'>kre-me</span><span class='hns'>自動</span>
<tr><td><span class='ggi'>?</span><span class='ykg'><span class='kgu'>…</span>をクリーム色にする</span></td></tr>
...............ERROR: <tr><td><span class='mid' rank='12'>moelleu<i>x</i>, <i>se</i></span><span class='hat' pf='/'>mwa-l?, -l?<span class='kyo'>?</span>z</span><span class='hak' pf='/' sf='/'>モワルー,ルーズ</span><span class='tyk'>誤って
.....ERROR: '要素タイプ"dd"は、対応する終了タグ"</dd>"で終了する必要があります。'
ERROR: 'com.sun.org.apache.xml.internal.utils.WrappedRuntimeException: 要素タイプ"dd"は、対応する終了タグ"</dd>"で終了する必要があります。'
..ERROR: '要素タイプ"span"は、対応する終了タグ"</span>"で終了する必要があります。'
ERROR: 'com.sun.org.apache.xml.internal.utils.WrappedRuntimeException: 要素タイプ"span"は、対応する終了タグ"</span>"で終了する必要があります。'

done. 39446 entries

メッセージ #73612 への返信×

ログインしていません。投稿を区別するために投稿者のニックネームをつけてください(ニックネームの一意性は保証されません。全く別の人も同じ名前を利用することが可能ですので本人であることの特定には利用できません。本人であることを保証したい場合にはログインして投稿を行なってください)。 ログインする

Re: プチ・ロワイヤル仏和 PetitRoyal.air=2013/11/26-23:56:36版 (2014-06-25 22:29, ohkubo-k, #73618)

こんにちは。
ご利用ありがとうございます。

お察しの通り、今までとは違うCDのデータのようです。
私が持っているものと比べると、辞書データファイル(petit_royal.sqlite)のサイズが20MBほど増えています(2010/08/31版では182,255,616バイト)。

追加された部分に、XMLファイルとしての誤り(<span>...</span>の</span>が無い、など)があるようです。そういう場合、その項目だけは無視して、処理を継続するようにしてあります。

items.html などが出来たフォルダに erritems.txt は出来ていますでしょうか。
もしあれば、私宛にメールで送っていただけますでしょうか。それを元に変換プログラムを修正します。
私のメールアドレスは http://projectzephyr.sourceforge.jp/ の連絡先にあります。
大量に変更すべき点があった場合(erritems.txtが数MBとか)、すぐには対応できかねますが、それほど大きくなければ、近日中に対応できると思います。

つい先日も、ロワイヤル仏和中辞典で同じようなことがあり、数回のやり取りで対応しました。
 https://sourceforge.jp/projects/projectzephyr/forums/28849/35596/
今回も何とかなればいいのですが。


データ変換としてはちょっと頭の痛い問題ですが、数年おきに辞書データが更新されている証拠ですね(単純な誤植修正以上の修正や項目追加?が行われたのかも知れません)。それはむしろ旺文社の方々に感謝です。私も買いなおしたほうがいいのかも・・・。
#73612 への返信

メッセージ #73618 への返信×

ログインしていません。投稿を区別するために投稿者のニックネームをつけてください(ニックネームの一意性は保証されません。全く別の人も同じ名前を利用することが可能ですので本人であることの特定には利用できません。本人であることを保証したい場合にはログインして投稿を行なってください)。 ログインする

Re: プチ・ロワイヤル仏和 PetitRoyal.air=2013/11/26-23:56:36版 (2014-06-26 21:40, ohkubo-k, #73628)

改良版の zephyr.jar を作りました。
 https://sourceforge.jp/ticket/download.php?group_id=7237&tid=33975&file_id=5107
このファイルに差し替えてもう一度 makehtml.bat していただけますでしょうか。

今度は、実行時に
 creating items.html
 ファイルサイズ:205667328
 2013/11/26版データとして処理します
 ・・・
と出るはずです。また、エラーメッセージは出ないはずです。
もしやはりエラーメッセージが出たときは、お手数ですがもう一度 erritems.txt をメールで送ってください。たぶん大丈夫なはず、ですが・・・・
#73612 への返信

メッセージ #73628 への返信×

ログインしていません。投稿を区別するために投稿者のニックネームをつけてください(ニックネームの一意性は保証されません。全く別の人も同じ名前を利用することが可能ですので本人であることの特定には利用できません。本人であることを保証したい場合にはログインして投稿を行なってください)。 ログインする

Re: プチ・ロワイヤル仏和 PetitRoyal.air=2013/11/26-23:56:36版 (2014-06-27 09:28, if, #73635)

大久保様
早速のご対応ありがとうございます。

>  https://sourceforge.jp/ticket/download.php?group_id=7237&tid=33975&file_id=5107

試したところ

| ファイルサイズ:205667328
| 未知のファイルサイズです。
| 2010/08/31版として処理します。

以下同文となりました。erritems.txt も一致します。
zephy.jar のサイズと md5 は次の通りです。

cygwin# ls -l zephyr.jar
-rwx------+ 1 u u 170983 2014-06-27 09:08 zephyr.jar
cygwin# md5sum zephyr.jar
5a3c5dc6ee0ee85a71696fd1cc3b9a22 *zephyr.jar

よろしくお願い申し上げます。
#73628 への返信

メッセージ #73635 への返信×

ログインしていません。投稿を区別するために投稿者のニックネームをつけてください(ニックネームの一意性は保証されません。全く別の人も同じ名前を利用することが可能ですので本人であることの特定には利用できません。本人であることを保証したい場合にはログインして投稿を行なってください)。 ログインする

Re: プチ・ロワイヤル仏和 PetitRoyal.air=2013/11/26-23:56:36版 (2014-06-28 10:32, ohkubo-k, #73661)

すみません、アップロードしたファイルが古いファイルでした(先日ロワイヤル仏和中辞典について修正した時のものでした)。

https://sourceforge.jp/ticket/download.php?group_id=7237&tid=33975&file_id=5108

でお願いいたします。

$ ls -l zephyr.jar
----------+ 1 ohkubo-k なし 135880 6月 28 10:14 zephyr.jar

$ md5sum.exe zephyr.jar
cc99085ec4a5a7ee8b4930d78b5b264a *zephyr.jar

DBのファイルサイズで処理を切り替えるようにしてあります。
  DBSIZE_20131126 = 205667328;
に当たり、「2013/11/26版データとして処理します」と最初に出てくれるはずです。
#73635 への返信

メッセージ #73661 への返信×

ログインしていません。投稿を区別するために投稿者のニックネームをつけてください(ニックネームの一意性は保証されません。全く別の人も同じ名前を利用することが可能ですので本人であることの特定には利用できません。本人であることを保証したい場合にはログインして投稿を行なってください)。 ログインする

Re: プチ・ロワイヤル仏和 PetitRoyal.air=2013/11/26-23:56:36版 (2014-06-29 14:43, if, #73668)

2014/06/28版確認致しました。
迅速な御対応ありがとうございます。

erritems.txtの中の 3 つのうち最初の二つがクリアされましたが、
最後の一つ(ras,e)がエラーになりました。
また erritems.txt には残らないが、変換中に ERROR 表示される見出し語
(allo-等)が検索できないことがわかりましたので、
erritems.txtと、変換中のログをメール致しました。
お時間のある時にご確認頂ければ幸いです。
よろしくお願い申し上げます。
#73661 への返信

メッセージ #73668 への返信×

ログインしていません。投稿を区別するために投稿者のニックネームをつけてください(ニックネームの一意性は保証されません。全く別の人も同じ名前を利用することが可能ですので本人であることの特定には利用できません。本人であることを保証したい場合にはログインして投稿を行なってください)。 ログインする

Re: プチ・ロワイヤル仏和 PetitRoyal.air=2013/11/26-23:56:36版 (2014-07-01 22:19, ohkubo-k, #73695)

再度、修正版 zephyr.jar を公開しました。これに差し替えたらいかがでしょうか。
 https://sourceforge.jp/ticket/download.php?group_id=7237&tid=33975&file_id=5109
これでもダメな場合、メールにてちょっとご相談させてください。


> 最後の一つ(ras,e)がエラーになりました。

これはプログラム中の単純なコピペミスでした。

> また erritems.txt には残らないが、変換中に ERROR 表示される見出し語
> (allo-等)が検索できないことがわかりましたので、

これは全く新しい現象です。
調べて分かったのは、項目(語釈)のHTMLテキストに改行が入ってしまっていることです。そのため変換プログラムが想定している正規表現にマッチせず、処理対象外エラーが出ていました。いままでそういうことは一切ありませんでした。
問題になった項目は、私のプチロワには載っていません(ロワ仏中辞典にはある)が、ifさんがお持ちの2013年版データでは新規追加になったようです、
#73668 への返信

メッセージ #73695 への返信×

ログインしていません。投稿を区別するために投稿者のニックネームをつけてください(ニックネームの一意性は保証されません。全く別の人も同じ名前を利用することが可能ですので本人であることの特定には利用できません。本人であることを保証したい場合にはログインして投稿を行なってください)。 ログインする

Re: プチ・ロワイヤル仏和 PetitRoyal.air=2013/11/26-23:56:36版 (2014-07-03 22:37, ohkubo-k, #73710)

メールでのご連絡ありがとうございました(私が何を相談しようとしていたかお察しくださり、ありがとうございました)。

今度こそ、
 https://sourceforge.jp/ticket/download.php?group_id=7237&tid=33975&file_id=5110
のzephyr.jarでいかがでしょうか。

allo-などは、
- 2013年版のCDで新規追加された
- 2010年版にはなかった改行が入っている
- 見出し語部分に、不正なタグがある(Mars</i> など。</i>は削除しました)
- <tr><td>....<tr><td> となっている個所がある(正しくは ... </td></tr>)
と、いろいろなシンタックスエラーがあり、それぞれに個別に対応する必要があったのでした。

なお、データのシンタックスエラーは別にしても、2010年版と2013年版とでは数百箇所の変更がありました。ほとんどは、単純な誤植(カッコの対応など)でしたが、時々、フランス語の性・数の修正もありました。
そういう内容だけは、後日改めて誤植表として公開するつもりです(旺文社のサイトにはないようです)。

まあ、やっぱりフランス語の綴りは難しいんだな、と思うことしきりです
旺文社がそういう修正をきちんと反映して販売してくれていることは、とてもありがたいことです。
#73695 への返信

メッセージ #73710 への返信×

ログインしていません。投稿を区別するために投稿者のニックネームをつけてください(ニックネームの一意性は保証されません。全く別の人も同じ名前を利用することが可能ですので本人であることの特定には利用できません。本人であることを保証したい場合にはログインして投稿を行なってください)。 ログインする

Re: プチ・ロワイヤル仏和 PetitRoyal.air=2013/11/26-23:56:36版 (2014-07-08 14:16, if, #73781)

2014/07/03版確認致しました。

結果、エラーなく変換でき、また問題のあった見出し語も正常に引けることを確認いたしました。
割合で言えばわずかなのですが、これですっきりしました。
ありがとうございます。

エラー対応は、やはり細かくて手間のかかる作業なのですね。
ご対応感謝申し上げます。

きちんとCD版もメンテナンスされている旺文社殿の対応も素晴らしいですね。
(大久保様から xml(?) のシンタクス含む errata をフィードバックするという可能性はないのでしょうか??)

フランス語の難しさについては、先日フランスの友人と(英語で)チャットしてて
そのような話題になりまして、
「フランス語はフランス人にとってさえ難しい」
というような事を言ってました(笑)

フランス語書くのは挨拶程度しかできませんが、
読む方はこの辞書とこのソフトのおかげで、
ずいぶんと訳せるようになりました。
#73710 への返信

メッセージ #73781 への返信×

ログインしていません。投稿を区別するために投稿者のニックネームをつけてください(ニックネームの一意性は保証されません。全く別の人も同じ名前を利用することが可能ですので本人であることの特定には利用できません。本人であることを保証したい場合にはログインして投稿を行なってください)。 ログインする

Re: プチ・ロワイヤル仏和 PetitRoyal.air=2013/11/26-23:56:36版 (2014-07-08 21:11, if, #73784)

> 結果、エラーなく変換でき、また問題のあった見出し語も正常に引けることを確認いたしました。

よくよく確認したところ、allo- から tetiere までの見出し語が、zzz の後ろにまとまっていました。

zygomatique
zzz
allo-
bidimensionnel,
Cleopatre
:

これはこういうものでしょうか?
#73781 への返信

メッセージ #73784 への返信×

ログインしていません。投稿を区別するために投稿者のニックネームをつけてください(ニックネームの一意性は保証されません。全く別の人も同じ名前を利用することが可能ですので本人であることの特定には利用できません。本人であることを保証したい場合にはログインして投稿を行なってください)。 ログインする

Re: プチ・ロワイヤル仏和 PetitRoyal.air=2013/11/26-23:56:36版 (2014-07-10 22:23, ohkubo-k, #73806)

こんにちは。

> よくよく確認したところ、allo- から tetiere までの見出し語が、zzz の後ろにまとまっていました。

もともと、私の変換ツールは、DBから順番にデータを読みだして、ちょっとした変換を加えて、items.html を作るだけのものです。
2013年度版で追加された項目は、DBの最後に追加刺されていたので、今までのzzzの後に出てきてしまいました。

まあ、それじゃあちょっと何なので、今回追加された項目をまず先に読んで覚えておいて、そのあとのデータを今まで通り出力しながら、適切な位置で先読みした追加項目も織り込むようにzephyr.jarを変更しました。
 https://sourceforge.jp/ticket/download.php?group_id=7237&tid=33975&file_id=5116
これでいかがでしょうか。

私の開発中のデバッグログでは(コマンドプロンプトで実行する際には出ません)以下のようになりました。最初に14項目を読んでおいて、それを適当な項目の後に挿入するようになっています。
--------------------------------------------------
ファイルサイズ:205667328
2013/11/26版データとして処理します
allo-
bidimensionnel, <i>le</i>
Cléopâtre
complétude
dimensionnel, <i>le</i>
grattouiller, gratouiller
lingu(i)-
Mars
mignonnet, te
non-comptable
salarier
sex-
tapenade
têtière
preload 14 items
.
insert [allo-] after [allô, allo]
...
insert [bidimensionnel, <i>le</i>] after [bidet]
...
insert [Cléopâtre] after [clenche]
.
insert [complétude] after [compléti<i>f</i>, <i>ve</i>]
....
insert [dimensionnel, <i>le</i>] after [dimension]
..........
insert [lingu(i)-] after [linguette]
.
insert [Mars] after [mars]
.
insert [mignonnet, te] after [mignon, <i>ne</i>]
.
insert [non-comptable] after [non-combattant, <i>e</i>]
........
insert [salarier] after [salarié, <i>e</i>]
.
insert [sex-] after [sèvres]
..
insert [tapenade] after [tapement]

insert [têtière] after [téter]
--------------------------------------------------


あと、まだまとめ中ですが、2010年版と2013年版のデータの差分も調べています。
 http://classicalepwing.sourceforge.jp/etc/petit-royal-errata.html
結構変わっています。やっぱりプロでも性・数の確認は大変なんだなあ、と。
#73784 への返信

メッセージ #73806 への返信×

ログインしていません。投稿を区別するために投稿者のニックネームをつけてください(ニックネームの一意性は保証されません。全く別の人も同じ名前を利用することが可能ですので本人であることの特定には利用できません。本人であることを保証したい場合にはログインして投稿を行なってください)。 ログインする

Re: プチ・ロワイヤル仏和 PetitRoyal.air=2013/11/26-23:56:36版 (2014-07-11 14:18, if, #73811)

2014/07/10版確認致しました。
期待通りの結果が得られました。
仕様外(?)のご対応、感謝申し上げます。

差分も拝見致しました。
結構な量ですね。まとめるの大変そう!!
トップへのリンク間違っているような??


余談ですが、先日ドイツの友人と英語でチャット中、
日本語(ローマ字)で話しかけられるという事案が発生し、
これはドイツ語も勉強せねばと恐々としているところです。
独和辞典入手でき次第 EPWING 化する予定です。
#73806 への返信

メッセージ #73811 への返信×

ログインしていません。投稿を区別するために投稿者のニックネームをつけてください(ニックネームの一意性は保証されません。全く別の人も同じ名前を利用することが可能ですので本人であることの特定には利用できません。本人であることを保証したい場合にはログインして投稿を行なってください)。 ログインする

Re: プチ・ロワイヤル仏和 PetitRoyal.air=2013/11/26-23:56:36版 (2014-07-12 10:40, ohkubo-k, #73814)

> 差分も拝見致しました。

差分調査中に、sacrilègeの「冒涜」が「冒瀆」に変わっていることに気が付きました。
「瀆」はShiftJISにない漢字なので、外字として1文字追加しました。
外字をUnicodeに置換するPETROYAL.{map, plist}も変更になりました。

こちらで正式に公開しました。
http://projectzephyr.sourceforge.jp/petit-royal.html
http://projectzephyr.sourceforge.jp/petit-royal-errata.html

明らかな誤植の修正もそれなりにありますが、訳語や熟語の追加もかなりあります。
#73811 への返信

メッセージ #73814 への返信×

ログインしていません。投稿を区別するために投稿者のニックネームをつけてください(ニックネームの一意性は保証されません。全く別の人も同じ名前を利用することが可能ですので本人であることの特定には利用できません。本人であることを保証したい場合にはログインして投稿を行なってください)。 ログインする