チケット #34951

Re: OED V.4全文コピペについて (フォーラムメッセージ #75647 からの引用)

登録: 2015-03-03 22:17 最終更新: 2015-03-03 22:17

報告者:
担当者:
(未割り当て)
チケットの種類:
状況:
オープン
コンポーネント:
(未割り当て)
マイルストーン:
(未割り当て)
優先度:
5 - 中
重要度:
5 - 中
解決法:
なし
ファイル:
1

詳細

フォーラム 公開討議 [#75647] からの引用

[forum: 75647]

#75640 への返信 大久保様 詳細なアドバイスを賜り、誠にありがとうございます。

しかし、うむむ、やはりなにか引っかかっているようですね。。。 なお、昨晩 OED の 4.0 -> 4.0.0.3 アップデートについて  http://projectzephyr.sourceforge.jp/oed.html に追記ました。メール問い合わせで更新版を送ってもらえるようです。 4.0 ですと、節見出しがコピペでダブる (1.a のはずが 1.a.1.a とかになる??)ようです。 http://global.oup.com/uk/academic/cdromsupport/oed2v4_0/#7

ぜひアップデートしたいと存じます。

ShiftJISに無い文字は GaijiMap.xml にEPWINGの外字としてすべて登録済みです。

ochlotic, a.では、 ὄχλος とあるべきところ、ὄχλο? と一部文字化けが見られます。

私が使った 4.0.0.3では HTML でいう  の文字  http://www.fileformat.info/info/unicode/char/feff/index.htm は出てきませんでしたので GaijiMap.xml には登録していません。 このため、UTF-8 から ShiftJIS に変換する際、GaijiMap.xml にない文字が使われているぞ!と警告メッセージが出たわけです。 ひょっとして、UWSCで出来た oed-xx.txt をWindows のメモ帳で編集・保存されたでし>ょうか?メモ帳は保存する際に、必ずBOMと呼ばれる制御コードを追加してしまいます。 これが  に相当します。Windowsのメモ帳以外では一般に付かないものです。

御明察のとおり、メモ帳で編集・保存いたしました。

もしかすると、oed-xx.txt の一番先頭にある項目の見出し語が正しく検索で見つからな>いかもしれません。 もしそういう項目(oed-xx.txt)がありましたら、たとえば秀丸エディタで UTF-8 のBOM>>無しで保存してみてください。 http://hide.maruo.co.jp/software/hidemaru.html http://hidemaruo.mydns.jp:81/helpsite/hidemaru/html/130_CmdFile_Encode.htm>l

念のためメモ帳で編集・保存したファイルをチェックしましたが、正しく検索できました。

特にメモ帳で保存されていなかったのでしたら、本当に OED 4,.0 のテキストには &#x>FEFF; の制御コードがどこかに混じっているようです。 私のJava変換プログラムの方で  を取り除くようにしておく方が無難そうですね。

貴プログラムの変更には及びません。

チケットの履歴 (2 件中 2 件表示)

2015-03-03 22:17 更新者: ohkubo-k
  • 新しいチケット "Re: OED V.4全文コピペについて (フォーラムメッセージ #75647 からの引用)" が作成されました

添付ファイルリスト

編集

このチケットにコメントを追加するには、ログインが必要です » ログインする