フォーラム: 【移行しました】サポート (スレッド #37875)

ウェブクロールの設定方法と不要なindexの一括削除について (2016-07-12 07:14 by okachan #78325)

はじめまして。okachanと申します。

検索エンジンのサービスに興味があり先週の金曜日くらいから使い始めましたが、いろいろ使い方が
わからないので教えて下さい。

https://www.dropbox.com/s/5hiy2jead4uzjil/%E3%82%B9%E3%82%AF%E3%83%AA%E3%83%BC%E3%83%B3%E3%82%B7%E3%83%A7%E3%83%83%E3%83%88%202016-07-12%2007.05.22.png?dl=0

↑のような形式でクロールを設定して、

https://www.e-doctor.ne.jp/s/info/.*
https://www.e-doctor.ne.jp/j/info/.*
https://www.e-doctor.ne.jp/k/info/.*
↑のようなURLルールのものだけクロールしたいと考えていますが、

http://doctors-career.jp/search/?q=e-doctor+%E5%86%85%E7%A7%91%E5%8C%BB&num=20&sort=

実際やってみたところ、関係ないURLも検索結果にのってしまっています。
設定が間違っているようなのですが、どこを直せばよいか教えて頂けますでしょうか。

また一括で不要なデータを削除したい場合、CUIベースで削除とかできますでしょうか。

例えばいまやりたいことは
https://www.e-doctor.ne.jp/s/info/.*
https://www.e-doctor.ne.jp/j/info/.*
https://www.e-doctor.ne.jp/k/info/.*
↑のフォーマット以外のURLは一括削除とかそういったことを考えております。
よろしくおねがいいたします。

メッセージ #78325 への返信×

Wiki文法は使えません
ログインしていません。投稿を区別するために投稿者のニックネームをつけてください(ニックネームの一意性は保証されません。全く別の人も同じ名前を利用することが可能ですので本人であることの特定には利用できません。本人であることを保証したい場合にはログインして投稿を行なってください)。 ログインする

Re: ウェブクロールの設定方法と不要なindexの一括削除について (2016-07-14 16:29 by shinsuke #78342)

URL
https://www.e-doctor.ne.jp/

クロール対象とするURL
なし

クロール対象から除外するURL
https://www.e-doctor.ne.jp/j/search/.*
https://www.e-doctor.ne.jp$
https://www.e-doctor.ne.jp/$
https://www.e-doctor.ne.jp/.*¥?.*
https://www.e-doctor.ne.jp/c/.*
https://www.e-doctor.ne.jp/k/.*

検索対象とするURL
https://www.e-doctor.ne.jp/s/info/.*
https://www.e-doctor.ne.jp/j/info/.*
https://www.e-doctor.ne.jp/k/info/.*

検索対象から除外するURL
なし

のような感じではないでしょうか。

管理画面の検索で検索した条件で一括削除できます。
url:"https://www.e-doctor.ne.jp/.*"のような検索条件がかけると思います。
http://fess.codelibs.org/ja/10.1/admin/searchlist-guide.html
#78325 への返信

メッセージ #78342 への返信×

Wiki文法は使えません
ログインしていません。投稿を区別するために投稿者のニックネームをつけてください(ニックネームの一意性は保証されません。全く別の人も同じ名前を利用することが可能ですので本人であることの特定には利用できません。本人であることを保証したい場合にはログインして投稿を行なってください)。 ログインする

Re: ウェブクロールの設定方法と不要なindexの一括削除について (2016-07-15 08:17 by okachan #78350)

教えていただきありがとうございます。


> 管理画面の検索で検索した条件で一括削除できます。
> url:"https://www.e-doctor.ne.jp/.*"のような検索条件がかけると思います。
> http://fess.codelibs.org/ja/10.1/admin/searchlist-guide.html

こちら上記入力してみましたがうまくいきませんでした・・・
ダブルクオートをシングルクオートとか : 前後にスペース入れるとか,いろいろやってみたのですが、他にやり方か調べ方ありませんでしょうか。

単純に「広島」「東京」などの文字列では検索できるようです。

https://www.evernote.com/shard/s41/sh/3d002785-0d07-4a48-af70-ff05cf236968/e97cb7e38434a78b
#78342 への返信

メッセージ #78350 への返信×

Wiki文法は使えません
ログインしていません。投稿を区別するために投稿者のニックネームをつけてください(ニックネームの一意性は保証されません。全く別の人も同じ名前を利用することが可能ですので本人であることの特定には利用できません。本人であることを保証したい場合にはログインして投稿を行なってください)。 ログインする

Re: ウェブクロールの設定方法と不要なindexの一括削除について (2016-07-15 08:27 by okachan #78351)

[メッセージ #78350 への返信]

> > 管理画面の検索で検索した条件で一括削除できます。
> > url:"https://www.e-doctor.ne.jp/.*"のような検索条件がかけると思います。
> > http://fess.codelibs.org/ja/10.1/admin/searchlist-guide.html
>
> こちら上記入力してみましたがうまくいきませんでした・・・
> ダブルクオートをシングルクオートとか : 前後にスペース入れるとか,いろいろやってみたのですが、他にやり方か調べ方ありませんでしょうか。
>
> 単純に「広島」「東京」などの文字列では検索できるようです。
>
> https://www.evernote.com/shard/s41/sh/3d002785-0d07-4a48-af70-ff05cf236968/e97cb7e38434a78b

url:"https://.*"
で検索かけても出てこないので正規表現きいてないっぽく・・・手詰まり感ある感じです。
#78350 への返信

メッセージ #78351 への返信×

Wiki文法は使えません
ログインしていません。投稿を区別するために投稿者のニックネームをつけてください(ニックネームの一意性は保証されません。全く別の人も同じ名前を利用することが可能ですので本人であることの特定には利用できません。本人であることを保証したい場合にはログインして投稿を行なってください)。 ログインする

Re: ウェブクロールの設定方法と不要なindexの一括削除について (2016-07-15 16:29 by matsutani #78352)

[メッセージ #78351 への返信]
> [メッセージ #78350 への返信]
> url:"https://.*"
> で検索かけても出てこないので正規表現きいてないっぽく・・・手詰まり感ある感じです。

url:"http://fess.codelibs.org/*"
「.*」ではなく「*」を指定することで絞り込みすることができます。
#78351 への返信

メッセージ #78352 への返信×

Wiki文法は使えません
ログインしていません。投稿を区別するために投稿者のニックネームをつけてください(ニックネームの一意性は保証されません。全く別の人も同じ名前を利用することが可能ですので本人であることの特定には利用できません。本人であることを保証したい場合にはログインして投稿を行なってください)。 ログインする