2e3385cfb651fe926a8876bfa2f3b8640b6ec2e1
[idzebra-moved-to-github.git] / doc / harvest.mbox
1 From zebralist-admin@indexdata.dk  Sun Nov 24 23:16:24 2002
2 MIME-Version: 1.0
3 Envelope-to: zebra@miketaylor.org.uk
4 Content-Type: text/plain;
5   charset="us-ascii"
6 From: Kang-Jin Lee <lee@arco.de>
7 To: zebralist@indexdata.dk
8 User-Agent: KMail/1.4.3
9 X-Spam-Level: 
10 Subject: [Zebralist] Some progress on Harvest's move to Zebra
11 Sender: zebralist-admin@indexdata.dk
12 X-BeenThere: zebralist@indexdata.dk
13 X-Mailman-Version: 2.0.11
14 Precedence: bulk
15 List-Help: <mailto:zebralist-request@indexdata.dk?subject=help>
16 List-Post: <mailto:zebralist@indexdata.dk>
17 List-Subscribe: <http://www.indexdata.dk/mailman/listinfo/zebralist>,
18         <mailto:zebralist-request@indexdata.dk?subject=subscribe>
19 List-Id: Zebra Information Server <zebralist.indexdata.dk>
20 List-Unsubscribe: <http://www.indexdata.dk/mailman/listinfo/zebralist>,
21         <mailto:zebralist-request@indexdata.dk?subject=unsubscribe>
22 List-Archive: <http://www.indexdata.dk/pipermail/zebralist/>
23 Date: Sun, 24 Nov 2002 20:45:19 +0100
24 X-Spam-Status: No, hits=-1.0 required=5.0 tests=AWL version=2.20
25 X-Spam-Level: 
26 X-MIME-Autoconverted: from quoted-printable to 8bit by localhost.localdomain id gAONGNK15639
27
28 Hi,
29
30 I finished first steps to use Zebra as fulltext engine for Harvest
31 (http://harvest.sourceforge.net/). The performance boost after
32 some testing are quite impressive.
33
34 Here is my article I wrote for the Harvest mailinglist.
35
36 Many thanks for Zebra.
37
38 ------------------------------------------------------
39 Hi,
40
41 The first results after some testing with Zebra are very promising.
42
43 The tests were done with around 220 000 SOIF files, which occupies
44 1.6GB of disk space.
45
46 Building the index from scratch takes around one hour with Zebra where
47 Glimpse needs around five hours.
48
49 While glimpse blocks search requests when updating its index, Zebra
50 can still answer search requests.
51
52 While the search time of glimpse varies from some seconds to some
53 minutes depending how expensive the query is, Zebra usually takes
54 around one to three seconds, even for expensive queries.
55
56 Glimpse' index occupies around 250MB of disk space, Zebra's index
57 takes around 570MB.
58
59 Zebra supports incremental indexing which will speed up indexing even
60 further.
61
62 There are still potential for faster searches when necessary, using
63 tweaks on apache.
64
65 On the other hand, modeling data is not complete, yet.
66
67 To sum it up:
68 - Zebra indexes data five times faster than Glimpse
69 - Zebra doesn't cause downtimes for indexupdate
70 - Zebra's search time doesn't jump from seconds to minutes for no
71   obvious reason, but stays constant within a range of one to three
72   seconds
73 - Zebra can search more than 100 times faster than Glimpse
74 - Zebra can process multiple search requests simultaneously
75 - Zebra can speed up indexing by using incremental indexing
76 - Glimpse's index size is only around half of the Zebra's index
77
78 kj
79 ------------------------------------------------------
80
81 _______________________________________________
82 Zebralist mailing list
83 Zebralist@indexdata.dk
84 http://www.indexdata.dk/mailman/listinfo/zebralist
85
86 From mike@miketaylor.org.uk  Sun Nov 24 23:41:14 2002
87 Date: Sun, 24 Nov 2002 23:41:13 GMT
88 From: Mike Taylor <mike@miketaylor.org.uk>
89 X-Was-To: lee@arco.de
90 X-Was-CC: zebralist@indexdata.dk
91 Cc: mike@localhost.localdomain
92 In-reply-to: <200211242045.19196.lee@arco.de> (message from Kang-Jin Lee on
93         Sun, 24 Nov 2002 20:45:19 +0100)
94 Subject: Re: [Zebralist] Some progress on Harvest's move to Zebra
95
96 > Date: Sun, 24 Nov 2002 20:45:19 +0100
97 > From: Kang-Jin Lee <lee@arco.de>
98
99 > Here is my article I wrote for the Harvest mailinglist.
100
101 Hi K-J,
102
103 It's nice to read all this good stuff about Zebra!  I'm currently
104 working on changes to the documentation for the next Zebra release,
105 and I'd love to include a lightly-edited version of your message in
106 the new document.  (Basically, I'd obscure the name of your old
107 engine, so it's clear that we're trying to say good things about Zebra
108 rather than score points off a competitor.)  Would it be OK for me to
109 quote you?  If yes in principle, then I'll run the actual wording past
110 you before submitting it.
111
112 Thanks,
113
114  _/|_    _______________________________________________________________
115 /o ) \/  Mike Taylor   <mike@miketaylor.org.uk>   www.miketaylor.org.uk
116 )_v__/\  "You question the worthiness of my code?  I should kill you
117          where you stand!" -- Klingon Programming Mantra
118
119 From lee@arco.de Mon Nov 25 10:02:13 2002
120 MIME-Version: 1.0
121 Envelope-to: mike@miketaylor.org.uk
122 Content-Type: text/plain;
123   charset="iso-8859-15"
124 From: Kang-Jin Lee <lee@arco.de>
125 To: Mike Taylor <mike@miketaylor.org.uk>
126 Subject: Re: [Zebralist] Some progress on Harvest's move to Zebra
127 Date: Mon, 25 Nov 2002 08:27:42 +0100
128 User-Agent: KMail/1.4.3
129 In-Reply-To: <200211242340.gAONefg15769@localhost.localdomain>
130 X-Spam-Status: No, hits=-4.4 required=5.0 tests=IN_REP_TO version=2.20
131 X-Spam-Level: 
132 Content-Length: 836
133 X-MIME-Autoconverted: from quoted-printable to 8bit by seatbooker.net id JAA28796
134
135 Hi,
136
137 On Monday 25 November 2002 00:40, you wrote:
138 > > Date: Sun, 24 Nov 2002 20:45:19 +0100
139 > > From: Kang-Jin Lee <lee@arco.de>
140 > >
141 > > Here is my article I wrote for the Harvest mailinglist.
142 >
143 > Hi K-J,
144 >
145 > It's nice to read all this good stuff about Zebra!  I'm currently
146 > working on changes to the documentation for the next Zebra release,
147 > and I'd love to include a lightly-edited version of your message in
148 > the new document.  (Basically, I'd obscure the name of your old
149 > engine, so it's clear that we're trying to say good things about Zebra
150 > rather than score points off a competitor.)  Would it be OK for me to
151 > quote you?  If yes in principle, then I'll run the actual wording past
152 > you before submitting it.
153
154 You are welcome to do this.
155
156 I am very happy to see such a nice software available under GPL.
157
158 Thanks.
159
160 kj
161 From zebralist-admin@indexdata.dk  Mon Nov 25 11:13:10 2002
162 MIME-Version: 1.0
163 Envelope-to: zebra@miketaylor.org.uk
164 From: Pete <P.D.Mallinson@liverpool.ac.uk>
165 X-X-Sender: qq15@uxa.liv.ac.uk
166 To: Kang-Jin Lee <lee@arco.de>
167 cc: zebralist@indexdata.dk
168 Subject: Re: [Zebralist] Some progress on Harvest's move to Zebra
169 In-Reply-To: <200211242045.19196.lee@arco.de>
170 Content-Type: TEXT/PLAIN; charset=US-ASCII
171 X-Spam-Level: 
172 Sender: zebralist-admin@indexdata.dk
173 X-BeenThere: zebralist@indexdata.dk
174 X-Mailman-Version: 2.0.11
175 Precedence: bulk
176 List-Help: <mailto:zebralist-request@indexdata.dk?subject=help>
177 List-Post: <mailto:zebralist@indexdata.dk>
178 List-Subscribe: <http://www.indexdata.dk/mailman/listinfo/zebralist>,
179         <mailto:zebralist-request@indexdata.dk?subject=subscribe>
180 List-Id: Zebra Information Server <zebralist.indexdata.dk>
181 List-Unsubscribe: <http://www.indexdata.dk/mailman/listinfo/zebralist>,
182         <mailto:zebralist-request@indexdata.dk?subject=unsubscribe>
183 List-Archive: <http://www.indexdata.dk/pipermail/zebralist/>
184 Date: Mon, 25 Nov 2002 10:19:37 +0000 (GMT)
185 X-Spam-Status: No, hits=-4.4 required=5.0 tests=IN_REP_TO version=2.20
186 X-Spam-Level: 
187 Content-Length: 2853
188
189 On Sun, 24 Nov 2002, Kang-Jin Lee wrote:
190
191 >Hi,
192 >
193 >I finished first steps to use Zebra as fulltext engine for Harvest
194 >(http://harvest.sourceforge.net/). The performance boost after
195 >some testing are quite impressive.
196
197 Hi ... I'd almost forgotten that the Harvest project is still active.
198
199 We had a heap of challenges with our Harvest setup and with the
200 time taken to index and search ... we switched to using
201 Harvest-NG as the "reaper/gatherer" and modified Zebra to
202 work with SOIF and our own ranking algorithm - it's been in
203 service for over 6 months now.
204
205 We had challenges with both speed of gathering and with
206 speed of indexing and searching but most seem to be
207 "managable" now.
208
209 We offered our modifications to Zebra to Indexdata who
210 offered to look at them since the latest release of Zebra
211 is sufficiently different at the code level to make it
212 non-trivial for us to apply our code modifications to
213 it.
214
215
216 Cheers
217
218 Pete Mallinson
219
220 >
221 >Here is my article I wrote for the Harvest mailinglist.
222 >
223 >Many thanks for Zebra.
224 >
225 >------------------------------------------------------
226 >Hi,
227 >
228 >The first results after some testing with Zebra are very promising.
229 >
230 >The tests were done with around 220 000 SOIF files, which occupies
231 >1.6GB of disk space.
232 >
233 >Building the index from scratch takes around one hour with Zebra where
234 >Glimpse needs around five hours.
235 >
236 >While glimpse blocks search requests when updating its index, Zebra
237 >can still answer search requests.
238 >
239 >While the search time of glimpse varies from some seconds to some
240 >minutes depending how expensive the query is, Zebra usually takes
241 >around one to three seconds, even for expensive queries.
242 >
243 >Glimpse' index occupies around 250MB of disk space, Zebra's index
244 >takes around 570MB.
245 >
246 >Zebra supports incremental indexing which will speed up indexing even
247 >further.
248 >
249 >There are still potential for faster searches when necessary, using
250 >tweaks on apache.
251 >
252 >On the other hand, modeling data is not complete, yet.
253 >
254 >To sum it up:
255 >- Zebra indexes data five times faster than Glimpse
256 >- Zebra doesn't cause downtimes for indexupdate
257 >- Zebra's search time doesn't jump from seconds to minutes for no
258 >  obvious reason, but stays constant within a range of one to three
259 >  seconds
260 >- Zebra can search more than 100 times faster than Glimpse
261 >- Zebra can process multiple search requests simultaneously
262 >- Zebra can speed up indexing by using incremental indexing
263 >- Glimpse's index size is only around half of the Zebra's index
264 >
265 >kj
266 >------------------------------------------------------
267 >
268 >_______________________________________________
269 >Zebralist mailing list
270 >Zebralist@indexdata.dk
271 >http://www.indexdata.dk/mailman/listinfo/zebralist
272 >
273
274
275
276 _______________________________________________
277 Zebralist mailing list
278 Zebralist@indexdata.dk
279 http://www.indexdata.dk/mailman/listinfo/zebralist
280