new file
[idzebra-moved-to-github.git] / doc / harvest.mbox
1 From zebralist-admin@indexdata.dk  Sun Nov 24 23:16:24 2002
2 MIME-Version: 1.0
3 Envelope-to: zebra@miketaylor.org.uk
4 Content-Type: text/plain;
5   charset="us-ascii"
6 From: Kang-Jin Lee <lee@arco.de>
7 To: zebralist@indexdata.dk
8 User-Agent: KMail/1.4.3
9 X-Spam-Level: 
10 Subject: [Zebralist] Some progress on Harvest's move to Zebra
11 Sender: zebralist-admin@indexdata.dk
12 X-BeenThere: zebralist@indexdata.dk
13 X-Mailman-Version: 2.0.11
14 Precedence: bulk
15 List-Help: <mailto:zebralist-request@indexdata.dk?subject=help>
16 List-Post: <mailto:zebralist@indexdata.dk>
17 List-Subscribe: <http://www.indexdata.dk/mailman/listinfo/zebralist>,
18         <mailto:zebralist-request@indexdata.dk?subject=subscribe>
19 List-Id: Zebra Information Server <zebralist.indexdata.dk>
20 List-Unsubscribe: <http://www.indexdata.dk/mailman/listinfo/zebralist>,
21         <mailto:zebralist-request@indexdata.dk?subject=unsubscribe>
22 List-Archive: <http://www.indexdata.dk/pipermail/zebralist/>
23 Date: Sun, 24 Nov 2002 20:45:19 +0100
24 X-Spam-Status: No, hits=-1.0 required=5.0 tests=AWL version=2.20
25 X-Spam-Level: 
26 X-MIME-Autoconverted: from quoted-printable to 8bit by localhost.localdomain id gAONGNK15639
27
28 Hi,
29
30 I finished first steps to use Zebra as fulltext engine for Harvest
31 (http://harvest.sourceforge.net/). The performance boost after
32 some testing are quite impressive.
33
34 Here is my article I wrote for the Harvest mailinglist.
35
36 Many thanks for Zebra.
37
38 ------------------------------------------------------
39 Hi,
40
41 The first results after some testing with Zebra are very promising.
42
43 The tests were done with around 220 000 SOIF files, which occupies
44 1.6GB of disk space.
45
46 Building the index from scratch takes around one hour with Zebra where
47 Glimpse needs around five hours.
48
49 While glimpse blocks search requests when updating its index, Zebra
50 can still answer search requests.
51
52 While the search time of glimpse varies from some seconds to some
53 minutes depending how expensive the query is, Zebra usually takes
54 around one to three seconds, even for expensive queries.
55
56 Glimpse' index occupies around 250MB of disk space, Zebra's index
57 takes around 570MB.
58
59 Zebra supports incremental indexing which will speed up indexing even
60 further.
61
62 There are still potential for faster searches when necessary, using
63 tweaks on apache.
64
65 On the other hand, modeling data is not complete, yet.
66
67 To sum it up:
68 - Zebra indexes data five times faster than Glimpse
69 - Zebra doesn't cause downtimes for indexupdate
70 - Zebra's search time doesn't jump from seconds to minutes for no
71   obvious reason, but stays constant within a range of one to three
72   seconds
73 - Zebra can search more than 100 times faster than Glimpse
74 - Zebra can process multiple search requests simultaneously
75 - Zebra can speed up indexing by using incremental indexing
76 - Glimpse's index size is only around half of the Zebra's index
77
78 kj
79 ------------------------------------------------------
80
81 _______________________________________________
82 Zebralist mailing list
83 Zebralist@indexdata.dk
84 http://www.indexdata.dk/mailman/listinfo/zebralist
85
86 From mike@miketaylor.org.uk  Sun Nov 24 23:41:14 2002
87 Date: Sun, 24 Nov 2002 23:41:13 GMT
88 From: Mike Taylor <mike@miketaylor.org.uk>
89 X-Was-To: lee@arco.de
90 X-Was-CC: zebralist@indexdata.dk
91 Cc: mike@localhost.localdomain
92 In-reply-to: <200211242045.19196.lee@arco.de> (message from Kang-Jin Lee on
93         Sun, 24 Nov 2002 20:45:19 +0100)
94 Subject: Re: [Zebralist] Some progress on Harvest's move to Zebra
95
96 > Date: Sun, 24 Nov 2002 20:45:19 +0100
97 > From: Kang-Jin Lee <lee@arco.de>
98
99 > Here is my article I wrote for the Harvest mailinglist.
100
101 Hi K-J,
102
103 It's nice to read all this good stuff about Zebra!  I'm currently
104 working on changes to the documentation for the next Zebra release,
105 and I'd love to include a lightly-edited version of your message in
106 the new document.  (Basically, I'd obscure the name of your old
107 engine, so it's clear that we're trying to say good things about Zebra
108 rather than score points off a competitor.)  Would it be OK for me to
109 quote you?  If yes in principle, then I'll run the actual wording past
110 you before submitting it.
111
112 Thanks,
113
114  _/|_    _______________________________________________________________
115 /o ) \/  Mike Taylor   <mike@miketaylor.org.uk>   www.miketaylor.org.uk
116 )_v__/\  "You question the worthiness of my code?  I should kill you
117          where you stand!" -- Klingon Programming Mantra
118