taken dead Redhat 7.X URL package links out
[idzebra-moved-to-github.git] / doc / introduction.xml
1 <chapter id="introduction">
2  <!-- $Id: introduction.xml,v 1.27 2006-01-17 12:16:12 marc Exp $ -->
3  <title>Introduction</title>
4  
5  <sect1>
6   <title>Overview</title>
7   
8   <para>
9    <ulink url="http://indexdata.dk/zebra/">Zebra</ulink>
10    is a high-performance, general-purpose structured text
11    indexing and retrieval engine. It reads records in a
12    variety of input formats (eg. email, XML, MARC) and provides access
13    to them through a powerful combination of boolean search
14    expressions and relevance-ranked free-text queries.
15   </para>
16
17   <para>
18    Zebra supports large databases (tens of millions of records,
19    tens of gigabytes of data). It allows safe, incremental
20    database updates on live systems. Because Zebra supports
21    the industry-standard information retrieval protocol, Z39.50,
22    you can search Zebra databases using an enormous variety of
23    programs and toolkits, both commercial and free, which understand
24    this protocol.  Application libraries are available to allow
25    bespoke clients to be written in Perl, C, C++, Java, Tcl, Visual
26    Basic, Python, PHP and more - see
27    <ulink url="http://zoom.z3950.org/">the ZOOM web site</ulink>
28    for more information on some of these client toolkits.
29   </para>
30
31   <para>
32    This document is an introduction to the Zebra system. It explains
33    how to compile the software, how to prepare your first database,
34    and how to configure the server to give you the
35    functionality that you need.
36   </para>
37  </sect1>
38  
39  <sect1 id="features">
40   <title>Features</title>
41   
42   <para>
43    This is an overview of some of Zebra's most important features:
44   </para>
45   
46   <para>
47    <itemizedlist>
48
49     <listitem>
50      <para>
51       Very large databases: logical files can be
52       automatically partitioned over multiple disks.
53      </para>
54     </listitem>
55
56     <listitem>
57      <para>
58       Arbitrarily complex records.  The internal data format
59       is a structured format conceptually similar to XML or GRS-1,
60       which allows lists, nested structured data elements and
61       variant forms of data.
62      </para>
63     </listitem>
64
65     <listitem>
66      <para>
67       Robust updating - records can be added and deleted ``on the fly''
68       without rebuilding the index from scratch.
69       Records can be safely updated even while users are accessing
70       the server.
71       The update procedure is tolerant to crashes or hard interrupts
72       during database updating - data can be reconstructed following
73       a crash.
74      </para>
75     </listitem>
76
77     <listitem>
78      <para>
79       Configurable to understand many input formats.
80       A system of input filters driven by
81       regular expressions allows most ASCII-based
82       data formats to be easily processed.
83       SGML, XML, ISO2709 (MARC), and raw text are also
84       supported.
85      </para>
86     </listitem>
87
88     <listitem>     
89      <para>
90       Searching supports a powerful combination of boolean queries as
91       well as relevance-ranking (free-text) queries.  Truncation,
92       masking, full regular expression matching and "approximate
93       matching" (eg. spelling mistakes) are all handled.
94      </para>
95     </listitem>
96
97     <listitem>
98       <para>
99         Index-only databases: data can be, and usually is, imported
100         into Zebra's own storage, but Zebra can also refer to
101         external files, building and maintaining indexes of "live"
102         collections.
103       </para>
104     </listitem>
105
106     <listitem>
107      <para>
108       Zebra is written in portable C, so it runs on most Unix-like systems 
109       as well as Windows NT.  A binary distribution for Windows NT is
110       available at
111       <ulink url="http://ftp.indexdata.dk/pub/zebra/win32/"/>,
112       and pre-built packages are available for 
113       <!--- some Linux
114       distributions:
115       Red Hat 7.x RPMs at
116       <ulink url="http://ftp.indexdata.dk/pub/zebra/RedHat7.X/"/>
117       and Debian packages at
118       -->
119       <literal>GNU/Debian Linux</literal> at 
120       <ulink url="http://ftp.indexdata.dk/pub/zebra/debian/"/>.
121      </para>
122     </listitem>
123     
124    </itemizedlist>
125    
126   </para>
127   
128   <para>
129    Z39.50 protocol support:
130   </para>
131   
132   <para>   
133    <itemizedlist>
134     <listitem>
135      <para>
136       Protocol facilities: Init, Search, Present (retrieval),
137       Segmentation (support for very large records), Delete, Scan
138       (index browsing), Sort, Close and support for the ``update''
139       Extended Service to add or replace an existing XML record.
140         <!-- Adam says:
141              * Supported
142              You can insert/delete/replace an XML record given an
143              "external" ID.  Actually this way of doing ES Update was
144              meant for an OAI application that Ian Ibbotson had in
145              mind to implement. The "update" command in YAZ client
146              implements this on the client side. My plan is to make
147              this available in ZOOM "extended" soon..
148         -->
149      </para>
150     </listitem>
151
152     <listitem>
153      <para>
154       Piggy-backed presents are honored in the search request - that
155       is, a subset of the found records can be returned directly with
156       a search response, enabling search and retrieval to happen in a
157       single round-trip.
158      </para>
159     </listitem>
160
161     <listitem>
162      <para>
163       Named result sets are supported.
164      </para>
165     </listitem>
166
167     <listitem>
168      <para>
169       Easily configured to support different application profiles, with
170       tables for attribute sets, tag sets, and abstract syntaxes.
171       Additional tables control facilities such as element mappings to
172       different schema (eg., GILS-to-USMARC).
173      </para>
174     </listitem>
175
176     <listitem>
177      <para>
178       Complex composition specifications using Espec-1 (partial support).
179       Element sets are defined using the Espec-1 capability,
180       and are specified in configuration files as simple element
181       requests (and, optionally, variant requests).
182      </para>
183     </listitem>
184
185     <listitem>
186      <para>
187       Multiple record syntaxes
188       for data retrieval: GRS-1, SUTRS,
189       XML, ISO2709 (MARC), etc. Records can be mapped between record syntaxes
190       and schemas on the fly.      
191      </para>
192     </listitem>
193
194    </itemizedlist>
195    
196   </para>
197   
198  </sect1>
199  
200   <sect1 id="apps">
201   <title>Applications</title>
202   <para>
203    Zebra has been deployed in numerous applications, in both the
204    academic and commercial worlds, in application domains as diverse
205    as bibliographic catalogues, geospatial information, structured
206    vocabulary browsing, government information locators, civic
207    information systems, environmental observations, museum information
208    and web indexes.
209   </para>
210   <para>
211    Notable applications include the following:
212   </para>
213
214   <sect2>
215    <title>DADS - the DTV Article Database Service</title>
216    <para>
217     DADS is a huge database of more than ten million records, totalling
218     over ten gigabytes of data.  The records are metadata about academic
219     journal articles, primarily scientific; about 10% of these
220     metadata records link to the full text of the articles they
221     describe, a body of about a terabyte of information (although the
222     full text is not indexed.)
223    </para>
224    <para>
225     It allows students and researchers at DTU (Danmarks Tekniske
226     Universitet, the Technical College of Denmark) to find and order
227     articles from multiple databases in a single query.  The database
228     contains literature on all engineering subjects.  It's available
229     on-line through a web gateway, though currently only to registered
230     users.
231    </para>
232    <para>
233     More information can be found at
234     <ulink url="http://www.dtv.dk/help/dads/index_e.htm"/>
235    </para>
236   </sect2>
237
238   <sect2>
239    <title>NLI-Z39.50 - a Natural Language Interface for Libraries</title>
240    <para>
241     Fernuniversit&#x00E4;t Hagen in Germany have developed a natural
242     language interface for access to library databases.
243     <ulink url="http://ki212.fernuni-hagen.de/nli/NLIintro.html"/>
244     In order to evaluate this interface for recall and precision, they
245     chose Zebra as the basis for retrieval effectiveness.  The Zebra
246     server contains a copy of the GIRT database, consisting of more
247     than 76000 records in SGML format (bibliographic records from
248     social science), which are mapped to MARC for presentation.
249    </para>
250    <para>
251     (GIRT is the German Indexing and Retrieval Testdatabase.  It is a
252     standard German-language test database for intelligent indexing
253     and retrieval systems.  See
254     <ulink url="http://www.gesis.org/forschung/informationstechnologie/clef-delos.htm"/>)
255    </para>
256    <para>
257     Evaluation will take place as part of the TREC/CLEF campaign 2003 
258     <ulink url="http://clef.iei.pi.cnr.it or http://www4.eurospider.ch/CLEF/"/>
259    </para>
260    <para>
261     For more information, contact Johannes Leveling
262     <email>Johannes.Leveling@FernUni-Hagen.De</email>
263    </para>
264   </sect2>
265
266   <sect2>
267    <title>ULS (Union List of Serials)</title>
268    <para>
269     The M25 Systems Team
270     has created a union catalogue for the periodicals of the
271     twenty-one constituent libraries of the University of London and
272     the University of Westminster
273     (<ulink url="http://www.m25lib.ac.uk/ULS/"/>).
274     They have achieved this using an
275     unusual architecture, which they describe as a
276     ``non-distributed virtual union catalogue''.
277    </para>
278    <para>
279     The member libraries send in data files representing their
280     periodicals, including both brief bibliographic data and summary
281     holdings.  Then 21 individual Z39.50 targets are created, each
282     using Zebra, and all mounted on the single hardware server.
283     The live service provides a web gateway allowing Z39.50 searching
284     of all of the targets or a selection of them.  Zebra's small
285     footprint allows a relatively modest system to comfortably host
286     the 21 servers.
287    </para>
288    <para>
289     More information can be found at
290     <ulink url="http://www.m25lib.ac.uk/ULS/"/>
291    </para>
292   </sect2>
293
294   <sect2>
295    <title>Various web indexes</title>
296    <para>
297     Zebra has been used by a variety of institutions to construct
298     indexes of large web sites, typically in the region of tens of
299     millions of pages.  In this role, it functions somewhat similarly
300     to the engine of google or altavista, but for a selected intranet
301     or a subset of the whole Web.
302    </para>
303    <para>
304     For example, Liverpool University's web-search facility (see on
305     the home page at
306     <ulink url="http://www.liv.ac.uk/"/>
307     and many sub-pages) works by relevance-searching a Zebra database
308     which is populated by the Harvest-NG web-crawling software.
309    </para>
310    <para>
311     For more information on Liverpool university's intranet search
312     architecture, contact John Gilbertson
313     <email>jgilbert@liverpool.ac.uk</email>
314    </para>
315    <para>
316     Kang-Jin Lee
317     <email>lee@arco.de</email>,
318     has recently modified the Harvest web indexer to use Zebra as
319     its native repository engine.  His comments on the switch over
320     from the old engine are revealing:
321     <blockquote>
322      <para>
323       The first results after some testing with Zebra are very
324       promising.  The tests were done with around 220,000 SOIF files,
325       which occupies 1.6GB of disk space.
326      </para>
327      <para>
328       Building the index from scratch takes around one hour with Zebra
329       where [old-engine] needs around five hours.  While [old-engine]
330       blocks search requests when updating its index, Zebra can still
331       answer search requests.
332       [...]
333       Zebra supports incremental indexing which will speed up indexing
334       even further.
335      </para>
336      <para>
337       While the search time of [old-engine] varies from some seconds
338       to some minutes depending how expensive the query is, Zebra
339       usually takes around one to three seconds, even for expensive
340       queries.
341       [...]
342       Zebra can search more than 100 times faster than [old-engine]
343       and can process multiple search requests simultaneously
344      </para>
345      <para>
346       I am very happy to see such nice software available under GPL.
347      </para>
348     </blockquote>
349    </para>
350   </sect2>
351  </sect1>
352
353
354  <sect1 id="support">
355   <title>Support</title>
356   <para>
357    You can get support for Zebra from at least three sources.
358   </para>
359   <para>
360    First, there's the Zebra web site at
361    <ulink url="http://indexdata.dk/zebra/"/>,
362    which always has the most recent version available for download.
363    If you have a problem with Zebra, the first thing to do is see
364    whether it's fixed in the current release.
365   </para>
366   <para>
367    Second, there's the Zebra mailing list.  Its home page at
368    <ulink url="http://indexdata.dk/mailman/listinfo/zebralist"/>
369    includes a complete archive of all messages that have ever been
370    posted on the list.  The Zebra mailing list is used both for
371    announcements from the authors (new
372    releases, bug fixes, etc.) and general discussion.  You are welcome
373    to seek support there.  Join by sending email to
374    <email>zebra-request@indexdata.dk</email> with the word
375    <literal>subscribe</literal> in the body of the message.
376   </para>
377   <para>
378    Third, it's possible to buy a commercial support contract, with
379    well defined service levels and response times, from Index Data.
380    See
381    <ulink url="http://indexdata.dk/support/"/>
382    for details.
383   </para>
384  </sect1>  
385
386
387  <sect1 id="future">
388   <title>Future Directions</title>
389   
390   <para>
391    These are some of the plans that we have for the software in the near
392    and far future, ordered approximately as we expect to work on them.
393   </para>
394   
395   <para>
396    <itemizedlist>
397
398     <listitem>
399      <para>
400        Improved support for XML in search and retrieval. Eventually,
401        the goal is for Zebra to pull double duty as a flexible
402        information retrieval engine and high-performance XML
403        repository.  The recent addition of XPath searching is one
404        example of the kind of enhancement we're working on.
405      </para>
406     </listitem>
407
408     <listitem>
409      <para>
410        Access to the search engine through SOAP/RPC API to allow the
411        construction of applications without requiring Z39.50 tools.
412        This will shortly be available by means of Index Data's
413        SRW-to-Z39.50 gateway, currently in beta test.
414      </para>
415     </listitem>
416
417     <listitem>
418      <para>
419        Finalisation and documentation of Zebra's C programming
420        API, allowing updates, database management and other functions
421        not readily expressed in Z39.50.  We will also consider
422        exposing the API through SOAP.
423      </para>
424     </listitem>
425
426     <listitem>
427      <para>
428        Support for the use of Perl both for access to the Zebra API
429        and for building extension ``plug-ins'' such as input filters.
430        The code for this has been contributed to the source tree by
431        Peter Popovics
432        <email>pop@technomat.hu</email>,
433        and is in the process of being integrated and tested.
434      </para>
435     </listitem>
436
437     <listitem>
438      <para>
439        Improved free-text searching. We're first and foremost octet jockeys and
440        we're actively looking for organisations or people who'd like
441        to contribute experience in relevance ranking and text
442        searching.
443      </para>
444     </listitem>
445
446    </itemizedlist>
447   </para>
448   
449   <para>
450    Programmers thrive on user feedback. If you are interested in a
451    facility that you don't see mentioned here, or if there's something
452    you think we could do better, please drop us a mail.  Better still,
453    implement it and send us the patches.
454   </para>
455   <para>
456    If you think it's all really neat, you're welcome to drop us a line
457    saying that, too. You can email us on
458    <email>info@indexdata.dk</email>
459    or check the contact info at the end of this manual.
460   </para>
461   
462  </sect1>
463 </chapter>
464  <!-- Keep this comment at the end of the file
465  Local variables:
466  mode: sgml
467  sgml-omittag:t
468  sgml-shorttag:t
469  sgml-minimize-attributes:nil
470  sgml-always-quote-attributes:t
471  sgml-indent-step:1
472  sgml-indent-data:t
473  sgml-parent-document: "zebra.xml"
474  sgml-local-catalogs: nil
475  sgml-namecase-general:t
476  End:
477  -->