typo corrected
[idzebra-moved-to-github.git] / doc / introduction.xml
1 <chapter id="introduction">
2  <!-- $Id: introduction.xml,v 1.35 2006-06-30 13:59:37 marc Exp $ -->
3  <title>Introduction</title>
4  
5  <sect1>
6   <title>Overview</title>
7   
8   <para>
9    <ulink url="http://indexdata.dk/zebra/">Zebra</ulink>
10    is a high-performance, general-purpose structured text
11    indexing and retrieval engine. It reads records in a
12    variety of input formats (eg. email, XML, MARC) and provides access
13    to them through a powerful combination of boolean search
14    expressions and relevance-ranked free-text queries.
15   </para>
16
17   <para>
18    Zebra supports large databases (tens of millions of records,
19    tens of gigabytes of data). It allows safe, incremental
20    database updates on live systems. Because Zebra supports
21    the industry-standard information retrieval protocol, Z39.50,
22    you can search Zebra databases using an enormous variety of
23    programs and toolkits, both commercial and free, which understand
24    this protocol.  Application libraries are available to allow
25    bespoke clients to be written in Perl, C, C++, Java, Tcl, Visual
26    Basic, Python, PHP and more - see
27    <ulink url="http://zoom.z3950.org/">the ZOOM web site</ulink>
28    for more information on some of these client toolkits.
29   </para>
30
31   <para>
32    This document is an introduction to the Zebra system. It explains
33    how to compile the software, how to prepare your first database,
34    and how to configure the server to give you the
35    functionality that you need.
36   </para>
37  </sect1>
38  
39  <sect1 id="features">
40   <title>Features</title>
41   
42   <para>
43    This is an overview of some of Zebra's most important features:
44   </para>
45   
46   <para>
47    <itemizedlist>
48
49     <listitem>
50      <para>
51       Very large databases: logical files can be
52       automatically partitioned over multiple disks.
53      </para>
54     </listitem>
55
56     <listitem>
57      <para>
58       Arbitrarily complex records.  The internal data format
59       is a structured format conceptually similar to XML or GRS-1,
60       which allows lists, nested structured data elements and
61       variant forms of data.
62      </para>
63     </listitem>
64
65     <listitem>
66      <para>
67       Robust updating - records can be added and deleted ``on the fly''
68       without rebuilding the index from scratch.
69       Records can be safely updated even while users are accessing
70       the server.
71       The update procedure is tolerant to crashes or hard interrupts
72       during database updating - data can be reconstructed following
73       a crash.
74      </para>
75     </listitem>
76
77     <listitem>
78      <para>
79       Configurable to understand many input formats.
80       A system of input filters driven by
81       regular expressions allows most ASCII-based
82       data formats to be easily processed.
83       SGML, XML, ISO2709 (MARC), and raw text are also
84       supported.
85      </para>
86     </listitem>
87
88     <listitem>     
89      <para>
90       Searching supports a powerful combination of boolean queries as
91       well as relevance-ranking (free-text) queries.  Truncation,
92       masking, full regular expression matching and "approximate
93       matching" (eg. spelling mistakes) are all handled.
94      </para>
95     </listitem>
96
97     <listitem>
98       <para>
99         Index-only databases: data can be, and usually is, imported
100         into Zebra's own storage, but Zebra can also refer to
101         external files, building and maintaining indexes of "live"
102         collections.
103       </para>
104     </listitem>
105
106     <listitem>
107      <para>
108       Zebra is written in portable C, so it runs on most Unix-like systems 
109       as well as Windows NT.  A binary distribution for Windows NT is
110       available at
111       <ulink url="http://ftp.indexdata.dk/pub/zebra/win32/"/>,
112       and pre-built packages are available for 
113       <!--- some Linux
114       distributions:
115       Red Hat 7.x RPMs at
116       <ulink url="http://ftp.indexdata.dk/pub/zebra/RedHat7.X/"/>
117       and Debian packages at
118       -->
119       <literal>GNU/Debian Linux</literal> at 
120       <ulink url="http://ftp.indexdata.dk/pub/zebra/debian/"/>.
121      </para>
122     </listitem>
123     
124    </itemizedlist>
125    
126   </para>
127   
128   <para>
129      <ulink url="&url.z39.50;">Z39.50</ulink> protocol support:
130   </para>
131   
132   <para>   
133    <itemizedlist>
134     <listitem>
135      <para>
136       Protocol facilities: Init, Search, Present (retrieval),
137       Segmentation (support for very large records), Delete, Scan
138       (index browsing), Sort, Close and support for the ``update''
139       Extended Service to add or replace an existing XML record.
140      </para>
141     </listitem>
142
143     <listitem>
144      <para>
145       Piggy-backed presents are honored in the search request - that
146       is, a subset of the found records can be returned directly with
147       a search response, enabling search and retrieval to happen in a
148       single round-trip.
149      </para>
150     </listitem>
151
152     <listitem>
153      <para>
154       Named result sets are supported.
155      </para>
156     </listitem>
157
158     <listitem>
159      <para>
160       Easily configured to support different application profiles, with
161       tables for attribute sets, tag sets, and abstract syntaxes.
162       Additional tables control facilities such as element mappings to
163       different schema (eg., GILS-to-USMARC).
164      </para>
165     </listitem>
166
167     <listitem>
168      <para>
169       Complex composition specifications using Espec-1 (partial support).
170       Element sets are defined using the Espec-1 capability,
171       and are specified in configuration files as simple element
172       requests (and, optionally, variant requests).
173      </para>
174     </listitem>
175
176     <listitem>
177      <para>
178       Multiple record syntaxes
179       for data retrieval: GRS-1, SUTRS,
180       XML, ISO2709 (MARC), etc. Records can be mapped between record syntaxes
181       and schemas on the fly.      
182      </para>
183     </listitem>
184
185    </itemizedlist>
186    
187   </para>
188
189   
190   <para>
191     <ulink url="&url.sru;">SRU</ulink> Web Service support:
192   </para>
193   <para>   
194    <itemizedlist>
195     <listitem>
196      <para>
197        The protocol operations <literal>explain</literal>, 
198        <literal>searchRetrieve</literal> and <literal>scan</literal>
199        are supported. 
200      </para>
201     </listitem>
202     <listitem>
203      <para>
204        <ulink url="&url.cql;">CQL</ulink> to internal query model RPN 
205        conversion is supported. 
206      </para>
207     </listitem>
208     <listitem>
209      <para>
210        Multiple XML record formats
211       for data retrieval are supported, modelled over the  GRS-1, SUTRS,
212       MARC record formats. Records can be mapped between record
213        schemas on the fly. Arbitrarily complex XSLT transformations
214       can be applied during record retrieval if one uses the 
215        <literal>alvis</literal> filter module.
216      </para>
217     </listitem>
218     <listitem>
219      <para>
220        Additional PQF query syntax for
221        <literal>searchRetrieve</literal>
222        and <literal>scan</literal> operations is supported.
223      </para>
224     </listitem>
225
226    </itemizedlist>
227    
228   </para>
229
230   
231  </sect1>
232  
233   <sect1 id="introduction-apps">
234   <title>References and Zebra based Applications</title>
235   <para>
236    Zebra has been deployed in numerous applications, in both the
237    academic and commercial worlds, in application domains as diverse
238    as bibliographic catalogues, geospatial information, structured
239    vocabulary browsing, government information locators, civic
240    information systems, environmental observations, museum information
241    and web indexes.
242   </para>
243   <para>
244    Notable applications include the following:
245   </para>
246
247
248   <sect2>
249    <title>Koha free open-source ILS</title>
250    <para>
251      <ulink url="http://www.koha.org/">Koha</ulink> is a full-featured
252      open-source ILS, initially developed  in 
253      New Zealand by Katipo Communications Ltd, and first deployed in
254      January of 2000 for Horowhenua Library Trust. It is currently
255      maintained by a team of software providers and library technology
256      staff from around the globe. 
257     </para>
258     <para>
259      <ulink url="http://liblime.com/">LibLime</ulink>, 
260      a company that is marketing and supporting Koha, adds in
261      the new release of Koha 3.0 the Zebra
262      database server to drive its bibliographic database.
263     </para>
264     <para>
265      In early 2005, the Koha project development team began looking at
266      ways to improve MARC support and overcome scalability limitations
267      in the Koha 2.x series. After extensive evaluations of the best
268      of the Open Source textual database engines - including MySQL
269      full-text searching, PostgreSQL, Lucene and Plucene - the team
270      selected Zebra. 
271     </para>
272     <para>
273      "Zebra completely eliminates scalability limitations, because it
274      can support tens of millions of records." explained Joshua
275      Ferraro, LibLime's Technology President and Koha's Project
276      Release Manager. "Our performance tests showed search results in
277      under a second for databases with over 5 million records on a
278      modest i386 900Mhz test server." 
279     </para>
280     <para>
281      "Zebra also includes support for true boolean search expressions
282      and relevance-ranked free-text queries, both of which the Koha
283      2.x series lack. Zebra also supports incremental and safe
284      database updates, which allow on-the-fly record
285      management. Finally, since Zebra has at its heart the Z39.50
286      protocol, it greatly improves Koha's support for that critical
287      library standard." 
288     </para>
289     <para> 
290      Although the bibliographic database will be moved to Zebra, Koha
291      3.0 will continue to use a relational SQL-based database design
292      for the 'factual' database. "Relational database managers have
293      their strengths, in spite of their inability to handle large
294      numbers of bibliographic records efficiently," summed up Ferraro,
295      "We're taking the best from both worlds in our redesigned Koha
296      3.0. 
297      </para>
298    </sect2>
299
300   <sect2>
301    <title>Emilda open source ILS</title>
302    <para>
303      <ulink url="http://www.emilda.org/">Emilda</ulink> 
304      is a complete Integrated Library System, released under the 
305      GNU General Public License. It has a
306      full featured Web-OPAC, allowing comprehensive system management
307      from virtually any computer with an Internet connection, has
308      template based layout allowing anyone to alter the visual
309      appearance of Emilda, and is
310      XML based language for fast and easy portability to virtually any
311      language.
312      Currently, Emilda is used at three schools in Espoo, Finland.
313     </para>
314     <para>
315      As a surplus, 100% MARC compatibility has been achieved using the
316     Zebra Server from Index Data as backend server. 
317     </para> 
318    </sect2>
319
320   <sect2>
321    <title>ReIndex.Net web based ILS</title>
322     <para>
323      <ulink url="http://www.reindex.net/index.php?lang=en">Reindex.net</ulink>
324      is a netbased library service offering all
325      traditional functions on a very high level plus many new
326      services. Reindex.net is a comprehensive and powerful WEB system
327      based on standards such as XML and Z39.50.
328      updates. Reindex supports MARC21, danMARC eller Dublin Core with
329      UTF8-encoding.  
330     </para>
331     <para>
332      Reindex.net runs on GNU/Debian Linux with Zebra and Simpleserver
333      from Index 
334      Data for bibliographic data. The reational database system
335      Sybase 9 XML is used for
336      administrative data. 
337      Internally MARCXML is used for bibliographical records. Update
338      utilizes Z39.50 extended services. 
339     </para>
340    </sect2>
341
342
343   <sect2>
344    <title>DADS - the DTV Article Database Service</title>
345    <para>
346     DADS is a huge database of more than ten million records, totalling
347     over ten gigabytes of data.  The records are metadata about academic
348     journal articles, primarily scientific; about 10% of these
349     metadata records link to the full text of the articles they
350     describe, a body of about a terabyte of information (although the
351     full text is not indexed.)
352    </para>
353    <para>
354     It allows students and researchers at DTU (Danmarks Tekniske
355     Universitet, the Technical College of Denmark) to find and order
356     articles from multiple databases in a single query.  The database
357     contains literature on all engineering subjects.  It's available
358     on-line through a web gateway, though currently only to registered
359     users.
360    </para>
361    <para>
362     More information can be found at
363     <ulink url="http://www.dtv.dk/"/> and
364     <ulink url="http://dads.dtv.dk"/>
365    </para>
366   </sect2>
367
368   <sect2>
369    <title>Infonet Eprints</title>
370    <para>
371      The InfoNet Eprints service from the 
372      <ulink url="http://www.dtv.dk/">
373       Technical Knowledge Center of Denmark</ulink>
374      provides access to documents stored in
375      eprint/preprint servers and institutional research archives around
376      the world. The service is based on Open Archives Initiative metadata
377      harvesting of selected scientific archives around the world. These
378      open archives offer free and unrestricted access to their contents.
379     </para>
380    <para>
381     Infonet Eprints currently holds 1.4 million records from 16 archives.
382     The online search facility is found at
383     <ulink url="http://preprints.cvt.dk"/>.
384    </para>
385   </sect2>
386
387   <sect2>
388    <title>Alvis</title>
389    <para>
390      The <ulink url="http://www.alvis.info/alvis/">Alvis</ulink> EU
391      project run under the 6th Framework (IST-1-002068-STP)
392      is building a semantic-based peer-to-peer search engine. A
393      consortium of eleven partners from six different European
394      Community countries plus Switzerland and China contribute
395      expertise in a broad range of specialties including network
396      topologies, routing algorithms, linguistic analysis and
397      bioinformatics. 
398     </para>
399     <para>
400      The Zebra information retrieval indexing machine is used inside
401      the Alvis framework to
402      manage huge collections of natural language processed and
403      enhanced XML data, coming from a topic relevant web crawl.
404      In this application, Zebra swallows and manages 37GB of XML data
405      in about 4 hours, resulting in search times of fraction of
406      seconds. 
407      </para>
408    </sect2>
409
410
411   <sect2>
412    <title>ULS (Union List of Serials)</title>
413    <para>
414     The M25 Systems Team
415     has created a union catalogue for the periodicals of the
416     twenty-one constituent libraries of the University of London and
417     the University of Westminster
418     (<ulink url="http://www.m25lib.ac.uk/ULS/"/>).
419     They have achieved this using an
420     unusual architecture, which they describe as a
421     ``non-distributed virtual union catalogue''.
422    </para>
423    <para>
424     The member libraries send in data files representing their
425     periodicals, including both brief bibliographic data and summary
426     holdings.  Then 21 individual Z39.50 targets are created, each
427     using Zebra, and all mounted on the single hardware server.
428     The live service provides a web gateway allowing Z39.50 searching
429     of all of the targets or a selection of them.  Zebra's small
430     footprint allows a relatively modest system to comfortably host
431     the 21 servers.
432    </para>
433    <para>
434     More information can be found at
435     <ulink url="http://www.m25lib.ac.uk/ULS/"/>
436    </para>
437   </sect2>
438
439   <sect2>
440    <title>NLI-Z39.50 - a Natural Language Interface for Libraries</title>
441    <para>
442     Fernuniversit&#x00E4;t Hagen in Germany have developed a natural
443     language interface for access to library databases.
444     <!-- <ulink
445     url="http://ki212.fernuni-hagen.de/nli/NLIintro.html"/> -->
446     In order to evaluate this interface for recall and precision, they
447     chose Zebra as the basis for retrieval effectiveness.  The Zebra
448     server contains a copy of the GIRT database, consisting of more
449     than 76000 records in SGML format (bibliographic records from
450     social science), which are mapped to MARC for presentation.
451    </para>
452    <para>
453     (GIRT is the German Indexing and Retrieval Testdatabase.  It is a
454     standard German-language test database for intelligent indexing
455     and retrieval systems.  See
456     <ulink url="http://www.gesis.org/forschung/informationstechnologie/clef-delos.htm"/>)
457    </para>
458    <para>
459     Evaluation will take place as part of the TREC/CLEF campaign 2003 
460     <ulink url="http://clef.iei.pi.cnr.it"/>.
461     <!-- or <ulink url="http://www4.eurospider.ch/CLEF/"/> -->
462    </para>
463    <para>
464     For more information, contact Johannes Leveling
465     <email>Johannes.Leveling@FernUni-Hagen.De</email>
466    </para>
467   </sect2>
468
469   <sect2>
470    <title>Various web indexes</title>
471    <para>
472     Zebra has been used by a variety of institutions to construct
473     indexes of large web sites, typically in the region of tens of
474     millions of pages.  In this role, it functions somewhat similarly
475     to the engine of google or altavista, but for a selected intranet
476     or a subset of the whole Web.
477    </para>
478    <para>
479     For example, Liverpool University's web-search facility (see on
480     the home page at
481     <ulink url="http://www.liv.ac.uk/"/>
482     and many sub-pages) works by relevance-searching a Zebra database
483     which is populated by the Harvest-NG web-crawling software.
484    </para>
485    <para>
486     For more information on Liverpool university's intranet search
487     architecture, contact John Gilbertson
488     <email>jgilbert@liverpool.ac.uk</email>
489    </para>
490    <para>
491     Kang-Jin Lee
492     has recently modified the Harvest web indexer to use Zebra as
493     its native repository engine.  His comments on the switch over
494     from the old engine are revealing:
495     <blockquote>
496      <para>
497       The first results after some testing with Zebra are very
498       promising.  The tests were done with around 220,000 SOIF files,
499       which occupies 1.6GB of disk space.
500      </para>
501      <para>
502       Building the index from scratch takes around one hour with Zebra
503       where [old-engine] needs around five hours.  While [old-engine]
504       blocks search requests when updating its index, Zebra can still
505       answer search requests.
506       [...]
507       Zebra supports incremental indexing which will speed up indexing
508       even further.
509      </para>
510      <para>
511       While the search time of [old-engine] varies from some seconds
512       to some minutes depending how expensive the query is, Zebra
513       usually takes around one to three seconds, even for expensive
514       queries.
515       [...]
516       Zebra can search more than 100 times faster than [old-engine]
517       and can process multiple search requests simultaneously
518      </para>
519      <para>
520       I am very happy to see such nice software available under GPL.
521      </para>
522     </blockquote>
523    </para>
524   </sect2>
525  </sect1>
526
527
528  <sect1 id="support">
529   <title>Support</title>
530   <para>
531    You can get support for Zebra from at least three sources.
532   </para>
533   <para>
534    First, there's the Zebra web site at
535    <ulink url="http://indexdata.dk/zebra/"/>,
536    which always has the most recent version available for download.
537    If you have a problem with Zebra, the first thing to do is see
538    whether it's fixed in the current release.
539   </para>
540   <para>
541    Second, there's the Zebra mailing list.  Its home page at
542    <ulink url="http://lists.indexdata.dk/cgi-bin/mailman/listinfo/zebralist"/>
543    includes a complete archive of all messages that have ever been
544    posted on the list.  The Zebra mailing list is used both for
545    announcements from the authors (new
546    releases, bug fixes, etc.) and general discussion.  You are welcome
547    to seek support there.  Join by filling the form on the list home page.
548   </para>
549   <para>
550    Third, it's possible to buy a commercial support contract, with
551    well defined service levels and response times, from Index Data.
552    See
553    <ulink url="http://indexdata.dk/support/"/>
554    for details.
555   </para>
556  </sect1>  
557
558
559  <sect1 id="future">
560   <title>Future Directions</title>
561   
562   <para>
563    These are some of the plans that we have for the software in the near
564    and far future, ordered approximately as we expect to work on them.
565   </para>
566   
567   <para>
568    <itemizedlist>
569
570     <listitem>
571      <para>
572        Improved support for XML in search and retrieval. Eventually,
573        the goal is for Zebra to pull double duty as a flexible
574        information retrieval engine and high-performance XML
575        repository.  The recent addition of XPath searching is one
576        example of the kind of enhancement we're working on.
577      </para>
578      <para>
579        There is also the experimental <literal>ALVIS XSLT</literal>
580        XML input filter, which unleashes the full power of DOM based
581        XSLT transformations during indexing and record retrieval. Work
582        on this filter has been sponsored by the ALVIS EU project
583        <ulink url="http://www.alvis.info/alvis/"/>. We expect this filter to
584        mature soon, as it is planned to be included in the version 1.4
585        release of Zebra. 
586      </para>
587     </listitem>
588
589     <listitem>
590      <para>
591        Access to the search engine through SOAP/RPC API to allow the
592        construction of applications without requiring Z39.50 tools.
593        <!-- 
594       This will shortly be available by means of Index Data's
595         <ulink url="http://www.loc.gov/standards/sru/srw/">SRW</ulink>-to-Z39.50 gateway, currently in beta test.
596        -->
597        Experimental support of the 
598        Search/Retrieve Via URL ( <ulink url="&url.sru;">SRU</ulink>) 
599        <ulink url="&url.sru;"/>
600        REST webservice, and the 
601         Search/Retrieve Web Service ( <ulink url="http://www.loc.gov/standards/sru/srw/">SRW</ulink>)
602        <ulink url="http://www.loc.gov/standards/sru/srw/"/>
603        SOAP Web Service have recently been added to the YAZ/Zebra
604        combo - including server side Common Query Language (<ulink url="&url.cql;">CQL</ulink>)
605        <ulink url="&url.cql;"/> parsing
606        and configuration. It remains to find a sponsor for further testing,
607        documentation and packaging of this exiting component.
608      </para>
609     </listitem>
610
611     <listitem>
612      <para>
613        Finalisation and documentation of Zebra's C programming
614        API, allowing updates, database management and other functions
615        not readily expressed in Z39.50.  We will also consider
616        exposing the API through SOAP.
617      </para>
618     </listitem>
619
620     <listitem>
621      <para>
622        Support for the use of Perl both for access to the Zebra API
623        and for building extension ``plug-ins'' such as input filters.
624        The code for this has been contributed to the source tree by
625        Peter Popovics
626        <email>pop@technomat.hu</email>,
627        and is in the process of being integrated and tested.
628      </para>
629     </listitem>
630
631     <listitem>
632      <para>
633        Improved free-text searching. We're first and foremost octet jockeys and
634        we're actively looking for organisations or people who'd like
635        to contribute experience in relevance ranking and text
636        searching.
637      </para>
638     </listitem>
639
640    </itemizedlist>
641   </para>
642   
643   <para>
644    Programmers thrive on user feedback. If you are interested in a
645    facility that you don't see mentioned here, or if there's something
646    you think we could do better, please drop us a mail.  Better still,
647    implement it and send us the patches.
648   </para>
649   <para>
650    If you think it's all really neat, you're welcome to drop us a line
651    saying that, too. You can email us on
652    <email>info@indexdata.dk</email>
653    or check the contact info at the end of this manual.
654   </para>
655   
656  </sect1>
657 </chapter>
658  <!-- Keep this comment at the end of the file
659  Local variables:
660  mode: sgml
661  sgml-omittag:t
662  sgml-shorttag:t
663  sgml-minimize-attributes:nil
664  sgml-always-quote-attributes:t
665  sgml-indent-step:1
666  sgml-indent-data:t
667  sgml-parent-document: "zebra.xml"
668  sgml-local-catalogs: nil
669  sgml-namecase-general:t
670  End:
671  -->