Document ccldirective
[pazpar2-moved-to-github.git] / doc / pazpar2_conf.xml
1 <?xml version="1.0" standalone="no"?>
2 <!DOCTYPE refentry PUBLIC "-//OASIS//DTD DocBook V4.4//EN"
3  "http://www.oasis-open.org/docbook/xml/4.4/docbookx.dtd"
4 [
5      <!ENTITY % local SYSTEM "local.ent">
6      %local;
7      <!ENTITY % entities SYSTEM "entities.ent">
8      %entities;
9      <!ENTITY % idcommon SYSTEM "common/common.ent">
10      %idcommon;
11 ]>
12 <refentry id="pazpar2_conf">
13  <refentryinfo>
14   <productname>Pazpar2</productname>
15   <productnumber>&version;</productnumber>
16   <info><orgname>Index Data</orgname></info>
17  </refentryinfo>
18  
19  <refmeta>
20   <refentrytitle>Pazpar2 conf</refentrytitle>
21   <manvolnum>5</manvolnum>
22   <refmiscinfo class="manual">File formats and conventions</refmiscinfo>
23  </refmeta>
24  
25  <refnamediv>
26   <refname>pazpar2_conf</refname>
27   <refpurpose>Pazpar2 Configuration</refpurpose>
28  </refnamediv>
29  
30  <refsynopsisdiv>
31   <cmdsynopsis>
32    <command>pazpar2.conf</command>
33   </cmdsynopsis>
34  </refsynopsisdiv>
35  
36  <refsect1>
37   <title>DESCRIPTION</title>
38   <para>
39    The Pazpar2 configuration file, together with any referenced XSLT files,
40    govern Pazpar2's behavior as a client, and control the normalization and
41    extraction of data elements from incoming result records, for the
42    purposes of merging, sorting, facet analysis, and display.
43   </para>
44   
45   <para>
46    The file is specified using the option -f on the Pazpar2 command line.
47    There is not presently a way to reload the configuration file without
48    restarting Pazpar2, although this will most likely be added some time
49    in the future.
50   </para>
51  </refsect1>
52  
53  <refsect1>
54   <title>FORMAT</title>
55   <para>
56    The configuration file is XML-structured. It must be well-formed XML. All
57    elements specific to Pazpar2 should belong to the namespace
58    <literal>http://www.indexdata.com/pazpar2/1.0</literal> 
59    (this is assumed in the
60    following examples). The root element is named "<literal>pazpar2</literal>".
61    Under the  root element are a number of elements which group categories of
62    information. The categories are described below.
63   </para>
64   
65   <refsect2 id="config-threads">
66    <title>threads</title>
67    <para>
68     This section is optional and is supported for Pazpar2 version 1.3.1 and
69     later . It is identified by element "<literal>threads</literal>" which
70     may include one attribute "<literal>number</literal>" which specifies
71     the number of worker-threads that the Pazpar2 instance is to use.
72     A value of 0 (zero) disables worker-threads (all work is carried out
73     in main thread).
74    </para>
75   </refsect2>
76   <refsect2 id="config-server">
77    <title>server</title>
78    <para>
79     This section governs overall behavior of a server endpoint. It is identified
80     by the element "server" which takes an optional attribute, "id", which
81     identifies this particular Pazpar2 server. Any string value for "id"
82     may be given.
83    </para>
84    <para>
85     The data
86     elements are described below. From Pazpar2 version 1.2 this is
87     a repeatable element.
88    </para>
89    <variablelist> <!-- level 1 -->
90     <varlistentry>
91      <term>listen</term>
92      <listitem>
93       <para>
94        Configures the webservice -- this controls how you can connect
95        to Pazpar2 from your browser or server-side code. The
96        attributes 'host' and 'port' control the binding of the
97        server. The 'host' attribute can be used to bind the server to
98        a secondary IP address of your system, enabling you to run
99        Pazpar2 on port 80 alongside a conventional web server. You
100        can override this setting on the command line using the option -h.
101       </para>
102      </listitem>
103     </varlistentry>
104     
105     <varlistentry>
106      <term>proxy</term>
107      <listitem>
108       <para>
109        If this item is given, Pazpar2 will forward all incoming HTTP
110        requests that do not contain the filename 'search.pz2' to the
111        host and port specified using the 'host' and 'port'
112        attributes. The 'myurl' attribute is required, and should provide
113        the base URL of the server. Generally, the HTTP URL for the host
114        specified in the 'listen' parameter. This functionality is
115        crucial if you wish to use
116        Pazpar2 in conjunction with browser-based code (JS, Flash,
117        applets, etc.) which operates in a security sandbox. Such code
118        can only connect to the same server from which the enclosing
119        HTML page originated. Pazpar2s proxy functionality enables you
120        to host all of the main pages (plus images, CSS, etc) of your
121        application on a conventional webserver, while efficiently
122        processing webservice requests for metasearch status, results,
123        etc.
124       </para>
125      </listitem>
126     </varlistentry>
127
128     <varlistentry>
129      <term>icu_chain</term>
130      <listitem>
131       <para>
132        Specifies character set normalization for relevancy / sorting /
133        mergekey and facets - for the server. These definitions serves as
134        default for services that don't have these given. For the meaning
135        of these settings refer to the
136        <xref linkend="icuchain"/> element inside service.
137       </para>
138      </listitem>
139     </varlistentry>
140     
141     <varlistentry>
142      <term>relevance / sort / mergekey / facet</term>
143      <listitem>
144       <para>
145        Obsolete. Use element icu_chain instead.
146       </para>
147      </listitem>
148     </varlistentry>
149     
150     <varlistentry>
151      <term>settings</term>
152      <listitem>
153       <para>
154        Specifies target settings for the server.. These settings serves
155        as default for all services which don't have these given.
156        The settings element requires one attribute 'src' which specifies
157        a settings file or a directory . If a directory is given all
158        files with suffix <filename>.xml</filename> is read from this
159        directory. Refer to 
160        <xref linkend="target_settings"/> for more information.
161       </para>
162      </listitem>
163     </varlistentry>
164     
165     <varlistentry>
166      <term>service</term>
167      <listitem>
168       <para>
169        This nested element controls the behavior of Pazpar2 with
170        respect to your data model. In Pazpar2, incoming records are
171        normalized, using XSLT, into an internal representation.
172        The 'service' section controls the further processing and
173        extraction of data from the internal representation, primarily
174        through the 'metadata' sub-element.
175       </para>
176       <para>
177        Pazpar2 version 1.2 and later allows multiple service elements.
178        Multiple services must be given a unique ID by specifying
179        attribute <literal>id</literal>.
180        A single service may be unnamed (service ID omitted). The
181        service ID is referred to in the
182        <link linkend="command-init"><literal>init</literal></link> webservice
183        command's <literal>service</literal> parameter.
184       </para>
185
186       <variablelist> <!-- Level 2 -->
187        <varlistentry>
188         <term>metadata</term>
189         <listitem>
190          <para>
191           One of these elements is required for every data element in
192           the internal representation of the record (see
193           <xref linkend="data_model"/>. It governs
194           subsequent processing as pertains to sorting, relevance
195           ranking, merging, and display of data elements. It supports
196           the following attributes:
197          </para>
198          
199          <variablelist> <!-- level 3 -->
200           <varlistentry>
201            <term>name</term>
202            <listitem>
203             <para>
204              This is the name of the data element. It is matched
205              against the 'type' attribute of the
206              'metadata' element 
207              in the normalized record. A warning is produced if
208              metadata elements with an unknown name are
209              found in the 
210              normalized record. This name is also used to
211              represent 
212              data elements in the records returned by the
213              webservice API, and to name sort lists and browse
214              facets.
215             </para>
216            </listitem>
217           </varlistentry>
218           
219           <varlistentry>
220            <term>type</term>
221            <listitem>
222             <para>
223              The type of data element. This value governs any
224              normalization or special processing that might take
225              place on an element. Possible values are 'generic'
226              (basic string), 'year' (a range is computed if
227              multiple years are found in the record). Note: This
228              list is likely to increase in the future.
229             </para>
230            </listitem>
231           </varlistentry>
232           
233           <varlistentry>
234            <term>brief</term>
235            <listitem>
236             <para>
237              If this is set to 'yes', then the data element is
238              includes in brief records in the webservice API. Note
239              that this only makes sense for metadata elements that
240              are merged (see below). The default value is 'no'.
241             </para>
242            </listitem>
243           </varlistentry>
244           
245           <varlistentry>
246            <term>sortkey</term>
247            <listitem>
248             <para>
249              Specifies that this data element is to be used for
250              sorting. The possible values are 'numeric' (numeric
251              value), 'skiparticle' (string; skip common, leading
252              articles), and 'no' (no sorting). The default value is
253              'no'.
254             </para>
255            </listitem>
256           </varlistentry>
257           
258           <varlistentry>
259            <term>rank</term>
260            <listitem>
261             <para>
262              Specifies that this element is to be used to
263              help rank 
264              records against the user's query (when ranking is
265              requested). 
266              The valus is of the form 
267              <literallayout>
268               M [F N]
269              </literallayout>
270              where M is an integer, used as a
271              multiplier against the basic TF*IDF score. A value of
272              1 is the base, higher values give additional weight to
273              elements of this type. The default is '0', which
274              excludes this element from the rank calculation.
275             </para>
276             <para>
277              F is a CCL field and N is the multipler for terms
278              that matches those part of the CCL field in search.
279              The F+N combo allows the system to use a different
280              multipler for a certain field. For example, a rank value of
281              "<literal>1 au 3</literal>" gives a multipler of 3 for
282              all terms part of the au(thor) terms and 1 for everything else.
283             </para>
284             <para>
285              For Pazpar2 1.6.13 and later, the rank may also defined
286              "per-document", by the normalization stylesheet. 
287             </para>
288             <para>
289              The per field rank was introduced in Pazpar2 1.6.15. Earlier
290              releases only allowed a rank value M (simple integer).
291             </para>
292            </listitem>
293           </varlistentry>
294           
295           <varlistentry>
296            <term>termlist</term>
297            <listitem>
298             <para>
299              Specifies that this element is to be used as a
300              termlist, or browse facet. Values are tabulated from
301              incoming records, and a highscore of values (with
302              their associated frequency) is made available to the
303              client through the webservice API. 
304              The possible values
305              are 'yes' and 'no' (default).
306             </para>
307            </listitem>
308           </varlistentry>
309           
310           <varlistentry>
311            <term>merge</term>
312            <listitem>
313             <para>
314              This governs whether, and how elements are extracted
315              from individual records and merged into cluster
316              records. The possible values are: 'unique' (include
317              all unique elements), 'longest' (include only the
318              longest element (strlen), 'range' (calculate a range
319              of values across all matching records), 'all' (include
320              all elements), or 'no' (don't merge; this is the
321              default);
322             </para>
323            </listitem>
324           </varlistentry>
325           
326           <varlistentry>
327            <term>mergekey</term>
328            <listitem>
329             <para>
330              If set to '<literal>required</literal>', the value of this
331              metadata element is appended to the resulting mergekey if
332              the metadata is present in a record instance.
333              If the metadata element is not present, the a unique mergekey
334              will be generated instead.
335             </para>
336             <para>
337              If set to '<literal>optional</literal>', the value of this
338              metadata element is appended to the resulting mergekey if the
339              the metadata is present in a record instance. If the metadata
340              is not present, it will be empty.
341             </para>
342             <para>
343              If set to '<literal>no</literal>' or the mergekey attribute is
344              omitted, the metadata will not be used in the creation of a
345              mergekey.
346             </para>
347            </listitem>
348           </varlistentry>
349
350           <varlistentry>
351            <term id="facetrule">facetrule</term>
352            <listitem>
353             <para>
354              Specifies the ICU rule set to be used for normalizing
355              facets. If facetrule is omitted from metadata, the
356              rule set 'facet' is used.
357             </para>
358            </listitem>
359           </varlistentry>
360           
361           <varlistentry>
362            <term id="metadata_limitmap">limitmap</term>
363            <listitem>
364             <para>
365              Specifies a default limitmap for this field. This is to avoid mass 
366              configuring of targets. However it is important to review/do this on a per
367              target since it is usually target-specific. See limitmap for format. 
368             </para>
369            </listitem>
370           </varlistentry>
371           
372           <varlistentry>
373            <term id="metadata_facetmap">facetmap</term>
374            <listitem>
375             <para>
376              Specifies a default facetmap for this field. This is to avoid mass 
377              configuring of targets. However it is important to review/do this on a per
378              target since it is usually target-specific. See facetmap for format. 
379             </para>
380            </listitem>
381           </varlistentry>
382           
383           <varlistentry>
384            <term>setting</term>
385            <listitem>
386             <para>
387              This attribute allows you to make use of static database
388              settings in the processing of records. Three possible values
389              are allowed. 'no' is the default and doesn't do anything.
390              'postproc' copies the value of a setting with the same name
391              into the output of the normalization stylesheet(s). 'parameter'
392              makes the value of a setting with the same name available 
393              as a parameter to the normalization stylesheet, so you
394              can further process the value inside of the stylesheet, or use
395              the value to decide how to deal with other data values.
396             </para>
397             <para>
398              The purpose of using settings in this way can either be to
399              control the behavior of normalization stylesheet in a database-
400              dependent way, or to easily make database-dependent values
401              available to display-logic in your user interface, without having
402              to implement complicated interactions between the user interface
403              and your configuration system.
404             </para>
405            </listitem>
406           </varlistentry>
407           
408          </variablelist> <!-- attributes to metadata -->
409          
410         </listitem>
411        </varlistentry>
412
413        <varlistentry>
414         <term id="servicexslt" xreflabel="xslt">xslt</term>
415         <listitem>
416          <para>
417           Defines a XSLT stylesheet. The <literal>xslt</literal>
418           element takes exactly one attribute <literal>id</literal>
419           which names the stylesheet. This can be referred to in target
420           settings <xref linkend="pzxslt"/>.
421          </para>
422          <para>
423           The content of the xslt element is the embedded stylesheet XML
424          </para>
425         </listitem>
426        </varlistentry>
427        <varlistentry>
428         <term id="icuchain" xreflabel="icu_chain">icu_chain</term>
429         <listitem>
430          <para>
431           Specifies a named ICU rule set. The icu_chain element must include
432           attribute 'id' which specifies the identifier (name) for the ICU
433           rule set.
434           Pazpar2 uses the particular rule sets for particular purposes.
435           Rule set 'relevance' is used to normalize
436           terms for relevance ranking. Rule set 'sort' is used to 
437           normalize terms for sorting. Rule set 'mergekey' is used to
438           normalize terms for making a mergekey and, finally. Rule set 'facet'
439           is normally used to normalize facet terms, unless
440           <xref linkend="facetrule">facetrule</xref> is given for a
441           metadata field.
442          </para>
443          <para>
444           The icu_chain element must also include a 'locale'
445           attribute which must be set to one of the locale strings
446           defined in ICU. The child elements listed below can be
447           in any order, except the 'index' element which logically
448           belongs to the end of the list. The stated tokenization,
449           transformation and charmapping instructions are performed
450           in order from top to bottom. 
451          </para>
452          <variablelist> <!-- Level 2 -->
453           <varlistentry>
454            <term>casemap</term>
455            <listitem>
456             <para>
457              The attribute 'rule' defines the direction of the
458              per-character casemapping, allowed values are "l"
459              (lower), "u" (upper), "t" (title).  
460             </para>
461            </listitem>
462           </varlistentry>
463           <varlistentry>
464            <term>transform</term>
465            <listitem>
466             <para>
467              Normalization and transformation of tokens follows
468              the rules defined in the 'rule' attribute. For
469              possible values we refer to the extensive ICU
470              documentation found at the 
471              <ulink url="&url.icu.transform;">ICU
472              transformation</ulink> home page. Set filtering
473              principles are explained at the 
474              <ulink url="&url.icu.unicode.set;">ICU set and
475              filtering</ulink> page.
476             </para>
477            </listitem>
478           </varlistentry>
479           <varlistentry>
480            <term>tokenize</term>
481            <listitem>
482             <para>
483              Tokenization is the only rule in the ICU chain
484              which splits one token into multiple tokens. The
485              'rule' attribute may have the following values:
486              "s" (sentence), "l" (line-break), "w" (word), and
487              "c" (character), the later probably not being
488              very useful in a pruning Pazpar2 installation. 
489             </para>
490            </listitem>
491           </varlistentry>
492          </variablelist>
493          <para>
494           From Pazpar2 version 1.1 the ICU wrapper from YAZ is used.
495           Refer to the <ulink url="&url.yaz.yaz-icu;">yaz-icu</ulink>
496           utility for more information.
497          </para>
498         </listitem>
499        </varlistentry>
500        
501        <varlistentry>
502         <term>relevance</term>
503         <listitem>
504          <para>
505           Specifies the ICU rule set used for relevance ranking.
506           The child element of 'relevance' must be 'icu_chain' and the
507           'id' attribute of the icu_chain is ignored. This
508           definition is obsolete and should be replaced by the equivalent
509           construct:
510           <screen>
511            &lt;icu_chain id="relevance" locale="en">..&lt;icu_chain>
512           </screen>
513          </para>
514         </listitem>
515        </varlistentry>
516        
517        <varlistentry>
518         <term>sort</term>
519         <listitem>
520          <para>
521           Specifies the ICU rule set used for sorting.
522           The child element of 'sort' must be 'icu_chain' and the
523           'id' attribute of the icu_chain is ignored. This
524           definition is obsolete and should be replaced by the equivalent
525           construct:
526           <screen>
527            &lt;icu_chain id="sort" locale="en">..&lt;icu_chain>
528           </screen>
529          </para>
530         </listitem>
531        </varlistentry>
532        
533        <varlistentry>
534         <term>mergekey</term>
535         <listitem>
536          <para>
537           Specifies ICU tokenization and transformation rules
538           for tokens that are used in Pazpar2's mergekey. 
539           The child element of 'mergekey' must be 'icu_chain' and the
540           'id' attribute of the icu_chain is ignored. This
541           definition is obsolete and should be replaced by the equivalent
542           construct:
543           <screen>
544            &lt;icu_chain id="mergekey" locale="en">..&lt;icu_chain>
545           </screen>
546          </para>
547         </listitem>
548        </varlistentry>
549
550        <varlistentry>
551         <term>facet</term>
552         <listitem>
553          <para>
554           Specifies ICU tokenization and transformation rules
555           for tokens that are used in Pazpar2's facets.
556           The child element of 'facet' must be 'icu_chain' and the
557           'id' attribute of the icu_chain is ignored. This
558           definition is obsolete and should be replaced by the equivalent
559           construct:
560           <screen>
561            &lt;icu_chain id="facet" locale="en">..&lt;icu_chain>
562           </screen>
563          </para>
564         </listitem>
565        </varlistentry>
566
567        <varlistentry>
568         <term>ccldirective</term>
569         <listitem>
570          <para>
571           Customizes the CCL parsing (interpretation of query parameter
572           in search).
573           The name and value of the CCL directive is gigen by attributes
574           'name' and 'value' respectively. Refer to possible list of names
575           in the
576           <ulink 
577               url="http://www.indexdata.com/yaz/doc/tools.html#ccl.directives.table">
578            YAZ manual
579            </ulink>.
580          </para>
581         </listitem>
582        </varlistentry>
583
584 <!--       
585        <varlistentry>
586         <term>set</term>
587         <listitem>
588          <para>
589           Specifies a variable that will be inherited by all targets defined in settings
590           <screen>
591            &lt;set name="test" value="en"..&lt;set>
592           </screen>
593          </para>
594         </listitem>
595        </varlistentry>
596 -->   
597        <varlistentry>
598         <term>settings</term>
599         <listitem>
600          <para>
601           Specifies target settings for this service. Refer to
602           <xref linkend="target_settings"/>.
603          </para>
604         </listitem>
605        </varlistentry>
606
607        <varlistentry>
608         <term>timeout</term>
609         <listitem>
610          <para>
611           Specifies timeout parameters for this service.
612           The <literal>timeout</literal>
613           element supports the following attributes: 
614           <literal>session</literal>, <literal>z3950_operation</literal>,
615           <literal>z3950_session</literal> which specifies
616           'session timeout', 'Z39.50 operation timeout',
617           'Z39.50 session timeout' respectively. The Z39.50 operation
618           timeout is the time Pazpar2 will wait for an active Z39.50/SRU
619           operation before it gives up (times out). The Z39.50 session
620           time out is the time Pazpar2 will keep the session alive for
621           an idle session (no operation).
622          </para>
623          <para>
624           The following is recommended but not required:
625           z3950_operation (30) &lt; session (60) &lt; z3950_session (180) .
626           The default values are given in parantheses.
627          </para>
628         </listitem>
629        </varlistentry>
630       </variablelist>     <!-- Data elements in service directive -->
631      </listitem>
632     </varlistentry>
633    </variablelist>           <!-- Data elements in server directive -->
634   </refsect2>
635  </refsect1>
636
637  <refsect1>
638   <title>EXAMPLE</title>
639   <para>
640    Below is a working example configuration:
641   </para>
642   <screen>
643    <![CDATA[
644 <?xml version="1.0" encoding="UTF-8"?>
645 <pazpar2 xmlns="http://www.indexdata.com/pazpar2/1.0">
646
647  <threads number="10"/>
648  <server>
649   <listen port="9004"/>
650   <service>
651    <metadata name="title" brief="yes" sortkey="skiparticle"
652              merge="longest" rank="6"/>
653    <metadata name="isbn" merge="unique"/>
654    <metadata name="date" brief="yes" sortkey="numeric"
655              type="year" merge="range" termlist="yes"/>
656    <metadata name="author" brief="yes" termlist="yes"
657              merge="longest" rank="2"/>
658    <metadata name="subject" merge="unique" termlist="yes" rank="3" limitmap="local:"/>
659    <metadata name="url" merge="unique"/>
660    <icu_chain id="relevance" locale="el">
661     <transform rule="[:Control:] Any-Remove"/>
662     <tokenize rule="l"/>
663     <transform rule="[[:WhiteSpace:][:Punctuation:]] Remove"/>
664     <casemap rule="l"/>
665    </icu_chain>
666    <settings src="mysettings"/>
667    <timeout session="60"/>
668   <service>
669  </server>
670 </pazpar2>
671    ]]>
672   </screen>
673  </refsect1> 
674
675  <refsect1 id="config-include">
676   <title>INCLUDE FACILITY</title>
677   <para>
678    The XML configuration may be partitioned into multiple files by using
679    the <literal>include</literal> element which takes a single attribute,
680    <literal>src</literal>. The of the <literal>src</literal> attribute is
681    regular Shell like glob-pattern. For example,
682    <screen><![CDATA[
683    <include src="/etc/pazpar2/conf.d/*.xml"/>
684    ]]></screen>
685   </para>
686   <para>
687    The include facility requires Pazpar2 version 1.2.
688   </para>
689  </refsect1>
690
691  <refsect1 id="target_settings">
692   <title>TARGET SETTINGS</title>
693   <para>
694    Pazpar2 features a cunning scheme by which you can associate various
695    kinds of attributes, or settings with search targets. This can be done
696    through XML files which are read at startup; each file can associate
697    one or more settings with one or more targets. The file format is generic
698    in nature, designed to support a wide range of application requirements. The
699    settings can be purely technical things, like, how to perform a title
700    search against a given target, or it can associate arbitrary name=value
701    pairs with groups of targets -- for instance, if you would like to
702    place all commercial full-text bases in one group for selection
703    purposes, or you would like to control what targets are accessible
704    to users by default. Per-database settings values can even be used
705    to drive sorting, facet/termlist generation, or end-user interface display
706    logic.
707   </para>
708   
709   <para>
710    During startup, Pazpar2 will recursively read a specified directory
711    (can be identified in the pazpar2.cfg file or on the command line), and
712    process any settings files found therein.
713   </para>
714   
715   <para>
716    Clients of the Pazpar2 webservice interface can selectively override
717    settings for individual targets within the scope of one session. This
718    can be used in conjunction with an external authentication system to
719    determine which resources are to be accessible to which users. Pazpar2
720    itself has no notion of end-users, and so can be used in conjunction
721    with any type of authentication system. Similarly, the authentication
722    tokens submitted to access-controlled search targets can similarly be
723    overridden, to allow use of Pazpar2 in a consortial or multi-library
724    environment, where different end-users may need to be represented to
725    some search targets in different ways. This, again, can be managed
726    using an external database or other lookup mechanism. Setting overrides
727    can be performed either using the
728    <link linkend="command-init">init</link> or the 
729    <link linkend="command-settings">settings</link> webservice
730    command.
731   </para>
732   
733   <para>
734    In fact, every setting that applies to a database (except pz:id, which
735    can only be used for filtering targets to use for a search) can be overridden
736    on a per-session basis. This allows the client to override specific CCL fields
737    for searching, etc., to meet the needs of a session or user.
738   </para>
739
740   <para>
741    Finally, as an extreme case of this, the webservice client can
742    introduce entirely new targets, on the fly, as part of the
743    <link linkend="command-init">init</link> or
744    <link linkend="command-settings">settings</link> command.
745    This is useful if you desire to manage information
746    about your search targets in a separate application such as a database.
747    You do not need any static settings file whatsoever to run Pazpar2 -- as
748    long as the webservice client is prepared to supply the necessary
749    information at the beginning of every session.
750   </para>
751
752   <note>
753    <para>
754     The following discussion of practical issues related to session
755     and settings management are cast in terms of a user interface based on
756     Ajax/Javascript technology. It would apply equally well to many other
757     kinds of browser-based logic.
758    </para>
759   </note>
760
761   <para>
762    Typically, a Javascript client is not allowed to directly alter the
763    parameters of a session. There are two reasons for this. One has to do
764    with access to information; typically, information about a user will
765    be stored in a system on the server side, or it will be accessible in
766    some way from the server.  However, since the Javascript client cannot
767    be entirely trusted (some hostile agent might in fact 'pretend' to be
768    a regular ws client), it is more robust to control session settings
769    from scripting that you run as part of your webserver. Typically, this
770    can be handled during the session initialization, as follows:
771   </para>
772
773   <para>
774    Step 1: The Javascript client loads, and asks the webserver for a
775    new Pazpar2 session ID. This can be done using a Javascript call, for
776    instance. Note that it is possible to submit Ajax HTTPXmlRequest calls
777    either to Pazpar2 or to the webserver that Pazpar2 is proxying
778    for. See (XXX Insert link to Pazpar2 protocol).
779   </para>
780
781   <para>
782    Step 2: Code on the webserver authenticates the user, by database lookup,
783    LDAP access, NCIP, etc. Determines which resources the user has access to,
784    and any user-specific parameters that are to be applied during this session.
785   </para>
786
787   <para>
788    Step 3: The webserver initializes a new Pazpar2 settings, and sets
789    user-specific parameters as necessary, using the init webservice
790    command. A new session ID is returned.
791   </para>
792
793   <para>
794    Step 4: The webserver returns this session ID to the Javascript
795    client, which then uses the session ID to submit searches, show
796    results, etc.
797   </para>
798
799   <para>
800    Step 5: When the Javascript client ceases to use the session,
801    Pazpar2 destroys any session-specific information.
802   </para>
803
804   <refsect2>
805    <title>SETTINGS FILE FORMAT</title>
806    <para>
807     Each file contains a root element named &lt;settings&gt;. It may
808     contain one or more &lt;set&gt; elements. The settings and set
809     elements may contain the following attributes. Attributes in the set
810     node overrides those in the setting root element. Each set node must
811     specify (directly, or inherited from the parent node) at least a
812     target, name, and value.
813    </para>
814
815    <variablelist> 
816     <varlistentry>
817      <term>target</term>
818      <listitem>
819       <para>
820        This specifies the search target to which this setting should be
821        applied. Targets are identified by their Z39.50 URL, generally
822        including the host, port, and database name, (e.g.
823        <literal>bagel.indexdata.com:210/marc</literal>).
824        Two wildcard forms are accepted:
825        * (asterisk) matches all known targets;
826        <literal>bagel.indexdata.com:210/*</literal> matches all
827        known databases on the given host.
828       </para>
829       <para>
830        A precedence system determines what happens if there are
831        overlapping values for the same setting name for the same
832        target. A setting for a specific target name overrides a
833        setting which specifies target using a wildcard. This makes it
834        easy to set defaults for all targets, and then override them
835        for specific targets or hosts. If there are
836        multiple overlapping settings with the same name and target
837        value, the 'precedence' attribute determines what happens.
838       </para>
839       <para>
840        For Pazpar2 1.6.4 or later, the target ID may be user-defined, in
841        which case, the actual host, port, etc is given by setting
842        <xref linkend="pzurl"/>.
843       </para>
844      </listitem>
845     </varlistentry>
846     <varlistentry>
847      <term>name</term>
848      <listitem>
849       <para>
850        The name of the setting. This can be anything you like.
851        However, Pazpar2 reserves a number of setting names for
852        specific purposes, all starting with 'pz:', and it is a good
853        idea to avoid that prefix if you make up your own setting
854        names. See below for a list of reserved variables.
855       </para>
856      </listitem>
857     </varlistentry>
858     <varlistentry>
859      <term>value</term>
860      <listitem>
861       <para>
862        The value of the setting. Generally, this can be anything you
863        want -- however, some of the reserved settings may expect
864        specific kinds of values.
865       </para>
866      </listitem>
867     </varlistentry>
868     <varlistentry>
869      <term>precedence</term>
870      <listitem>
871       <para>
872        This should be an integer. If not provided, the default value
873        is 0. If two (or more) settings have the same content for
874        target and name, the precedence value determines the outcome.
875        If both settings have the same precedence value, they are both
876        applied to the target(s). If one has a higher value, then the
877        value of that setting is applied, and the other one is ignored.
878       </para>
879      </listitem>
880     </varlistentry>
881    </variablelist>
882
883    <para>
884     By setting defaults for target, name, or value in the root
885     settings node, you can use the settings files in many different
886     ways. For instance, you can use a single file to set defaults for
887     many different settings, like search fields, retrieval syntaxes,
888     etc. You can have one file per server, which groups settings for
889     that server or target. You could also have one file which associates
890     a number of targets with a given setting, for instance, to associate
891     many databases with a given category or class that makes sense
892     within your application.
893    </para>
894
895    <para>
896     The following examples illustrate uses of the settings system to
897     associate settings with targets to meet different requirements.
898    </para>
899
900    <para>
901     The example below associates a set of default values that can be
902     used across many targets. Note the wildcard for targets.
903     This associates the given settings with all targets for which no
904     other information is provided.
905     <screen><![CDATA[
906     <settings target="*">
907
908     <!-- This file introduces default settings for pazpar2 -->
909
910     <!-- mapping for unqualified search -->
911     <set name="pz:cclmap:term" value="u=1016 t=l,r s=al"/>
912
913     <!-- field-specific mappings -->
914     <set name="pz:cclmap:ti" value="u=4 s=al"/>
915     <set name="pz:cclmap:su" value="u=21 s=al"/>
916     <set name="pz:cclmap:isbn" value="u=7"/>
917     <set name="pz:cclmap:issn" value="u=8"/>
918     <set name="pz:cclmap:date" value="u=30 r=r"/>
919     
920     <set name="pz:limitmap:title" value="rpn:@attr 1=4 @attr 6=3"/>
921     <set name="pz:limitmap:date" value="ccl:date"/>
922
923     <!-- Retrieval settings -->
924
925     <set name="pz:requestsyntax" value="marc21"/>
926     <set name="pz:elements" value="F"/>
927
928     <!-- Query encoding -->
929     <set name="pz:queryencoding" value="iso-8859-1"/>
930
931     <!-- Result normalization settings -->
932
933     <set name="pz:nativesyntax" value="iso2709"/>
934     <set name="pz:xslt" value="../etc/marc21.xsl"/>
935
936     </settings>
937
938     ]]></screen>
939    </para>
940
941    <para>
942     The next example shows certain settings overridden for one target,
943     one which returns XML records containing DublinCore elements, and
944     which furthermore requires a username/password.
945     <screen><![CDATA[
946     <settings target="funkytarget.com:210/db1">
947     <set name="pz:requestsyntax" value="xml"/>
948     <set name="pz:nativesyntax" value="xml"/>
949     <set name="pz:xslt" value="../etc/dublincore.xsl"/>
950
951     <set name="pz:authentication" value="myuser/password"/>
952     </settings>
953     ]]></screen>
954    </para>
955
956    <para>
957     The following example associates a specific name/value combination
958     with a number of targets. The targets below are access-restricted,
959     and can only be used by users with special credentials.
960     <screen><![CDATA[
961     <settings name="pz:allow" value="0">
962     <set target="funkytarget.com:210/*"/>
963     <set target="commercial.com:2100/expensiveDb"/>
964     </settings>
965     ]]></screen>
966    </para>
967
968   </refsect2>
969
970   <refsect2>
971    <title>RESERVED SETTING NAMES</title>
972    <para>
973     The following setting names are reserved by Pazpar2 to control the
974     behavior of the client function.
975    </para>
976    
977    <variablelist>
978     <varlistentry>
979      <term>pz:cclmap:xxx</term>
980      <listitem>
981       <para>
982        This establishes a CCL field definition or other setting, for
983        the purpose of mapping end-user queries. XXX is the field or
984        setting name, and the value of the setting provides parameters
985        (e.g. parameters to send to the server, etc.). Please consult
986        the YAZ manual for a full overview of the many capabilities of
987        the powerful and flexible CCL parser.
988       </para>
989       <para>
990        Note that it is easy to establish a set of default parameters,
991        and then override them individually for a given target.
992       </para>
993      </listitem>
994     </varlistentry>
995     <varlistentry id="requestsyntax">
996      <term>pz:requestsyntax</term>
997      <listitem>
998       <para>
999        This specifies the record syntax to use when requesting
1000        records from a given server. The value can be a symbolic name like
1001        marc21 or xml, or it can be a Z39.50-style dot-separated OID.
1002       </para>
1003      </listitem>
1004     </varlistentry>
1005     <varlistentry>
1006      <term>pz:elements</term>
1007      <listitem>
1008       <para>
1009        The element set name to be used when retrieving records from a
1010        server.
1011       </para>
1012      </listitem>
1013     </varlistentry>
1014     <varlistentry>
1015      <term>pz:piggyback</term>
1016      <listitem>
1017       <para>
1018        Piggybacking enables the server to retrieve records from the
1019        server as part of the search response in Z39.50. Almost all
1020        servers support this (or fail it gracefully), but a few
1021        servers will produce undesirable results.
1022        Set to '1' to enable piggybacking, '0' to disable it. Default
1023        is 1 (piggybacking enabled).
1024       </para>
1025      </listitem>
1026     </varlistentry>
1027     <varlistentry>
1028      <term>pz:nativesyntax</term>
1029      <listitem>
1030       <para>
1031        Specifies how Pazpar2 shoule map retrieved records to XML. Currently
1032        supported values are <literal>xml</literal>,
1033        <literal>iso2709</literal> and <literal>txml</literal>.
1034       </para>
1035       <para>
1036        The value <literal>iso2709</literal> makes Pazpar2 convert retrieved
1037        MARC records to MARCXML. In order to convert to XML, the exact
1038        chacater set of the MARC must be known (if not, the resulting
1039        XML is probably not well-formed). The character set may be 
1040        specified by adding:
1041        <literal>;charset=</literal><replaceable>charset</replaceable> to
1042        <literal>iso2709</literal>. If omitted, a charset of
1043        MARC-8 is assumed. This is correct for most MARC21/USMARC records.
1044       </para>
1045       <para>
1046        The value <literal>txml</literal> is like <literal>iso2709</literal>
1047        except that records are converted to TurboMARC instead of MARCXML.
1048       </para>
1049       <para>
1050        The value <literal>xml</literal> is used if Pazpar2 retrieves
1051        records that are already XML (no conversion takes place).
1052       </para>
1053      </listitem>
1054     </varlistentry>
1055
1056     <varlistentry>
1057      <term>pz:queryencoding</term>
1058      <listitem>
1059       <para>
1060        The encoding of the search terms that a target accepts. Most
1061        targets do not honor UTF-8 in which case this needs to be specified.
1062        Each term in a query will be converted if this setting is given.
1063       </para>
1064      </listitem>
1065     </varlistentry>
1066
1067     <varlistentry>
1068      <term>pz:negotiation_charset</term>
1069      <listitem>
1070       <para>
1071        Sets character set for Z39.50 negotiation. Most targets do not support
1072        this, and some will even close connection if set (crash on server
1073        side or similar). If set, you probably want to set it to
1074        <literal>UTF-8</literal>.
1075       </para>
1076      </listitem>
1077     </varlistentry>
1078
1079     <varlistentry>
1080      <term id="pzxslt" xreflabel="pz:xslt">pz:xslt</term>
1081      <listitem>
1082       <para>
1083        Is a comma separated list of of stylesheet names that specifies
1084        how to convert incoming records to the internal representation.
1085       </para>
1086       <para>
1087        For each name, the embedded stylesheets (XSL) that comes with the
1088        service definition are consulted first and takes precedence over
1089        external files; see <xref linkend="servicexslt"/>
1090        of service definition).
1091        If the name does not match an embedded stylesheet it is
1092        considered a filename.
1093       </para>
1094       <para>
1095        The suffix of each file specifies the kind of tranformation.
1096        Suffix "<literal>.xsl</literal>" makes an XSL transform. Suffix
1097        "<literal>.mmap</literal>" will use the MMAP transform (described below).
1098       </para>
1099       <para>
1100        The special value "<literal>auto</literal>" will use a file
1101        which is the <link linkend="requestsyntax">pz:requestsyntax's</link>
1102        value followed by
1103        <literal>'.xsl'</literal>.
1104       </para>
1105       <para>
1106        When mapping MARC records, XSLT can be bypassed for increased 
1107        performance with the alternate "MARC map" format.  Provide the
1108        path of a file with extension ".mmap" containing on each line:
1109        <programlisting>
1110        &lt;field&gt; &lt;subfield&gt; &lt;metadata element&gt;</programlisting>
1111        For example:
1112        <programlisting>
1113         245 a title
1114         500 $ description
1115         773 * citation
1116        </programlisting>
1117        To map the field value specify a subfield of '$'.  To store a 
1118        concatenation of all subfields, specify a subfield of '*'.
1119       </para>
1120      </listitem>
1121     </varlistentry>
1122     <varlistentry>
1123      <term>pz:authentication</term>
1124      <listitem>
1125       <para>
1126        Sets an authentication string for a given server. See the section on
1127        authorization and authentication for discussion.
1128       </para>
1129      </listitem>
1130     </varlistentry>
1131     <varlistentry>
1132      <term>pz:allow</term>
1133      <listitem>
1134       <para>
1135        Allows or denies access to the resources it is applied to. Possible
1136        values are '0' and '1'.
1137        The default is '1' (allow access to this resource).
1138        See the manual section on authorization and authentication for
1139        discussion about how to use this setting.
1140       </para>
1141      </listitem>
1142     </varlistentry>
1143     <varlistentry>
1144      <term>pz:maxrecs</term>
1145      <listitem>
1146       <para>
1147        Controls the maximum number of records to be retrieved from a
1148        server. The default is 100.
1149       </para>
1150      </listitem>
1151     </varlistentry>
1152     <varlistentry>
1153      <term>pz:presentchunk</term>
1154      <listitem>
1155       <para>
1156        Controls the chunk size in present requests. Pazpar2 will 
1157        make (maxrecs / chunk) request(s). The default is 20.
1158       </para>
1159      </listitem>
1160     </varlistentry>
1161     <varlistentry>
1162      <term>pz:id</term>
1163      <listitem>
1164       <para>
1165        This setting can't be 'set' -- it contains the ID (normally
1166        ZURL) for a given target, and is useful for filtering --
1167        specifically when you want to select one or more specific
1168        targets in the search command.
1169       </para>
1170      </listitem>
1171     </varlistentry>
1172     <varlistentry>
1173      <term>pz:zproxy</term>
1174      <listitem>
1175       <para>
1176        The 'pz:zproxy' setting has the value syntax 
1177        'host.internet.adress:port', it is used to tunnel Z39.50
1178        requests through the named Z39.50 proxy.
1179       </para>
1180      </listitem>
1181     </varlistentry>
1182     
1183     <varlistentry>
1184      <term>pz:apdulog</term>
1185      <listitem>
1186       <para>
1187        If the 'pz:apdulog' setting is defined and has other value than 0,
1188        then Z39.50 APDUs are written to the log.
1189       </para>
1190      </listitem>
1191     </varlistentry>
1192     
1193     <varlistentry>
1194      <term>pz:sru</term>
1195      <listitem>
1196       <para>
1197        This setting enables
1198        <ulink url="&url.sru;">SRU</ulink>/<ulink url="&url.solr;">Solr</ulink>
1199        support.
1200        It has four possible settings.
1201        'get', enables SRU access through GET requests. 'post' enables SRU/POST
1202        support, less commonly supported, but useful if very large requests are
1203        to be submitted. 'srw' enables the SRW (SRU over SOAP) variation of
1204        the protocol.
1205       </para>
1206       <para>
1207        A value of 'solr' enables Solr client support. This is supported
1208        for Pazpar version 1.5.0 and later.
1209       </para>
1210      </listitem>
1211     </varlistentry>
1212     
1213     <varlistentry>
1214      <term>pz:sru_version</term>
1215      <listitem>
1216       <para>
1217        This allows SRU version to be specified. If unset Pazpar2
1218        will the default of YAZ (currently 1.2). Should be set
1219        to 1.1 or 1.2. For Solr, the current supported/tested version is 1.4 and 3.x.
1220       </para>
1221      </listitem>
1222     </varlistentry>
1223     
1224     <varlistentry>
1225      <term>pz:pqf_prefix</term>
1226      <listitem>
1227       <para>
1228        Allows you to specify an arbitrary PQF query language substring.
1229        The provided string is prefixed to the user's query after it has been
1230        normalized to PQF internally in pazpar2.
1231        This allows you to attach complex 'filters' to queries for a given
1232        target, sometimes necessary to select sub-catalogs
1233        in union catalog systems, etc.
1234       </para>
1235      </listitem>
1236     </varlistentry>
1237     
1238     <varlistentry>
1239      <term>pz:pqf_strftime</term>
1240      <listitem>
1241       <para>
1242        Allows you to extend a query with dates and operators.
1243        The provided string allows certain substitutions and serves as a
1244        format string.
1245        The special two character sequence '%%' gets converted to the
1246        original query. Other characters leading with the percent sign are
1247        conversions supported by strftime.
1248        All other characters are copied verbatim. For example, the string
1249        <literal>@and @attr 1=30 @attr 2=3 %Y %%</literal>
1250        would search for current year combined with the original PQF (%%).
1251       </para>
1252       <para>
1253        This setting can also be used as more general alternative to
1254        pz:pqf_prefix -- a way of embedding the submitted query
1255        anywhere in the string rather than appending it to prefix.  For
1256        example, if it is desired to omit all records satisfying the
1257        query <literal>@attr 1=pica.bib 0007</literal> then this
1258        subquery can be combined with the submitted query as the second
1259        argument of <literal>@andnot</literal> by using the
1260        pz:pqf_strftime value <literal>@not %% @attr 1=pica.bib
1261        0007</literal>.
1262       </para>
1263      </listitem>
1264     </varlistentry>
1265     
1266     <varlistentry>
1267      <term>pz:sort</term>
1268      <listitem>
1269       <para>
1270        Specifies sort criteria to be applied to the result set.
1271        Only works for targets which support the sort service.
1272       </para>
1273      </listitem>
1274     </varlistentry>
1275
1276     <varlistentry>
1277      <term>pz:recordfilter</term>
1278      <listitem>
1279       <para>
1280        Specifies a filter which allows Pazpar2 to only include
1281        records that meet a certain criteria in a result.
1282        Unmatched records  will be ignored.
1283        The filter takes the form name, name~value, or name=value, which
1284        will include only records with metadata element (name) that has the
1285        substring (~value) given, or matches exactly (=value).
1286        If value is omitted all records with the named metadata element
1287        present will be included.
1288       </para>
1289      </listitem>
1290     </varlistentry>
1291     
1292     <varlistentry>
1293      <term>pz:preferred</term>
1294      <listitem>
1295       <para>
1296        Specifies that a target is preferred, e.g. possible local, faster
1297        target. Using block=pref on show command will wait for all these
1298        targets to return records before releasing the block.
1299        If no target is preferred, the block=pref will identical to block=1,
1300        which release when one target has returned records.     
1301       </para>
1302      </listitem>
1303     </varlistentry>
1304     <varlistentry>
1305      <term>pz:block_timeout</term>
1306      <listitem>
1307       <para>
1308        (Not yet implemented).
1309        Specifies the time for which a block should be released anyway.      
1310       </para>
1311      </listitem>
1312     </varlistentry>
1313     <varlistentry>
1314      <term>pz:termlist_term_count</term>
1315      <listitem>
1316       <para>
1317        Specifies number of facet terms to be requested from the target. 
1318        The default is unspecified e.g. server-decided. Also see pz:facetmap.
1319       </para>
1320      </listitem>
1321     </varlistentry>
1322     <varlistentry>
1323      <term>pz:termlist_term_factor</term>
1324      <listitem>
1325       <para>
1326        Specifies whether to use a factor for pazpar2 generated facets (1) or not (0). 
1327        When mixing locallly generated (by the downloaded (pz:maxrecs) samples) 
1328        facet with native (target-generated) facets, the later will dominated the dominate the facet list
1329        since they are generated based on the complete result set. 
1330        By scaling up the facet count using the ratio between total hit count and the sample size, 
1331        the total facet count can be approximated and thus better compared with native facets. 
1332        This is not enabled by default.
1333       </para>
1334      </listitem>
1335     </varlistentry>
1336
1337     <varlistentry>
1338      <term>pz:facetmap:<replaceable>name</replaceable></term>
1339      <listitem>
1340       <para>
1341        Specifies that for field <replaceable>name</replaceable>, the target
1342        supports (native) facets. The value is the name of the
1343        field on the target.
1344       </para>
1345       <note>
1346        <para>
1347         At this point only Solr targets have been tested with this
1348         facility.
1349        </para>
1350       </note>
1351      </listitem>
1352     </varlistentry>
1353
1354     <varlistentry id="limitmap">
1355      <term>pz:limitmap:<replaceable>name</replaceable></term>
1356      <listitem>
1357       <para>
1358        Specifies attributes for limiting a search to a field - using
1359        the limit parameter for search. It can be used to filter locally
1360        or remotely (search in a target). In some cases the mapping of 
1361        a field to a value is identical to an existing cclmap field; in
1362        other cases the field must be specified in a different way - for
1363        example to match a complete field (rather than parts of a subfield).
1364       </para>
1365       <para>
1366        The value of limitmap may have one of three forms: referral to
1367        an existing CCL field, a raw PQF string or a local limit. Leading string
1368        determines type; either <literal>ccl:</literal> for CCL field, 
1369        <literal>rpn:</literal> for PQF/RPN, or <literal>local:</literal>
1370        for filtering in Pazpar2. The local filtering may be followed
1371        by a field a metadata field (default is to use the name of the 
1372        limitmap itself).
1373       </para>
1374       <note>
1375        <para>
1376         The limitmap facility is supported for Pazpar2 version 1.6.0.
1377         Local filtering is supported in Pazpar2 1.6.6.
1378        </para>
1379       </note>
1380      </listitem>
1381     </varlistentry>
1382
1383     <varlistentry id="pzurl">
1384      <term>pz:url</term>
1385      <listitem>
1386       <para>
1387        Specifies URL for the target and overrides the target ID.
1388       </para>
1389       <note>
1390        <para>
1391         <literal>pz:url</literal> is only recognized for
1392         Pazpar2 1.6.4 and later.
1393        </para>
1394       </note>
1395      </listitem>
1396     </varlistentry>
1397
1398     <varlistentry id="pzsortmap">
1399      <term>pz:sortmap:<replaceable>field</replaceable></term>
1400      <listitem>
1401       <para>
1402        Specifies native sorting for a target where
1403        <replaceable>field</replaceable> is a sort criteria (see command
1404        show). The value has to components separated by colon: strategy and
1405        native-field. Strategy is one of <literal>z3950</literal>,
1406        <literal>type7</literal>, <literal>cql</literal>,
1407        <literal>sru11</literal>, or <literal>embed</literal>.
1408        The second component, native-field, is the field that is recognized
1409        by the target.
1410       </para>
1411       <note>
1412        <para>
1413         Only supported for Pazpar2 1.6.4 and later.
1414        </para>
1415       </note>
1416      </listitem>
1417     </varlistentry>
1418     
1419    </variablelist>
1420    
1421   </refsect2>
1422
1423  </refsect1>
1424  <refsect1>
1425   <title>SEE ALSO</title>
1426   <para>
1427    <citerefentry>
1428     <refentrytitle>pazpar2</refentrytitle>
1429     <manvolnum>8</manvolnum>
1430    </citerefentry>
1431    <citerefentry>
1432     <refentrytitle>yaz-icu</refentrytitle>
1433     <manvolnum>1</manvolnum>
1434    </citerefentry>
1435    <citerefentry>
1436     <refentrytitle>pazpar2_protocol</refentrytitle>
1437     <manvolnum>7</manvolnum>
1438    </citerefentry>
1439   </para>
1440  </refsect1>
1441 </refentry>
1442 <!-- Keep this comment at the end of the file
1443 Local variables:
1444 mode: nxml
1445 nxml-child-indent: 1
1446 End:
1447 -->