258ffc5bdf30bb30504e3690e095f7deeb36187a
[idzebra-moved-to-github.git] / perl / lib / IDZebra / Session.pm
1 # $Id: Session.pm,v 1.14 2003-03-12 17:08:53 pop Exp $
2
3 # Zebra perl API header
4 # =============================================================================
5 package IDZebra::Session;
6
7 use strict;
8 use warnings;
9
10 BEGIN {
11     use IDZebra;
12     use Scalar::Util;
13     use IDZebra::Logger qw(:flags :calls);
14     use IDZebra::Resultset;
15     use IDZebra::ScanList;
16     use IDZebra::RetrievalRecord;
17     require Exporter;
18     our $VERSION = do { my @r = (q$Revision: 1.14 $ =~ /\d+/g); sprintf "%d."."%02d" x $#r, @r }; 
19     our @ISA = qw(IDZebra::Logger Exporter);
20     our @EXPORT = qw (TRANS_RW TRANS_RO);
21 }
22
23 use constant TRANS_RW => 1;
24 use constant TRANS_RO => 0;
25
26 1;
27 # -----------------------------------------------------------------------------
28 # Class constructors, destructor
29 # -----------------------------------------------------------------------------
30 sub new {
31     my ($proto, %args) = @_;
32     my $class = ref($proto) || $proto;
33     my $self = {};
34     $self->{args} = \%args;
35     
36     bless ($self, $class);
37     $self->{cql_ct} = undef;
38     $self->{cql_mapfile} = "";
39     return ($self);
40
41     $self->{databases} = {};
42 }
43
44 sub start_service {
45     my ($self, %args) = @_;
46
47     my $zs;
48     unless (defined($self->{zs})) {
49         if (defined($args{'configFile'})) {
50             $self->{zs} = IDZebra::start($args{'configFile'});
51         } else {
52             $self->{zs} = IDZebra::start("zebra.cfg");
53         }
54     }
55 }
56
57 sub stop_service {
58     my ($self) = @_;
59     if (defined($self->{zs})) {
60         IDZebra::stop($self->{zs}) if ($self->{zs});    
61         $self->{zs} = undef;
62     }
63 }
64
65
66 sub open {
67     my ($proto,%args) = @_;
68     my $self = {};
69
70     if (ref($proto)) { $self = $proto; } else { 
71         $self = $proto->new(%args);
72     }
73
74     unless (%args) {
75         %args = %{$self->{args}};
76     }
77
78     $self->start_service(%args);
79
80     unless (defined($self->{zs})) {
81         croak ("Falied to open zebra service");
82     }    
83
84     unless (defined($self->{zh})) {
85         $self->{zh}=IDZebra::open($self->{zs}); 
86     }   
87
88     # Reset result set counter
89     $self->{rscount} = 0;
90
91     # This is needed in order to somehow initialize the service
92     $self->databases("Default");
93
94     # Load the default configuration
95     $self->group(%args);
96
97
98     # Set shadow usage
99     my $shadow = defined($args{shadow}) ? $args{shadow} : 0;
100     $self->shadow($shadow);
101     
102     $self->{odr_input} = IDZebra::odr_createmem($IDZebra::ODR_DECODE);
103     $self->{odr_output} = IDZebra::odr_createmem($IDZebra::ODR_ENCODE);
104
105     return ($self);
106 }
107
108 sub checkzh {
109     my ($self) = @_;
110     unless (defined($self->{zh})) {
111         croak ("Zebra session is not opened");
112     }
113 }
114
115 sub close {
116     my ($self) = @_;
117
118     if ($self->{zh}) {
119
120         my $stats = 0; 
121         # Delete all resulsets
122         my $r = IDZebra::deleteResultSet($self->{zh},
123                                          1, #Z_DeleteRequest_all,
124                                          0,[],
125                                          $stats);
126
127         while (IDZebra::trans_no($self->{zh}) > 0) {
128             logf (LOG_WARN,"Explicitly closing transaction with session");
129             $self->end_trans;
130         }
131
132         IDZebra::close($self->{zh});
133         $self->{zh} = undef;
134     }
135     
136     if ($self->{odr_input}) {
137         IDZebra::odr_reset($self->{odr_input});
138         IDZebra::odr_destroy($self->{odr_input});
139         $self->{odr_input} = undef;  
140     }
141
142     if ($self->{odr_output}) {
143         IDZebra::odr_reset($self->{odr_output});
144         IDZebra::odr_destroy($self->{odr_output});
145         $self->{odr_output} = undef;  
146     }
147
148     $self->stop_service;
149 }
150
151 sub DESTROY {
152     my ($self) = @_;
153     logf (LOG_LOG,"DESTROY $self");
154     $self->close; 
155
156     if (defined ($self->{cql_ct})) {
157       IDZebra::cql_transform_close($self->{cql_ct});
158     }
159
160 }
161 # -----------------------------------------------------------------------------
162 # Record group selection  This is a bit nasty... but used at many places 
163 # -----------------------------------------------------------------------------
164 sub group {
165     my ($self,%args) = @_;
166     $self->checkzh;
167     if ($#_ > 0) {
168         $self->{rg} = $self->_makeRecordGroup(%args);
169         $self->_selectRecordGroup($self->{rg});
170     }
171     return($self->{rg});
172 }
173
174 sub selectRecordGroup {
175     my ($self, $groupName) = @_;
176     $self->checkzh;
177     $self->{rg} = $self->_getRecordGroup($groupName);
178     $self->_selectRecordGroup($self->{rg});
179 }
180
181 sub _displayRecordGroup {
182     my ($self, $rg) = @_;
183     print STDERR "-----\n";
184     foreach my $key qw (groupName 
185                         databaseName 
186                         path recordId 
187                         recordType 
188                         flagStoreData 
189                         flagStoreKeys 
190                         flagRw 
191                         fileVerboseLimit 
192                         databaseNamePath 
193                         explainDatabase 
194                         followLinks) {
195         print STDERR "$key:",$rg->{$key},"\n";
196     }
197 }
198
199 sub _cloneRecordGroup {
200     my ($self, $orig) = @_;
201     my $rg = IDZebra::recordGroup->new();
202     my $r = IDZebra::init_recordGroup($rg);
203     foreach my $key qw (groupName 
204                         databaseName 
205                         path 
206                         recordId 
207                         recordType 
208                         flagStoreData 
209                         flagStoreKeys 
210                         flagRw 
211                         fileVerboseLimit 
212                         databaseNamePath 
213                         explainDatabase 
214                         followLinks) {
215         $rg->{$key} = $orig->{$key} if ($orig->{$key});
216     }
217     return ($rg);
218 }
219
220 sub _getRecordGroup {
221     my ($self, $groupName, $ext) = @_;
222     my $rg = IDZebra::recordGroup->new();
223     my $r = IDZebra::init_recordGroup($rg);
224     $rg->{groupName} = $groupName if ($groupName ne "");  
225     $ext = "" unless ($ext);
226     $r = IDZebra::res_get_recordGroup($self->{zh}, $rg, $ext);
227     return ($rg);
228 }
229
230 sub _makeRecordGroup {
231     my ($self, %args) = @_;
232     my $rg;
233
234     my @keys = keys(%args);
235     unless ($#keys >= 0) {
236         return ($self->{rg});
237     }
238
239     if ($args{groupName}) {
240         $rg = $self->_getRecordGroup($args{groupName});
241     } else {
242         $rg = $self->_cloneRecordGroup($self->{rg});
243     }
244     $self->_setRecordGroupOptions($rg, %args);
245     return ($rg);
246 }
247
248 sub _setRecordGroupOptions {
249     my ($self, $rg, %args) = @_;
250
251     foreach my $key qw (databaseName 
252                         path 
253                         recordId 
254                         recordType 
255                         flagStoreData 
256                         flagStoreKeys 
257                         flagRw 
258                         fileVerboseLimit 
259                         databaseNamePath 
260                         explainDatabase 
261                         followLinks) {
262         if (defined ($args{$key})) {
263             $rg->{$key} = $args{$key};
264         }
265     }
266 }
267 sub _selectRecordGroup {
268     my ($self, $rg) = @_;
269
270     my $r = IDZebra::set_group($self->{zh}, $rg);
271     my $dbName;
272     unless ($dbName = $rg->{databaseName}) {
273         $dbName = 'Default';
274     }
275     unless ($self->databases($dbName)) {
276         croak("Fatal error selecting database $dbName");
277     }
278 }
279 # -----------------------------------------------------------------------------
280 # Selecting databases for search (and also for updating - internally)
281 # -----------------------------------------------------------------------------
282 sub databases {
283     my ($self, @databases) = @_;
284
285     $self->checkzh;
286
287     unless ($#_ >0) {
288         return (keys(%{$self->{databases}}));
289     }
290
291     my %tmp;
292     my $changed = 0;
293     foreach my $db (@databases) {
294         $tmp{$db}++;
295         next if ($self->{databases}{$db});
296         $changed++;
297     }
298
299     foreach my $db (keys (%{$self->{databases}})) {
300         $changed++ unless ($tmp{$db});
301     }
302
303     if ($changed) {
304
305         delete ($self->{databases});
306         foreach my $db (@databases) {
307             $self->{databases}{$db}++;
308         }
309
310         if (IDZebra::select_databases($self->{zh}, 
311                                                 ($#databases + 1), 
312                                                 \@databases)) {
313             logf(LOG_FATAL, 
314                  "Could not select database(s) %s errCode=%d",
315                  join(",",@databases),
316                  $self->errCode());
317             return (0);
318         } else {
319             logf(LOG_LOG,"Database(s) selected: %s",join(",",@databases));
320         }
321     }
322     return (keys(%{$self->{databases}}));
323 }
324
325 # -----------------------------------------------------------------------------
326 # Error handling
327 # -----------------------------------------------------------------------------
328 sub errCode {
329     my ($self) = @_;
330     return(IDZebra::errCode($self->{zh}));
331 }
332
333 sub errString {
334     my ($self) = @_;
335     return(IDZebra::errString($self->{zh}));
336 }
337
338 sub errAdd {
339     my ($self) = @_;
340     return(IDZebra::errAdd($self->{zh}));
341 }
342
343 # -----------------------------------------------------------------------------
344 # Transaction stuff
345 # -----------------------------------------------------------------------------
346 sub begin_trans {
347     my ($self, $m) = @_;
348     $m = TRANS_RW unless (defined ($m));
349     if (my $err = IDZebra::begin_trans($self->{zh},$m)) {
350         if ($self->errCode == 2) {
351             croak ("TRANS_RW not allowed within TRANS_RO");
352         } else {
353             croak("Error starting transaction; code:".
354                   $self->errCode . " message: " . $self->errString);
355         }
356     }
357 }
358
359 sub end_trans {
360     my ($self) = @_;
361     $self->checkzh;
362     my $stat = IDZebra::ZebraTransactionStatus->new();
363     IDZebra::end_trans($self->{zh}, $stat);
364     return ($stat);
365 }
366
367 sub shadow {
368     my ($self, $value) = @_;
369     $self->checkzh;
370     if ($#_ > 0) { 
371         $value = 0 unless (defined($value));
372         my $r =IDZebra::set_shadow_enable($self->{zh},$value); 
373     }
374     return (IDZebra::get_shadow_enable($self->{zh}));
375 }
376
377 sub commit {
378     my ($self) = @_;
379     $self->checkzh;
380     if ($self->shadow) {
381         return(IDZebra::commit($self->{zh}));
382     }
383 }
384
385 # -----------------------------------------------------------------------------
386 # We don't really need that...
387 # -----------------------------------------------------------------------------
388 sub odr_reset {
389     my ($self, $name) = @_;
390     if ($name !~/^(input|output)$/) {
391         croak("Undefined ODR '$name'");
392     }
393   IDZebra::odr_reset($self->{"odr_$name"});
394 }
395
396 # -----------------------------------------------------------------------------
397 # Init/compact
398 # -----------------------------------------------------------------------------
399 sub init {
400     my ($self) = @_;
401     $self->checkzh;
402     return(IDZebra::init($self->{zh}));
403 }
404
405 sub compact {
406     my ($self) = @_;
407     $self->checkzh;
408     return(IDZebra::compact($self->{zh}));
409 }
410
411 sub update {
412     my ($self, %args) = @_;
413     $self->checkzh;
414     my $rg = $self->_update_args(%args);
415     $self->_selectRecordGroup($rg);
416     $self->begin_trans;
417     IDZebra::repository_update($self->{zh});
418     $self->_selectRecordGroup($self->{rg});
419     $self->end_trans;
420 }
421
422 sub delete {
423     my ($self, %args) = @_;
424     $self->checkzh;
425     my $rg = $self->_update_args(%args);
426     $self->_selectRecordGroup($rg);
427     $self->begin_trans;
428     IDZebra::repository_delete($self->{zh});
429     $self->_selectRecordGroup($self->{rg});
430     $self->end_trans;
431 }
432
433 sub show {
434     my ($self, %args) = @_;
435     $self->checkzh;
436     my $rg = $self->_update_args(%args);
437     $self->_selectRecordGroup($rg);
438     $self->begin_trans;
439     IDZebra::repository_show($self->{zh});
440     $self->_selectRecordGroup($self->{rg});
441     $self->end_trans;
442 }
443
444 sub _update_args {
445     my ($self, %args) = @_;
446     my $rg = $self->_makeRecordGroup(%args);
447     $self->_selectRecordGroup($rg);
448     return ($rg);
449 }
450
451 # -----------------------------------------------------------------------------
452 # Per record update
453 # -----------------------------------------------------------------------------
454
455 sub update_record {
456     my ($self, %args) = @_;
457     $self->checkzh;
458     return(IDZebra::update_record($self->{zh},
459                                   $self->_record_update_args(%args)));
460 }
461
462 sub delete_record {
463     my ($self, %args) = @_;
464     $self->checkzh;
465     return(IDZebra::delete_record($self->{zh},
466                                   $self->_record_update_args(%args)));
467 }
468
469 sub _record_update_args {
470     my ($self, %args) = @_;
471
472     my $sysno   = $args{sysno}      ? $args{sysno}      : 0;
473     my $match   = $args{match}      ? $args{match}      : "";
474     my $rectype = $args{recordType} ? $args{recordType} : "";
475     my $fname   = $args{file}       ? $args{file}       : "<no file>";
476     my $force   = $args{force}      ? $args{force}      : 0;
477
478     my $buff;
479
480     if ($args{data}) {
481         $buff = $args{data};
482     } 
483     elsif ($args{file}) {
484         CORE::open (F, $args{file}) || warn ("Cannot open $args{file}");
485         $buff = join('',(<F>));
486         CORE::close (F);
487     }
488     my $len = length($buff);
489
490     delete ($args{sysno});
491     delete ($args{match});
492     delete ($args{recordType});
493     delete ($args{file});
494     delete ($args{data});
495     delete ($args{force});
496
497     my $rg = $self->_makeRecordGroup(%args);
498
499     # If no record type is given, then try to find it out from the
500     # file extension;
501     unless ($rectype) {
502         if (my ($ext) = $fname =~ /\.(\w+)$/) {
503             my $rg2 = $self->_getRecordGroup($rg->{groupName},$ext);
504             $rectype = $rg2->{recordType};
505         } 
506     }
507
508     $rg->{databaseName} = "Default" unless ($rg->{databaseName});
509
510     unless ($rectype) {
511         $rectype="";
512     }
513     return ($rg, $rectype, $sysno, $match, $fname, $buff, $len, $force);
514 }
515
516 # -----------------------------------------------------------------------------
517 # CQL stuff
518 sub cqlmap {
519     my ($self,$mapfile) = @_;
520     if ($#_ > 0) {
521         if ($self->{cql_mapfile} ne $mapfile) {
522             unless (-f $mapfile) {
523                 croak("Cannot find $mapfile");
524             }
525             if (defined ($self->{cql_ct})) {
526               IDZebra::cql_transform_close($self->{cql_ct});
527             }
528             $self->{cql_ct} = IDZebra::cql_transform_open_fname($mapfile);
529             $self->{cql_mapfile} = $mapfile;
530         }
531     }
532     return ($self->{cql_mapfile});
533 }
534
535 sub cql2pqf {
536     my ($self, $cqlquery) = @_;
537     unless (defined($self->{cql_ct})) {
538         croak("CQL map file is not specified yet.");
539     }
540     my $res = "\0" x 2048;
541     my $r = IDZebra::cql2pqf($self->{cql_ct}, $cqlquery, $res, 2048);
542     if ($r) {
543         carp ("Error transforming CQL query: '$cqlquery', status:$r");
544     }
545     $res=~s/\0.+$//g;
546     return ($res,$r); 
547 }
548
549
550 # -----------------------------------------------------------------------------
551 # Search 
552 # -----------------------------------------------------------------------------
553 sub search {
554     my ($self, %args) = @_;
555
556     $self->checkzh;
557
558     if ($args{cqlmap}) { $self->cqlmap($args{cqlmap}); }
559
560     my $query;
561     if ($args{pqf}) {
562         $query = $args{pqf};
563     }
564     elsif ($args{cql}) {
565         my $cqlstat;
566         ($query, $cqlstat) =  $self->cql2pqf($args{cql});
567         unless ($query) {
568             croak ("Failed to transform query: '$args{cql}', ".
569                    "status: ($cqlstat)");
570         }
571     }
572     unless ($query) {
573         croak ("No query given to search");
574     }
575
576     my @origdbs;
577
578     if ($args{databases}) {
579         @origdbs = $self->databases;
580         $self->databases(@{$args{databases}});
581     }
582
583     my $rsname = $args{rsname} ? $args{rsname} : $self->_new_setname;
584
585     my $rs = $self->_search_pqf($query, $rsname);
586
587     if ($args{databases}) {
588         $self->databases(@origdbs);
589     }
590
591     if ($args{sort}) {
592         if ($rs->errCode) {
593             carp("Sort skipped due to search error: ".
594                  $rs->errCode);
595         } else {
596             $rs->sort($args{sort});
597         }
598     }
599
600     return ($rs);
601 }
602
603 sub _new_setname {
604     my ($self) = @_;
605     return ("set_".$self->{rscount}++);
606 }
607
608 sub _search_pqf {
609     my ($self, $query, $setname) = @_;
610
611     my $hits = IDZebra::search_PQF($self->{zh},
612                                    $self->{odr_input},
613                                    $self->{odr_output},
614                                    $query,
615                                    $setname);
616
617     my $rs  = IDZebra::Resultset->new($self,
618                                       name        => $setname,
619                                       recordCount => $hits,
620                                       errCode     => $self->errCode,
621                                       errString   => $self->errString);
622     return($rs);
623 }
624
625 # -----------------------------------------------------------------------------
626 # Sort
627 #
628 # Sorting of multiple result sets is not supported by zebra...
629 # -----------------------------------------------------------------------------
630
631 sub sortResultsets {
632     my ($self, $sortspec, $setname, @sets) = @_;
633
634     $self->checkzh;
635
636     if ($#sets > 0) {
637         croak ("Sorting/merging of multiple resultsets is not supported now");
638     }
639
640     my @setnames;
641     my $count = 0;
642     foreach my $rs (@sets) {
643         push (@setnames, $rs->{name});
644         $count += $rs->{recordCount};  # is this really sure ??? It doesn't 
645                                        # matter now...
646     }
647
648     my $status = IDZebra::sort($self->{zh},
649                                $self->{odr_output},
650                                $sortspec,
651                                $setname,
652                                \@setnames);
653
654     my $errCode = $self->errCode;
655     my $errString = $self->errString;
656
657     logf (LOG_LOG, "Sort status $setname: %d, errCode: %d, errString: %s", 
658           $status, $errCode, $errString);
659
660     if ($status || $errCode) {$count = 0;}
661
662     my $rs  = IDZebra::Resultset->new($self,
663                                       name        => $setname,
664                                       recordCount => $count,
665                                       errCode     => $errCode,
666                                       errString   => $errString);
667     
668     return ($rs);
669 }
670 # -----------------------------------------------------------------------------
671 # Scan
672 # -----------------------------------------------------------------------------
673 sub scan {
674     my ($self, %args) = @_;
675
676     $self->checkzh;
677
678     unless ($args{expression}) {
679         croak ("No scan expression given");
680     }
681
682     my $sl = IDZebra::ScanList->new($self,%args);
683
684     return ($sl);
685 }
686
687 # ============================================================================
688
689 __END__
690
691 =head1 NAME
692
693 IDZebra::Session - A Zebra database server session for update and retrieval
694
695 =head1 SYNOPSIS
696
697   $sess = IDZebra::Session->new(configFile => 'demo/zebra.cfg');
698   $sess->open();
699
700   $sess = IDZebra::Session->open(configFile => 'demo/zebra.cfg',
701                                  groupName  => 'demo1');
702
703   $sess->group(groupName => 'demo2');
704
705   $sess->init();
706
707   $sess->begin_trans;
708
709   $sess->update(path      =>  'lib');
710
711   my $s1=$sess->update_record(data       => $rec1,
712                               recordType => 'grs.perl.pod',
713                               groupName  => "demo1",
714                               );
715
716   my $stat = $sess->end_trans;
717
718   $sess->databases('demo1','demo2');
719
720   my $rs1 = $sess->search(cqlmap    => 'demo/cql.map',
721                           cql       => 'dc.title=IDZebra',
722                           databases => [qw(demo1 demo2)]);
723   $sess->close;
724
725 =head1 DESCRIPTION
726
727 Zebra is a high-performance, general-purpose structured text indexing and retrieval engine. It reads structured records in a variety of input formats (eg. email, XML, MARC) and allows access to them through exact boolean search expressions and relevance-ranked free-text queries. 
728
729 Zebra supports large databases (more than ten gigabytes of data, tens of millions of records). It supports incremental, safe database updates on live systems. You can access data stored in Zebra using a variety of Index Data tools (eg. YAZ and PHP/YAZ) as well as commercial and freeware Z39.50 clients and toolkits. 
730
731 =head1 OPENING AND CLOSING A ZEBRA SESSIONS
732
733 For the time beeing only local database services are supported, the same way as calling zebraidx or zebrasrv from the command shell. In order to open a local Zebra database, with a specific configuration file, use
734
735   $sess = IDZebra::Session->new(configFile => 'demo/zebra.cfg');
736   $sess->open();
737
738 or
739
740   $sess = IDZebra::Session->open(configFile => 'demo/zebra.cfg');
741
742 where $sess is going to be the object representing a Zebra Session. Whenever this variable gets out of scope, the session is closed, together with all active transactions, etc... Anyway, if you'd like to close the session, just say:
743
744   $sess->close();
745
746 This will
747   - close all transactions
748   - destroy all result sets and scan lists 
749   - close the session
750
751 Note, that if I<shadow registers> are enabled, the changes will not be committed automatically.
752
753 In the future different database access methods are going to be available, 
754 like:
755
756   $sess = IDZebra::Session->open(server => 'ostrich.technomat.hu:9999');
757
758 You can also use the B<record group> arguments described below directly when calling the constructor, or the open method:
759
760   $sess = IDZebra::Session->open(configFile => 'demo/zebra.cfg',
761                                  groupName  => 'demo');
762
763
764 =head1 RECORD GROUPS 
765
766 If you manage different sets of records that share common characteristics, you can organize the configuration settings for each type into "groups". See the Zebra manual on the configuration file (zebra.cfg). 
767
768 For each open session a default record group is assigned. You can configure it in the constructor, or by the B<group> method:
769
770   $sess->group(groupName => ..., ...)
771
772 The following options are available:
773
774 =over 4
775
776 =item B<groupName>
777
778 This will select the named record group, and load the corresponding settings from the configuration file. All subsequent values will overwrite those...
779
780 =item B<databaseName>
781
782 The name of the (logical) database the updated records will belong to. 
783
784 =item B<path>
785
786 This path is used for directory updates (B<update>, B<delete> methods);
787  
788 =item B<recordId>
789
790 This option determines how to identify your records. See I<Zebra manual: Locating Records>
791
792 =item B<recordType>
793
794 The record type used for indexing. 
795
796 =item B<flagStoreData> 
797
798 Specifies whether the records should be stored internally in the Zebra system files. If you want to maintain the raw records yourself, this option should be false (0). If you want Zebra to take care of the records for you, it should be true(1). 
799
800 =item B<flagStoreKeys>
801
802 Specifies whether key information should be saved for a given group of records. If you plan to update/delete this type of records later this should be specified as 1; otherwise it should be 0 (default), to save register space. 
803
804 =item B<flagRw>
805
806 ?
807
808 =item B<fileVerboseLimit>
809
810 Skip log messages, when doing a directory update, and the specified number of files are processed...
811
812 =item B<databaseNamePath>
813
814 ?
815
816 =item B<explainDatabase>
817
818 The name of the explain database to be used
819
820 =item B<followLinks>              
821
822 Follow links when doing directory update.
823
824 =back
825
826 You can use the same parameters calling all update methods.
827
828 =head1 TRANSACTIONS (READ / WRITE LOCKS)
829
830 A transaction is a block of record update (insert / modify / delete) or retrieval procedures. So, all call to such function will implicitly start a transaction, unless one is already started by
831
832   $sess->begin_trans;
833
834 or 
835
836   $sess->begin_trans(TRANS_RW)
837
838 (these two are equivalents). The effect of this call is a kind of lock: if you call is a write lock is put on the registers, so other processes trying to update the database will be blocked. If there is already an RW (Read-Write) transaction opened by another process, the I<begin_trans> call will be blocked.
839
840 You can also use
841
842   $sess->begin_trans(TRANS_RO),
843
844 if you would like to put on a "read lock". This one is B<deprecated>, as while you have explicitly opened a transaction for read, you can't open another one for update. For example:
845
846   $sess->begin_trans(TRANS_RO);
847   $sess->begin_tran(TRANS_RW); # invalid, die here
848   $sess->end_trans;
849   $sess->end_trans;
850
851 is invalid, but
852
853   $sess->begin_tran(TRANS_RW); 
854   $sess->begin_trans(TRANS_RO);
855   $sess->end_trans;
856   $sess->end_trans;
857
858 is valid, but probably useless. Note again, that for each retrieval call, an RO transaction is opened. I<TRANS_RW> and I<TRANS_RO> are exported by default by IDZebra::Session.pm.
859
860 For multiple per-record I<updates> it's efficient to start transactions explicitly: otherwise registers (system files, vocabularies, etc..) are updated one by one. After finishing all requested updates, use
861
862   $stat = $sess->end_trans;
863
864 The return value is a ZebraTransactionStatus object, containing the following members as a hash reference:
865
866   $stat->{processed} # Number of records processed
867   $stat->{updated}   # Number of records processed
868   $stat->{deleted}   # Number of records processed
869   $stat->{inserted}  # Number of records processed
870   $stat->{stime}     # System time used
871   $stat->{utime}     # User time used
872
873 Normally, if the perl code dies due to some runtime error, or the session is closed, then the API attempts to close all pending transactions.
874
875 =head1 THE SHADOW REGISTERS
876
877 The Zebra server supports updating of the index structures. That is, you can add, modify, or remove records from databases managed by Zebra without rebuilding the entire index. Since this process involves modifying structured files with various references between blocks of data in the files, the update process is inherently sensitive to system crashes, or to process interruptions: Anything but a successfully completed update process will leave the register files in an unknown state, and you will essentially have no recourse but to re-index everything, or to restore the register files from a backup medium. Further, while the update process is active, users cannot be allowed to access the system, as the contents of the register files may change unpredictably. 
878
879 You can solve these problems by enabling the shadow register system in Zebra. During the updating procedure, zebraidx will temporarily write changes to the involved files in a set of "shadow files", without modifying the files that are accessed by the active server processes. If the update procedure is interrupted by a system crash or a signal, you simply repeat the procedure - the register files have not been changed or damaged, and the partially written shadow files are automatically deleted before the new updating procedure commences. 
880
881 At the end of the updating procedure (or in a separate operation, if you so desire), the system enters a "commit mode". First, any active server processes are forced to access those blocks that have been changed from the shadow files rather than from the main register files; the unmodified blocks are still accessed at their normal location (the shadow files are not a complete copy of the register files - they only contain those parts that have actually been modified). If the commit process is interrupted at any point during the commit process, the server processes will continue to access the shadow files until you can repeat the commit procedure and complete the writing of data to the main register files. You can perform multiple update operations to the registers before you commit the changes to the system files, or you can execute the commit operation at the end of each update operation. When the commit phase has completed successfully, any running server processes are instructed to switch their operations to the new, operational register, and the temporary shadow files are deleted. 
882
883 By default, (in the API !) the use of shadow registers is disabled. If zebra is configured that way (there is a "shadow" entry in zebra.cfg), then the shadow system can be enabled by calling:
884
885  $sess->shadow(1);
886
887 or disabled by
888
889  $sess->shadow(0);
890
891 If shadow system is enabled, then you have to commit changes you did, by calling:
892  
893  $sess->commit;
894
895 Note, that you can also determine shadow usage in the session constructor:
896
897  $sess = IDZebra::Session->open(configFile => 'demo/zebra.cfg',
898                                 shadow    => 1);
899  
900 Changes to I<shadow> will not have effect, within a I<transaction> (ie.: a transaction is started either with shadow enabled or disabled). For more details, read Zebra documentation: I<Safe Updating - Using Shadow Registers>.
901
902 =head1 UPDATING DATA
903
904 There are two ways to update data in a Zebra database using the perl API. You can update an entire directory structure just the way it's done by zebraidx:
905
906   $sess->update(path      =>  'lib');
907
908 This will update the database with the files in directory "lib", according to the current record group settings.
909
910   $sess->update();
911
912 This will update the database with the files, specified by the default record group setting. I<path> has to be specified there...
913
914   $sess->update(groupName => 'demo1',
915                 path      =>  'lib');
916
917 Update the database with files in "lib" according to the settings of group "demo1"
918
919   $sess->delete(groupName => 'demo1',
920                 path      =>  'lib');
921
922 Delete the records derived from the files in directory "lib", according to the "demo1" group settings. Sounds complex? Read zebra documentation about identifying records.
923
924 You can also update records one by one, even directly from the memory:
925
926   $sysno = $sess->update_record(data       => $rec1,
927                                 recordType => 'grs.perl.pod',
928                                 groupName  => "demo1");
929
930 This will update the database with the given record buffer. Note, that in this case recordType is explicitly specified, as there is no filename given, and for the demo1 group, no default record type is specified. The return value is the system assigned id of the record.
931
932 You can also index a single file:
933
934   $sysno = $sess->update_record(file => "lib/IDZebra/Data1.pm");
935
936 Or, provide a buffer, and a filename (where filename will only be used to identify the record, if configured that way, and possibly to find out it's record type):
937
938   $sysno = $sess->update_record(data => $rec1,
939                                 file => "lib/IDZebra/Data1.pm");
940
941 And some crazy stuff:
942
943   $sysno = $sess->delete_record(sysno => $sysno);
944
945 where sysno in itself is sufficient to identify the record
946
947   $sysno = $sess->delete_record(data => $rec1,
948                                 recordType => 'grs.perl.pod',
949                                 groupName  => "demo1");
950
951 This case the record is extracted, and if already exists, located in the database, then deleted... 
952
953   $sysno = $sess->delete_record(data       => $rec1,
954                                 match      => $myid,
955                                 recordType => 'grs.perl.pod',
956                                 groupName  => "demo1");
957
958 Don't try this at home! This case, the record identifier string (which is normally generated according to the rules set in recordId directive of zebra.cfg) is provided directly....
959
960
961 B<Important:> Note, that one record can be updated only once within a transaction - all subsequent updates are skipped. 
962
963 =head1 DATABASE SELECTION
964
965 Within a zebra repository you can define logical databases. You can either do this by record groups, or by providing the databaseName argument for update methods. For each record the database name it belongs to is stored. 
966
967 For searching, you can select databases by calling:
968
969   $sess->databases('db1','db2');
970
971 This will not do anything if the given and only the given databases are already selected. You can get the list of the actually selected databases, by calling:
972   
973   @dblist = $sess->databases();
974
975 =head1 SEARCHING
976
977 It's nice to be able to store data in your repository... But it's useful to reach it as well. So this is how to do searching:
978
979   $rs = $sess->search(databases => [qw(demo1,demo2)], # optional
980                       pqf       => '@attr 1=4 computer');
981
982 This is going to execute a search in databases demo1 and demo2, for title 'com,puter'. This is a PQF (Prefix Query Format) search, see YAZ documentation for details. The database selection is optional: if it's provided, the given list of databases is selected for this particular search, then the original selection is restored.
983
984 =head2 CCL searching
985
986 Not all users enjoy typing in prefix query structures and numerical attribute values, even in a minimalistic test client. In the library world, the more intuitive Common Command Language (or ISO 8777) has enjoyed some popularity - especially before the widespread availability of graphical interfaces. It is still useful in applications where you for some reason or other need to provide a symbolic language for expressing boolean query structures. 
987
988 The CCL searching is not currently supported by this API.
989
990 =head2 CQL searching
991
992 CQL - Common Query Language - was defined for the SRW protocol. In many ways CQL has a similar syntax to CCL. The objective of CQL is different. Where CCL aims to be an end-user language, CQL is the protocol query language for SRW. 
993
994 In order to map CQL queries to Zebra internal search structures, you have to define a mapping, the way it is described in YAZ documentation: I<Specification of CQL to RPN mapping>. The mapping is interpreted by the method:
995
996   $sess->cqlmap($mapfile);
997
998 Or, you can directly provide the I<mapfile> parameter for the search:
999
1000   $rs = $sess->search(cqlmap    => 'demo/cql.map',
1001                       cql       => 'dc.title=IDZebra');
1002
1003 As you see, CQL searching is so simple: just give the query in the I<cql> parameter.
1004
1005 =head2 Sorting
1006
1007 If you'd like the search results to be sorted, use the I<sort> parameter:
1008
1009   $rs = $sess->search(cql       => 'IDZebra',
1010                       sort      => '1=4 ia');
1011   
1012 Note, that B<currently> this is (almost) equivalent to
1013
1014   $rs = $sess->search(cql       => 'IDZebra');
1015   $rs->sort('1=4 ia');
1016   
1017 but in the further versions of Zebra and this API a single phase search and sort will take place, optimizing performance. For more details on sorting, see I<IDZebra::ResultSet> manpage.
1018
1019 =head1 RESULTSETS
1020
1021 As you have seen, the result of the search request is a I<Resultset> object.
1022 It contains number of hits, and search status, and can be used to sort and retrieve the resulting records.
1023
1024   $count = $rs->count;
1025
1026   printf ("RS Status is %d (%s)\n", $rs->errCode, $rs->errString);
1027
1028 I<$rs-E<gt>errCode> is 0, if there were no errors during search. Read the I<IDZebra::Resultset> manpage for more details.
1029
1030 =head1 SCANNING
1031
1032 Zebra supports scanning index values. The result of the 
1033
1034   $sl = $sess->scan(expression => "a");
1035
1036 call is an I<IDZebra::ScanList> object, what you can use to list the values. The scan expression has to be provided in a PQF like format. Examples:
1037
1038 B< a> (scan trough words of "default", "Any" indexes)
1039
1040
1041 B< @attr 1=1016 a> (same effect)
1042
1043
1044 B< @attr 1=4 @attr 6=2 a>  (scan trough titles as phrases)
1045
1046 An illegal scan expression will cause your code to die. If you'd like to select databases just for the scan call, you can optionally use the I<databases> parameter:
1047
1048   $sl = $sess->scan(expression => "a",
1049                     databases  => [qw(demo1 demo2)]);
1050   
1051 You can use the I<IDZebra::ScanList> object returned by the i<scan> method, to reach the result. Check I<IDZebra::ScanList> manpage for more details.
1052
1053 =head1 SESSION STATUS AND ERRORS
1054
1055 Most of the API calls causes die, if an error occures. You avoid this, by using eval {} blocks. The following methods are available to get the status of Zebra service:
1056
1057 =over 4
1058
1059 =item B<errCode>
1060
1061 The Zebra provided error code... (for the result of the last call);
1062
1063 =item B<errString>
1064
1065 Error string corresponding to the message
1066
1067 =item B<errAdd>
1068
1069 Additional information for the status
1070
1071 =back
1072
1073 This functionality may change, see TODO.
1074
1075 =head1 LOGGING AND MISC. FUNCTIONS
1076
1077 Zebra provides logging facility for the internal events, and also for application developers trough the API. See manpage I<IDZebra::Logger> for details.
1078
1079 =over 4
1080
1081 =item B<IDZebra::LogFile($filename)>
1082
1083 Will set the output file for logging. By default it's STDERR;
1084
1085 =item B<IDZebra::LogLevel(15)>
1086
1087 Set log level. 0 for no logs. See IDZebra::Logger for usable flags.
1088
1089 =back
1090
1091 Some other functions
1092
1093 =over 4
1094
1095 =item B<$sess-E<gt>init>
1096
1097 Initialize, and clean registers. This will remove all data!
1098
1099 =item B<$sess-E<gt>compact>
1100
1101 Compact the registers (? does this work)
1102
1103 =item B<$sess-E<gt>show>
1104
1105 Doesn't have too much meaning. Don't try :)
1106
1107 =back
1108
1109 =head1 TODO
1110
1111 =over 4
1112
1113 =item B<Clean up error handling>
1114
1115 By default all zebra errors should cause die. (such situations could be avoided by using eval {}), and then check for errCode, errString... An optional flag or package variable should be introduced to override this, and skip zebra errors, to let the user decide what to do.
1116
1117 =item B<Make the package self-distributable>
1118
1119 Build and link with installed header and library files
1120
1121 =item B<Testing>
1122
1123 Test shadow system, unicode...
1124
1125 =item B<C API>
1126
1127 Cleanup, arrange, remove redundancy
1128
1129 =back
1130
1131 =head1 COPYRIGHT
1132
1133 Fill in
1134
1135 =head1 AUTHOR
1136
1137 Peter Popovics, pop@technomat.hu
1138
1139 =head1 SEE ALSO
1140
1141 Zebra documentation, Zebra::ResultSet, Zebra::ScanList, Zebra::Logger manpages
1142
1143 =cut