Honor position attribute, i.e. allow first-in-field search. To
[idzebra-moved-to-github.git] / index / index.h
index d92e5e5..a147563 100644 (file)
@@ -1,6 +1,6 @@
-/* $Id: index.h,v 1.117 2004-09-01 15:01:32 heikki Exp $
-   Copyright (C) 1995,1996,1997,1998,1999,2000,2001,2002,2003,2004
-   Index Data Aps
+/* $Id: index.h,v 1.175 2006-09-08 14:40:52 adam Exp $
+   Copyright (C) 1995-2006
+   Index Data ApS
 
 This file is part of the Zebra server.
 
@@ -15,18 +15,19 @@ FITNESS FOR A PARTICULAR PURPOSE.  See the GNU General Public License
 for more details.
 
 You should have received a copy of the GNU General Public License
-along with Zebra; see the file LICENSE.zebra.  If not, write to the
-Free Software Foundation, 59 Temple Place - Suite 330, Boston, MA
-02111-1307, USA.
+along with this program; if not, write to the Free Software
+Foundation, Inc., 51 Franklin St, Fifth Floor, Boston, MA  02110-1301  USA
+
 */
 
 #ifndef INDEX_H
 #define INDEX_H
 
 #include <time.h>
+#include <stdlib.h>
 #include <idzebra/version.h>
-#include <zebrautl.h>
-#include <zebramap.h>
+#include <idzebra/util.h>
+#include <idzebra/flock.h>
 #include <sortidx.h>
 
 #if HAVE_SYS_TIMES_H
@@ -34,17 +35,18 @@ Free Software Foundation, 59 Temple Place - Suite 330, Boston, MA
 #endif
 #include <sys/stat.h>
 
-#include <dict.h>
-#include <isams.h>
-#include <isamc.h>
-#include <isamb.h>
-#include <data1.h>
-#include <recctrl.h>
+#include <idzebra/dict.h>
+#include <idzebra/isams.h>
+#include <idzebra/isamc.h>
+#include <idzebra/isamb.h>
+#include <d1_absyn.h>
+#include <idzebra/recgrs.h>
 #include "recindex.h"
 #include <idzebra/api.h>
 #include "zinfo.h"
 #include <passwddb.h>
 #include <rset.h>
+#include <zebramap.h>
 
 YAZ_BEGIN_CDECL
 
@@ -54,25 +56,11 @@ YAZ_BEGIN_CDECL
 
 #define IT_MAX_WORD 256
 
-#define IT_KEY_NEW 1
-
-#if IT_KEY_NEW
-
-#endif
-
-#if IT_KEY_NEW
-#define IT_KEY_LEVEL_MAX 4
+#define IT_KEY_LEVEL_MAX 5
 struct it_key {
     int  len;
     zint mem[IT_KEY_LEVEL_MAX];
 };
-#else
-struct it_key {
-    int  sysno;
-    int  seqno;
-};
-#endif
-
 
 enum dirsKind { dirs_dir, dirs_file };
 
@@ -92,7 +80,7 @@ struct dirs_entry {
 void getFnameTmp (Res res, char *fname, int no);
         
 struct dirs_info *dirs_open (Dict dict, const char *rep, int rw);
-struct dirs_info *dirs_fopen (Dict dict, const char *path);
+struct dirs_info *dirs_fopen (Dict dict, const char *path, int rw);
 struct dirs_entry *dirs_read (struct dirs_info *p);
 struct dirs_entry *dirs_last (struct dirs_info *p);
 void dirs_mkdir (struct dirs_info *p, const char *src, time_t mtime);
@@ -117,6 +105,7 @@ int key_compare (const void *p1, const void *p2);
 void key_init(struct it_key *k);
 char *key_print_it (const void *p, char *buf);
 zint key_get_seq (const void *p);
+zint key_get_segment (const void *p);
 int key_compare_it (const void *p1, const void *p2);
 int key_qsort_compare (const void *p1, const void *p2);
 void key_logdump (int mask, const void *p);
@@ -145,67 +134,22 @@ int strtab_src (struct strtab *t, const char *name, void ***infop);
 void strtab_del (struct strtab *t,
                  void (*func)(const char *name, void *info, void *data),
                  void *data);
-int index_char_cvt (int c);
-int index_word_prefix (char *string, int attset_ordinal,
-                       int local_attribute, const char *databaseName);
-
 
 void zebraIndexLockMsg (ZebraHandle zh, const char *str);
 void zebraIndexUnlock (ZebraHandle zh);
 int zebraIndexLock (BFiles bfs, ZebraHandle zh, int commitNow, const char *rval);
 int zebraIndexWait (ZebraHandle zh, int commitPhase);
 
+void zebra_lock_prefix (Res res, char *dst);
+
 #define FNAME_MAIN_LOCK   "zebraidx.LCK"
 #define FNAME_COMMIT_LOCK "zebracmt.LCK"
 #define FNAME_ORG_LOCK    "zebraorg.LCK"
 #define FNAME_TOUCH_TIME  "zebraidx.time"
 
-typedef struct zebra_lock_info *ZebraLockHandle;
-ZebraLockHandle zebra_lock_create(const char *dir,
-                                  const char *file, int excl_flag);
-void zebra_lock_destroy (ZebraLockHandle h);
-int zebra_lock (ZebraLockHandle h);
-int zebra_lock_nb (ZebraLockHandle h);
-int zebra_unlock (ZebraLockHandle h);
-int zebra_lock_fd (ZebraLockHandle h);
-void zebra_lock_prefix (Res res, char *dst);
-char *zebra_mk_fname (const char *dir, const char *name);
-
-int zebra_lock_w (ZebraLockHandle h);
-int zebra_lock_r (ZebraLockHandle h);
-
-void zebra_load_atts (data1_handle dh, Res res);
-
 int key_SU_decode (int *ch, const unsigned char *out);
 int key_SU_encode (int ch, char *out);
 
-#define ENCODE_BUFLEN 768
-struct encode_info {
-    int  sysno;  /* previously written values for delta-compress */
-    int  seqno;
-    int  cmd;
-    int prevsys; /* buffer for skipping insert/delete pairs */
-    int prevseq;
-    int prevcmd;
-    int keylen; /* tells if we have an unwritten key in buf, and how long*/
-#if IT_KEY_NEW
-    void *encode_handle;
-#endif
-    char buf[ENCODE_BUFLEN];
-};
-
-void encode_key_init (struct encode_info *i);
-char *encode_key_int (int d, char *bp);
-void encode_key_write (char *k, struct encode_info *i, FILE *outf);
-void encode_key_flush (struct encode_info *i, FILE *outf);
-
-typedef struct {
-    char *term;
-    char *db;
-    zint sysno;
-    int score;
-} *ZebraPosSet;
-
 typedef struct zebra_set *ZebraSet;
 
 typedef struct zebra_rank_class {
@@ -215,24 +159,7 @@ typedef struct zebra_rank_class {
     struct zebra_rank_class *next;
 } *ZebraRankClass;
 
-struct recKeys {
-    int buf_used;
-    int buf_max;
-    char *buf;
-#if IT_KEY_NEW
-    void *codec_handle;
-#else
-    int prevSeqNo;
-    char prevAttrSet;
-    short prevAttrUse;
-#endif
-};
-
-struct sortKeys {
-    int buf_used;
-    int buf_max;
-    char *buf;
-};
+#include "reckeys.h"
 
 struct zebra_register {
     char *name;
@@ -257,14 +184,9 @@ struct zebra_register {
     int seqno;
     int last_val;
     int stop_flag;
-    int active; /* 0=shutdown, 1=enabled and inactive, 2=activated */
 
-    struct recKeys keys;
-#if 1
-    struct sortKeys sortKeys;
-#else
-    struct sortKey *sortKeys;
-#endif
+    zebra_rec_keys_t keys;
+    zebra_rec_keys_t sortKeys;
     char **key_buf;
     size_t ptr_top;
     size_t ptr_i;
@@ -275,12 +197,14 @@ struct zebra_register {
 struct zebra_service {
     int stop_flag;
     Res global_res;
-    char *configName;
     struct zebra_session *sessions;
     struct zebra_register *regs;
     Zebra_mutex_cond session_lock;
     Passwd_db passwd_db;
+    Res dbaccess;
     const char *path_root;
+    RecTypeClass record_classes;
+    NMEM nmem;
 };
 
 
@@ -293,6 +217,7 @@ struct zebra_session {
 
     char **basenames;
     int num_basenames;
+    zint approx_limit;
     char *reg_name;
     char *path_reg;
 
@@ -305,7 +230,9 @@ struct zebra_session {
     int destroyed;
     ZebraSet sets;
     Res res;
+    Res session_res;
     char *user_perm;
+    char *dbaccesslist;
     int errCode;
     zint hits;
     char *errString;
@@ -315,6 +242,9 @@ struct zebra_session {
 #endif
     int  shadow_enable;
 
+    int m_staticrank;
+    int m_segment_indexing;
+
     zint records_inserted;
     zint records_updated;
     zint records_deleted;
@@ -333,23 +263,15 @@ struct zebra_session {
     int m_explain_database;
     int m_flag_rw;
     int m_file_verbose_limit;
-};
 
-struct rank_control {
-    char *name;
-    void *(*create)(ZebraHandle zh);
-    void (*destroy)(struct zebra_register *reg, void *class_handle);
-    void *(*begin)(struct zebra_register *reg, void *class_handle, RSET rset);
-    /* ### Could add parameters to begin:
-     * char *index;    // author, title, etc.
-     * int dbsize;     // number of records in database
-     * int rssize;     // number of records in result set (estimate?)
-     */
-    void (*end)(struct zebra_register *reg, void *set_handle);
-    int (*calc)(void *set_handle, zint sysno);
-    void (*add)(void *set_handle, int seqno, int term_index);
+    void *store_data_buf;
+    size_t store_data_size;
+    NMEM nmem_error;
+
+    struct zebra_limit *m_limit;
 };
 
+
 struct term_set_entry {
     char *term;
     struct term_set_entry *next;
@@ -360,47 +282,57 @@ struct term_set_list {
     struct term_set_entry *last;
 };
 
-RSET rpn_search (ZebraHandle zh, NMEM mem, NMEM rset_nmem,
-                Z_RPNQuery *rpn, int num_bases, char **basenames, 
-                const char *setname, ZebraSet sset);
-
 
-void rpn_scan (ZebraHandle zh, ODR stream, Z_AttributesPlusTerm *zapt,
-              oid_value attributeset,
-              int num_bases, char **basenames,
-              int *position, int *num_entries, ZebraScanEntry **list,
-              int *is_partial, RSET limit_set, int return_zero);
-
-RSET rset_trunc (ZebraHandle zh, ISAMS_P *isam_p, int no,
-                const char *term, int length_term, const char *flags,
-                 int preserve_position, int term_type, NMEM rset_nmem,
-                 const struct key_control *kctrl);
-
-void resultSetAddTerm (ZebraHandle zh, ZebraSet s, int reg_type,
-                      const char *db, int set,
-                      int use, const char *term);
+void zebra_limit_destroy(struct zebra_limit *zl);
+struct zebra_limit *zebra_limit_create(int exclude_flag, zint *ids);
+void zebra_limit_for_rset(struct zebra_limit *zl,
+                         int (**filter_func)(const void *buf, void *data),
+                         void (**filter_destroy)(void *data),
+                         void **filter_data);
+
+struct rset_key_control *zebra_key_control_create(ZebraHandle zh);
+
+ZEBRA_RES rpn_search_top(ZebraHandle zh, Z_RPNStructure *zs,
+                        oid_value attributeSet, 
+                        NMEM stream, NMEM rset_nmem,
+                        Z_SortKeySpecList *sort_sequence,
+                        int num_bases, char **basenames,
+                        RSET *result_set);
+
+ZEBRA_RES rpn_scan (ZebraHandle zh, ODR stream, Z_AttributesPlusTerm *zapt,
+                   oid_value attributeset,
+                   int num_bases, char **basenames,
+                   int *position, int *num_entries, ZebraScanEntry **list,
+                   int *is_partial, RSET limit_set, int return_zero);
+
+RSET rset_trunc(ZebraHandle zh, ISAM_P *isam_p, int no,
+               const char *term, int length_term, const char *flags,
+               int preserve_position, int term_type, NMEM rset_nmem,
+               struct rset_key_control *kctrl, int scope,
+               struct ord_list *ol, int reg_type,
+               zint hits_limit, const char *term_ref_id);
+
+void resultSetAddTerm(ZebraHandle zh, ZebraSet s, int reg_type,
+                      const char *db, const char *index_name,
+                      const char *term);
 ZebraSet resultSetAdd (ZebraHandle zh, const char *name, int ov);
 ZebraSet resultSetGet (ZebraHandle zh, const char *name);
-ZebraSet resultSetAddRPN (ZebraHandle zh, NMEM m, Z_RPNQuery *rpn,
-                          int num_bases, char **basenames,
-                          const char *setname);
+ZEBRA_RES resultSetAddRPN (ZebraHandle zh, NMEM m, Z_RPNQuery *rpn,
+                    int num_bases, char **basenames,
+                    const char *setname);
 RSET resultSetRef (ZebraHandle zh, const char *resultSetId);
 void resultSetDestroy (ZebraHandle zh, int num_names, char **names,
                       int *statuses);
-
-
-ZebraPosSet zebraPosSetCreate (ZebraHandle zh, const char *name,
-                              int num, int *positions);
-void zebraPosSetDestroy (ZebraHandle zh, ZebraPosSet records, int num);
-
-void resultSetSort (ZebraHandle zh, NMEM nmem,
-                   int num_input_setnames, const char **input_setnames,
-                   const char *output_setname,
-                   Z_SortKeySpecList *sort_sequence, int *sort_status);
-void resultSetSortSingle (ZebraHandle zh, NMEM nmem,
-                         ZebraSet sset, RSET rset,
-                         Z_SortKeySpecList *sort_sequence, int *sort_status);
-void resultSetRank (ZebraHandle zh, ZebraSet zebraSet, RSET rset);
+ZEBRA_RES resultSetSort (ZebraHandle zh, NMEM nmem,
+                        int num_input_setnames, const char **input_setnames,
+                        const char *output_setname,
+                        Z_SortKeySpecList *sort_sequence, int *sort_status);
+ZEBRA_RES resultSetSortSingle (ZebraHandle zh, NMEM nmem,
+                              ZebraSet sset, RSET rset,
+                              Z_SortKeySpecList *sort_sequence,
+                              int *sort_status);
+ZEBRA_RES resultSetRank (ZebraHandle zh, ZebraSet zebraSet, RSET rset,
+                        NMEM nmem);
 void resultSetInvalidate (ZebraHandle zh);
 
 int zebra_server_lock_init (ZebraService zh);
@@ -409,42 +341,40 @@ int zebra_server_lock (ZebraService zh, int lockCommit);
 void zebra_server_unlock (ZebraService zh, int commitPhase);
 int zebra_server_lock_get_state (ZebraService zh, time_t *timep);
 
-typedef struct attent
-{
-    int attset_ordinal;
-    data1_local_attribute *local_attributes;
-} attent;
-
-void zebraRankInstall (struct zebra_register *reg, struct rank_control *ctrl);
-ZebraRankClass zebraRankLookup (ZebraHandle zh, const char *name);
-void zebraRankDestroy (struct zebra_register *reg);
-
-int att_getentbyatt(ZebraHandle zh, attent *res, oid_value set, int att,
-               const char *sattr);
-
-extern struct rank_control *rank1_class;
-extern struct rank_control *rankzv_class;
-extern struct rank_control *rankliv_class;
-
-int zebra_record_fetch (ZebraHandle zh, SYSNO sysno, int score, ODR stream,
+int zebra_record_fetch (ZebraHandle zh, SYSNO sysno, int score, 
+                       zebra_snippets *hit_snippet, ODR stream,
                        oid_value input_format, Z_RecordComposition *comp,
                        oid_value *output_format, char **rec_bufp,
-                       int *rec_lenp, char **basenamep);
+                       int *rec_lenp, char **basenamep,
+                       char **addinfo);
 
 void extract_get_fname_tmp (ZebraHandle zh, char *fname, int no);
 
 void zebra_index_merge (ZebraHandle zh);
 
-int buffer_extract_record (ZebraHandle zh, 
-                          const char *buf, size_t buf_size,
-                          int delete_flag,
-                          int test_mode, 
-                          const char *recordType,
-                          SYSNO *sysno,
-                          const char *match_criteria,
-                          const char *fname,
-                          int force_update,
-                          int allow_update);
+ZEBRA_RES zebra_buffer_extract_record(ZebraHandle zh, 
+                                      const char *buf, size_t buf_size,
+                                      int delete_flag,
+                                      int test_mode, 
+                                      const char *recordType,
+                                      SYSNO *sysno,
+                                      const char *match_criteria,
+                                      const char *fname,
+                                      int force_update,
+                                      int allow_update);
+
+ZEBRA_RES zebra_extract_record_stream(ZebraHandle zh, 
+                                      struct ZebraRecStream *stream,
+                                      int delete_flag,
+                                      int test_mode, 
+                                      const char *recordType,
+                                      SYSNO *sysno,
+                                      const char *match_criteria,
+                                      const char *fname,
+                                      int force_update,
+                                      int allow_update,
+                                      RecType recType,
+                                      void *recTypeClientData);
 
 #if 0
 int extract_rec_in_mem (ZebraHandle zh, const char *recordType,
@@ -456,36 +386,24 @@ int extract_rec_in_mem (ZebraHandle zh, const char *recordType,
 #endif
 void extract_flushWriteKeys (ZebraHandle zh, int final);
 
-struct zebra_fetch_control {
-    off_t offset_end;
-    off_t record_offset;
-    off_t record_int_pos;
-    const char *record_int_buf;
-    int record_int_len;
-    int fd;
-};
+YAZ_EXPORT void zebra_create_stream_mem(struct ZebraRecStream *stream,
+                                        const char *buf, size_t sz);
+YAZ_EXPORT void zebra_create_stream_fd(struct ZebraRecStream *stream,
+                                       int fd, off_t start_offset);
+void print_rec_keys(ZebraHandle zh, zebra_rec_keys_t reckeys);
 
-int zebra_record_ext_read (void *fh, char *buf, size_t count);
-off_t zebra_record_ext_seek (void *fh, off_t offset);
-off_t zebra_record_ext_tell (void *fh);
-off_t zebra_record_int_seek (void *fh, off_t offset);
-off_t zebra_record_int_tell (void *fh);
-int zebra_record_int_read (void *fh, char *buf, size_t count);
-void zebra_record_int_end (void *fh, off_t offset);
+ZEBRA_RES zebra_snippets_rec_keys(ZebraHandle zh, zebra_rec_keys_t reckeys,
+                                 zebra_snippets *snippets);
+ZEBRA_RES zebra_snippets_hit_vector(ZebraHandle zh, const char *setname,
+                                   zint sysno, zebra_snippets *snippets);
 
-void extract_flushRecordKeys (ZebraHandle zh, SYSNO sysno,
-                              int cmd, struct recKeys *reckeys);
-void extract_flushSortKeys (ZebraHandle zh, SYSNO sysno,
-                            int cmd, struct sortKeys *skp);
-void extract_schema_add (struct recExtractCtrl *p, Odr_oid *oid);
-void extract_token_add (RecWord *p);
-int explain_extract (void *handle, Record rec, data1_node *n);
+ZEBRA_RES zebra_extract_explain(void *handle, Record rec, data1_node *n);
 
-int fileExtract (ZebraHandle zh, SYSNO *sysno, const char *fname,
-                int deleteFlag);
+ZEBRA_RES zebra_extract_file(ZebraHandle zh, SYSNO *sysno, const char *fname,
+                            int deleteFlag);
 
-int zebra_begin_read (ZebraHandle zh);
-int zebra_end_read (ZebraHandle zh);
+ZEBRA_RES zebra_begin_read (ZebraHandle zh);
+ZEBRA_RES zebra_end_read (ZebraHandle zh);
 
 int zebra_file_stat (const char *file_name, struct stat *buf,
                      int follow_links);
@@ -498,6 +416,54 @@ void iscz1_stop (void *p);
 void iscz1_decode (void *vp, char **dst, const char **src);
 void iscz1_encode (void *vp, char **dst, const char **src);
 
+Dict dict_open_res (BFiles bfs, const char *name, int cache, int rw,
+                   int compact_flag, Res res);
+
+void zebra_setError(ZebraHandle zh, int code, const char *addinfo);
+void zebra_setError_zint(ZebraHandle zh, int code, zint i);
+
+void zebra_term_untrans_iconv(ZebraHandle zh, NMEM stream, int reg_type,
+                             char **dst, const char *src);
+
+ZEBRA_RES zebra_get_hit_vector(ZebraHandle zh, const char *setname, zint sysno);
+
+void zebra_term_untrans(ZebraHandle zh, int reg_type,
+                       char *dst, const char *src);
+
+ZEBRA_RES zebra_apt_get_ord(ZebraHandle zh,
+                            Z_AttributesPlusTerm *zapt,
+                            int index_type,
+                            const char *xpath_use,
+                            oid_value curAttributeSet,
+                            int *ord);
+
+ZEBRA_RES zebra_attr_list_get_ord(ZebraHandle zh,
+                                  Z_AttributeList *attr_list,
+                                  zinfo_index_category_t cat,
+                                  int index_type,
+                                  oid_value curAttributeSet,
+                                  int *ord);
+
+ZEBRA_RES zebra_sort_get_ord(ZebraHandle zh,
+                             Z_SortAttributes *sortAttributes,
+                             int *ord,
+                             int *numerical);
+
+ZEBRA_RES zebra_update_file_match(ZebraHandle zh, const char *path);
+ZEBRA_RES zebra_update_from_path(ZebraHandle zh, const char *path);
+ZEBRA_RES zebra_delete_from_path(ZebraHandle zh, const char *path);
+
+#define FIRST_IN_FIELD_STR "\001^"
+#define FIRST_IN_FIELD_LEN 2
+
 YAZ_END_CDECL
 
 #endif
+/*
+ * Local variables:
+ * c-basic-offset: 4
+ * indent-tabs-mode: nil
+ * End:
+ * vim: shiftwidth=4 tabstop=8 expandtab
+ */
+