Libraries Manual Innovation Release

Suggest edits

The previous Griptape-based Gen AI Builder has been removed from EDB AI Factory releases 1.3.6 and beyond, and Innovation Release 2026.3 and beyond. New functionality built around LangFlow is now available as a replacement. More details…

Libraries provide the foundational data management infrastructure for knowledge-driven AI applications within Gen AI Builder. They systematically organize, process, and optimize diverse data sources to support retrieval-augmented generation workflows that power intelligent assistants and automated systems.

Architectural Function

Libraries serve as the data orchestration layer between raw information sources and intelligent applications. They transform unstructured content from diverse origins into searchable, semantically-indexed knowledge resources that assistants and other AI components can reliably access for accurate information retrieval.

Data Processing Pipeline

The library system implements a structured data transformation workflow:

Data Sources → Content Ingestion → Processing & Indexing → Knowledge Bases → Retrieval Interface

This architecture ensures consistent data quality while maintaining operational efficiency across diverse content types and organizational requirements.

System Integration

Gen AI Builder Components

Knowledge Bases: Receive processed content with semantic indexing and metadata enrichment
Retrievers: Execute optimized search operations across library-managed content
Assistants: Access curated knowledge through standardized retrieval interfaces
Data Lakes: Integrate with large-scale data processing workflows via AI Accelerator Pipelines

AI Factory Infrastructure

Vector Engine: Provides high-performance semantic search capabilities within Postgres infrastructure
AI Accelerator Pipelines: Enables automated content processing and knowledge base maintenance
Model Serving: Supplies embedding models for semantic indexing operations

Core Components

Data Source Integration

Libraries connect to diverse data repositories through standardized interfaces that abstract source-specific complexity while maintaining comprehensive content access capabilities.

Supported Source Types

Source Type	Integration Method	Content Processing
Web Pages	URL crawling and scraping	HTML parsing with content extraction
Document Repositories	API integration or file system access	Format-specific processing (PDF, DOCX, etc.)
Database Systems	Direct database connectivity	Query-based content extraction
Cloud Storage	Object storage APIs (S3, GCS, Azure)	Batch processing with metadata preservation
Collaborative Platforms	API-based integration (Confluence, SharePoint)	Structured content extraction with hierarchy

Content Processing Framework

Data ingestion implements systematic content transformation procedures:

Format Detection: Automatic identification of content types and structures
Content Extraction: Format-specific parsing that preserves semantic meaning
Metadata Enrichment: Addition of contextual information including source attribution, timestamps, and classification tags
Quality Validation: Content accuracy verification and completeness checking
Semantic Indexing: Vector embedding generation for similarity-based search operations

Knowledge Base Architecture

Knowledge bases provide the operational interface between processed library content and retrieval systems. They implement optimized storage and indexing strategies that balance search performance with resource efficiency.

Storage Optimization

Vector embeddings stored within Postgres infrastructure using Vector Engine capabilities
Content chunking strategies optimized for retrieval accuracy and model context windows
Hierarchical indexing that preserves document structure and relationships
Metadata indexing for filtered search operations and access control enforcement

Search Capabilities

Semantic similarity search using vector embeddings
Hybrid search combining vector similarity with keyword matching
Filtered search supporting metadata-based content selection
Reranking algorithms that optimize result relevance for specific query types

Retrieval Interface

Retrievers define the operational parameters for knowledge access, providing configurable search strategies that optimize for different application requirements and content characteristics.

Configuration Parameters

Parameter	Purpose	Typical Range
Similarity Threshold	Controls result relevance filtering	0.6 - 0.9
Result Limit (Top-K)	Defines maximum results returned	3 - 20
Context Window	Manages content length for language models	1000 - 8000 tokens
Reranking Strategy	Optimizes result ordering for specific use cases	None, semantic, hybrid

Advanced Retrieval Strategies

Multi-query expansion for comprehensive information coverage
Contextual filtering based on user permissions and data classification
Dynamic threshold adjustment based on query characteristics
Citation and provenance tracking for source attribution

Implementation Patterns

Enterprise Knowledge Management

Organizations implement comprehensive knowledge management systems that unify information across departments and business functions through centralized library infrastructure.

Architecture Characteristics

Multi-source integration across diverse organizational systems
Role-based access control aligned with organizational hierarchies
Automated content updates synchronized with source system changes
Compliance frameworks ensuring regulatory requirement adherence

Typical Implementation

# Library Configuration Example
library_config:
  name: "enterprise_knowledge"
  data_sources:
    - type: "confluence"
      connection: "corporate_confluence"
      spaces: ["hr_policies", "it_procedures", "finance_guidelines"]
    - type: "sharepoint"
      connection: "corporate_sharepoint"
      sites: ["project_documentation", "training_materials"]
  processing:
    chunk_size: 1000
    overlap: 100
    embedding_model: "organizational_embeddings"
  knowledge_base:
    name: "enterprise_kb"
    search_strategy: "hybrid"
    access_control: "rbac_enabled"

Customer Support Systems

Customer-facing applications leverage libraries to provide consistent, accurate information delivery through conversational interfaces while maintaining comprehensive coverage of product and policy information.

Design Considerations

Content accuracy verification procedures for customer-facing information
Update synchronization ensuring consistency between internal and external documentation
Performance optimization for high-concurrency customer interactions
Integration with existing support systems and escalation workflows

Research and Development Support

Technical teams utilize libraries to aggregate research materials, technical documentation, and project information for enhanced productivity and knowledge sharing across development initiatives.

Specialized Features

Technical document processing optimized for code examples and diagrams
Version control integration for tracking document evolution
Cross-reference linking that maintains relationships between related materials
Export capabilities for integration with development tools and workflows

Operational Management

Content Lifecycle

Ingestion Procedures Libraries implement systematic content ingestion that ensures data quality while maintaining operational efficiency:

Source Monitoring: Automated detection of content changes and additions
Processing Queues: Managed processing workflows that handle varying content volumes
Quality Assurance: Validation procedures ensuring content accuracy and completeness
Index Updates: Incremental updates that maintain search performance during content changes

Maintenance Operations

Regular content validation ensuring continued accuracy and relevance
Performance optimization including index restructuring and storage optimization
Security updates maintaining access control accuracy and compliance requirements
Backup procedures preserving both content and configuration information

Performance Optimization

Search Performance Libraries implement multiple optimization strategies that ensure responsive search operations across large content collections:

Index Optimization: Regular index maintenance that optimizes search performance
Caching Strategies: Intelligent caching of frequently accessed content and search results
Resource Allocation: Dynamic resource scaling based on usage patterns and performance requirements
Query Optimization: Automatic query enhancement that improves search accuracy and efficiency

Scalability Management

Horizontal scaling capabilities that support growing content volumes and user bases
Load balancing across processing resources ensuring consistent performance
Storage optimization strategies that balance performance with cost efficiency
Monitoring frameworks that provide visibility into system performance and capacity utilization

Configuration Framework

Data Source Configuration

Data source connections require careful configuration that balances comprehensive content access with security requirements and operational efficiency.

Authentication and Authorization

# Example Data Source Configuration
data_source:
  type: "confluence"
  connection:
    base_url: "https://company.atlassian.net"
    authentication:
      method: "api_token"
      credentials: "service_account"
    access_scope:
      spaces: ["public_docs", "team_docs"]
      permissions: "read_only"

Content Selection

Filter configuration that defines content inclusion criteria
Update frequency settings that balance freshness with resource consumption
Processing parameters optimized for specific content types and organizational requirements

Knowledge Base Configuration

Knowledge base setup requires systematic configuration that optimizes search performance while maintaining content quality and accessibility.

Processing Parameters

Chunking strategies that balance context preservation with search granularity
Embedding model selection aligned with organizational content characteristics
Metadata extraction rules that capture relevant contextual information
Quality validation thresholds that ensure content accuracy and completeness

Retrieval Configuration

Retriever setup defines the operational characteristics of knowledge access, requiring careful tuning that balances search accuracy with performance requirements.

Search Strategy Configuration

# Retriever Configuration Example
retriever_config:
  name: "enterprise_retriever"
  search_strategy: "hybrid"
  parameters:
    similarity_threshold: 0.75
    max_results: 10
    reranking: "enabled"
    context_optimization: "automatic"
  access_control:
    user_filtering: "enabled"
    content_classification: "enforced"

Quality Assurance

Content Validation

Libraries implement comprehensive validation procedures that ensure content accuracy and completeness across the entire data processing pipeline.

Validation Framework

Source content accuracy verification through automated and manual review processes
Processing quality assessment ensuring semantic meaning preservation during transformation
Search result validation confirming retrieval accuracy and relevance
User feedback integration that enables continuous quality improvement

Performance Monitoring

Operational Metrics

Search response times and accuracy measurements
Content processing throughput and error rates
System resource utilization and capacity planning metrics
User satisfaction and system effectiveness measurements

Continuous Improvement

Performance trend analysis that identifies optimization opportunities
Content quality assessment enabling targeted improvements
User behavior analysis informing search strategy refinements
System optimization procedures that maintain peak performance

Security and Compliance

Access Control

Libraries implement comprehensive access control frameworks that ensure appropriate information exposure while maintaining operational efficiency and user experience quality.

Security Framework

User authentication integration with organizational identity systems
Content-level access control respecting organizational data classification
Audit logging providing comprehensive visibility into information access patterns
Privacy controls ensuring appropriate handling of sensitive information

Compliance Integration

Regulatory Compliance

Data retention policies aligned with organizational and regulatory requirements
Privacy protection mechanisms ensuring appropriate personal information handling
Audit trail maintenance supporting compliance verification and reporting
Data lineage tracking providing comprehensive visibility into information processing

Getting Started

Prerequisites

Library implementation requires foundational infrastructure including Gen AI Builder installation, appropriate compute resources for content processing, and network connectivity to organizational data sources.

Initial Configuration

Data Source Assessment: Evaluate available content sources and access requirements
Processing Configuration: Define content processing parameters based on organizational needs
Knowledge Base Setup: Configure search strategies and performance optimization
Retrieval Testing: Validate search accuracy and performance characteristics

Implementation Resources

Configuration Guides

Data Source Configuration: Comprehensive source integration procedures
Knowledge Base Setup: Search optimization and performance tuning
Retriever Configuration: Search strategy definition and parameter optimization

Integration Documentation

AI Factory Integration: Ecosystem connectivity patterns
Hybrid Manager Deployment: Infrastructure integration procedures

SDK reference

Libraries provide the foundational data management infrastructure that enables knowledge-driven AI applications through systematic content organization, processing optimization, and intelligent retrieval capabilities within the Gen AI Builder ecosystem.

← Prev

Data Lake Reference Manual

↑ Up

Gen AI Builder