documentation/reference/operators_8h_source.html

//   OpenNN: Open Neural Networks Library

//   www.opennn.net

//

//   O P E R A T O R S   H E A D E R

//

//   Artificial Intelligence Techniques SL

//   artelnics@artelnics.com


#pragma once


#include "tensor_utilities.h"

#include "enum_map.h"

#include "forward_propagation.h"

#include "back_propagation.h"


namespace opennn

{


class Json;

class JsonWriter;


#ifdef OPENNN_HAS_CUDA

struct LtMatmulPlan;

#endif


struct Operator

{

    virtual ~Operator() = default;


    virtual vector<TensorSpec> parameter_specs() const { return {}; }


    virtual vector<TensorSpec> state_specs()     const { return {}; }


    virtual void link_parameters(span<const TensorView>) {}


    virtual void link_gradients (span<const TensorView>) {}


    virtual void link_states    (span<const TensorView>) {}


    virtual void set_parameters_random() {}


    virtual void set_parameters_glorot() {}


    virtual void forward_propagate(ForwardPropagation&, size_t, bool) noexcept {}


    virtual void back_propagate(ForwardPropagation&, BackPropagation&, size_t) const noexcept {}


    virtual void to_JSON  (JsonWriter&) const {}


    virtual void from_JSON(const Json*)       {}


    virtual void load_state_from_JSON(const Json*) {}


    virtual void destroy_cuda() {}


    vector<size_t> input_slots = {0};

    vector<size_t> output_slots = {1};


    vector<size_t> input_delta_slots = {1};

    vector<size_t> output_delta_slots = {0};


    TensorView& get_input(ForwardPropagation& fp, size_t layer, size_t i = 0) const noexcept

    {

        return fp.views[layer][input_slots[i]][0];

    }


    vector<TensorView>& get_inputs(ForwardPropagation& fp, size_t layer, size_t i = 0) const noexcept

    {

        return fp.views[layer][input_slots[i]];

    }


    TensorView& get_output(ForwardPropagation& fp, size_t layer, size_t i = 0) const noexcept

    {

        return fp.views[layer][output_slots[i]][0];

    }


    TensorView& get_output_delta(BackPropagation& bp, size_t layer, size_t i = 0) const noexcept

    {

        return bp.delta_views[layer][output_delta_slots[i]];

    }


    TensorView& get_input_delta(BackPropagation& bp, size_t layer, size_t i = 0) const noexcept

    {

        return bp.delta_views[layer][input_delta_slots[i]];

    }


};


struct AddOp : Operator

{

    void forward_propagate(ForwardPropagation& fp, size_t layer, bool is_training) noexcept override;

    void back_propagate(ForwardPropagation& fp, BackPropagation& bp, size_t layer) const noexcept override;


private:

    void check(const vector<TensorView>& inputs, const TensorView& output) const;

};


struct DropoutOp : Operator

{

    float rate = 0.0f;


    Buffer mask;


    vector<size_t> save_slots;


    bool active() const { return rate > 0.0f; }


    void set_rate(float new_rate);


    void forward_propagate(ForwardPropagation& fp, size_t layer, bool is_training) noexcept override;

    void back_propagate(ForwardPropagation& fp, BackPropagation& bp, size_t layer) const noexcept override;


    void apply_cpu(TensorView& output);


    void apply_gpu(TensorView& output);


    void apply_delta(TensorView& delta) const;


    void to_JSON(JsonWriter& w) const override;

    void from_JSON(const Json* parent) override;


    void destroy_cuda() override;


    ~DropoutOp() override { destroy_cuda(); }


    DropoutOp() = default;

    DropoutOp(DropoutOp&&) noexcept = default;

    DropoutOp& operator=(DropoutOp&&) noexcept = default;


private:

    void apply_delta_cpu(TensorView& delta) const;

    void apply_delta_gpu(TensorView& delta) const;


    void ensure_mask(Index n);

};


struct ActivationOp : Operator

{

    enum class Function { Identity, Sigmoid, Tanh, ReLU, Softmax };


    static const EnumMap<Function>& map();


    static Function from_string(const string& name);


    static const string& to_string(Function function);


    static cudnnActivationMode_t to_cudnn_mode(Function function);


    Function function = Function::Identity;


    cudnnActivationDescriptor_t descriptor = nullptr;


    // Backward override: when non-empty, back_propagate reads the activation's

    // output from this slot instead of output_slots[0]. Used when a downstream

    // operator (e.g. DropoutOp) overwrites the activation's output in place.

    vector<size_t> output_slots_backward;


    void set_function(Function new_function);


    void set_function(const string& name);


    void forward_propagate(ForwardPropagation& fp, size_t layer, bool is_training) noexcept override;

    void back_propagate(ForwardPropagation& fp, BackPropagation& bp, size_t layer) const noexcept override;


    void apply_cpu(TensorView& output);


    void apply_gpu(TensorView& output);


    void apply_delta(const TensorView& outputs, TensorView& delta) const;


    void to_JSON(JsonWriter& w) const override;

    void from_JSON(const Json* parent) override;


    void destroy_cuda() override;


    ~ActivationOp() override { destroy_cuda(); }


    ActivationOp() = default;

    ActivationOp(const ActivationOp&) = delete;

    ActivationOp& operator=(const ActivationOp&) = delete;


private:

    void apply_delta_cpu(const TensorView& outputs, TensorView& delta) const;

    void apply_delta_gpu(const TensorView& outputs, TensorView& delta) const;

};


struct CombinationOp : Operator

{

    Index input_features  = 0;

    Index output_features = 0;

    Type  weight_type     = Type::FP32;


    TensorView weights;

    TensorView bias;


    TensorView weight_gradient;

    TensorView bias_gradient;


    void set(Index new_input_features, Index new_output_features, Type new_weight_type = Type::FP32);


    vector<TensorSpec> parameter_specs() const override;

    void link_parameters(span<const TensorView> views) override;

    void link_gradients (span<const TensorView> views) override;


    void set_parameters_random() override;

    void set_parameters_glorot() override;


    void forward_propagate(ForwardPropagation& fp, size_t layer, bool is_training) noexcept override;

    void back_propagate(ForwardPropagation& fp, BackPropagation& bp, size_t layer) const noexcept override;


    void apply(const TensorView& input, TensorView& output, cublasLtEpilogue_t epilogue = CUBLASLT_EPILOGUE_BIAS);


    void apply_delta(const TensorView& output_delta,

                     const TensorView& input,

                     TensorView& input_delta,

                     bool accumulate_input_delta = false) const;


private:

    void apply_cpu(const TensorView& input, TensorView& output, cublasLtEpilogue_t epilogue);

    void apply_gpu(const TensorView& input, TensorView& output, cublasLtEpilogue_t epilogue);


    void apply_delta_cpu(const TensorView& output_delta, const TensorView& input,

                         TensorView& input_delta, bool accumulate_input_delta) const;

    void apply_delta_gpu(const TensorView& output_delta, const TensorView& input,

                         TensorView& input_delta, bool accumulate_input_delta) const;

};


struct CombinationReluOp : Operator

{

    CombinationOp combination;

    ActivationOp  activation;


    void set(Index input_features, Index output_features, Type weight_type = Type::FP32);


    vector<TensorSpec> parameter_specs() const override { return combination.parameter_specs(); }

    void link_parameters(span<const TensorView> views) override { combination.link_parameters(views); }

    void link_gradients (span<const TensorView> views) override { combination.link_gradients(views); }


    void set_parameters_random() override { combination.set_parameters_random(); }

    void set_parameters_glorot() override { combination.set_parameters_glorot(); }


    void forward_propagate(ForwardPropagation& fp, size_t layer, bool is_training) noexcept override;

    void back_propagate(ForwardPropagation& fp, BackPropagation& bp, size_t layer) const noexcept override;

};


struct BatchNormOp : Operator

{

    Index features = 0;

    float momentum = 0.1f;


    TensorView gamma;

    TensorView beta;

    TensorView running_mean;

    TensorView running_variance;


    TensorView gamma_gradient;

    TensorView beta_gradient;


    bool active() const { return features > 0; }


    void set(Index new_features, float new_momentum = 0.1f);


    vector<TensorSpec> parameter_specs() const override;

    vector<TensorSpec> state_specs()     const override;

    void link_parameters(span<const TensorView> views) override;

    void link_gradients (span<const TensorView> views) override;

    void link_states    (span<const TensorView> views) override;


    void set_parameters_random() override { init_defaults(); }

    void set_parameters_glorot() override { init_defaults(); }


    void init_defaults();


    // Slot convention (set by hosting layer):

    //   input_slots  = {input}

    //   output_slots = {output, mean, inverse_variance}

    void forward_propagate(ForwardPropagation& fp, size_t layer, bool is_training) noexcept override;

    void back_propagate(ForwardPropagation& fp, BackPropagation& bp, size_t layer) const noexcept override;


    void apply_delta(const TensorView& input,

                     const TensorView& mean,

                     const TensorView& inverse_variance,

                     TensorView& delta) const;


    void update_inference_cache();


    void invalidate_inference_cache() { inference_cache_dirty = true; }


    void to_JSON(JsonWriter& w) const override;

    void from_JSON(const Json* parent) override;

    void load_state_from_JSON(const Json* parent) override;


private:

    VectorR inference_scale;

    VectorR inference_shift;

    bool    inference_cache_dirty = true;


    mutable VectorR delta_scale_scratch;


    void apply_inference_cpu(const TensorView& input, TensorView& output);

    void apply_inference_gpu(const TensorView& input, TensorView& output);


    void apply_training_cpu (const TensorView& input,

                             TensorView& mean, TensorView& inverse_variance,

                             TensorView& output);

    void apply_training_gpu (const TensorView& input,

                             TensorView& mean, TensorView& inverse_variance,

                             TensorView& output);


    void apply_delta_cpu(const TensorView& input,

                         const TensorView& mean,

                         const TensorView& inverse_variance,

                         TensorView& delta) const;

    void apply_delta_gpu(const TensorView& input,

                         const TensorView& mean,

                         const TensorView& inverse_variance,

                         TensorView& delta) const;

};


struct ConvolutionOp : Operator

{

    Index input_height = 0;

    Index input_width = 0;


    Index kernels_number = 0;

    Index kernel_height = 0;

    Index kernel_width = 0;

    Index kernel_channels = 0;


    Index padding_height = 0;

    Index padding_width = 0;


    Type compute_dtype = Type::FP32;


    TensorView weights;

    TensorView bias;


    TensorView weight_gradient;

    TensorView bias_gradient;


#ifdef OPENNN_HAS_CUDA

    cudnnFilterDescriptor_t      kernel_descriptor      = nullptr;

    cudnnConvolutionDescriptor_t convolution_descriptor = nullptr;


    cudnnConvolutionFwdAlgo_t       algorithm_forward = CUDNN_CONVOLUTION_FWD_ALGO_IMPLICIT_GEMM;

    cudnnConvolutionBwdDataAlgo_t   algorithm_data    = CUDNN_CONVOLUTION_BWD_DATA_ALGO_0;

    cudnnConvolutionBwdFilterAlgo_t algorithm_filter  = CUDNN_CONVOLUTION_BWD_FILTER_ALGO_0;


    size_t cudnn_workspace_size_ = 0;


    // High-water-mark of the batch size for which the cuDNN plan

    // (algorithms + workspaces) is currently valid. Lazy-initialized on the

    // first apply_gpu and re-tuned only if a larger batch arrives (e.g. test

    // batch larger than training).

    Index planned_batch_size = 0;

#endif


    void set(Index input_h, Index input_w,

             Index kernels_n, Index kernel_h, Index kernel_w, Index kernel_c,

             Index row_stride, Index column_stride,

             Index padding_h, Index padding_w,

             Type compute_dtype);


    vector<TensorSpec> parameter_specs() const override;

    void link_parameters(span<const TensorView> views) override;

    void link_gradients (span<const TensorView> views) override;


    void set_parameters_random() override;

    void set_parameters_glorot() override;


    void destroy_cuda() override;


    ~ConvolutionOp() override { destroy_cuda(); }


    ConvolutionOp() = default;

    ConvolutionOp(const ConvolutionOp&) = delete;

    ConvolutionOp& operator=(const ConvolutionOp&) = delete;


    void forward_propagate(ForwardPropagation& fp, size_t layer, bool is_training) noexcept override;

    void back_propagate(ForwardPropagation& fp, BackPropagation& bp, size_t layer) const noexcept override;


    void apply_cpu(const TensorView& input, TensorView& output);


    void apply_gpu(const TensorView& input, TensorView& output, cudnnActivationDescriptor_t fused_activation = nullptr);


    void apply_delta(const TensorView& input,

                     const TensorView& output_delta,

                     TensorView& input_delta) const;


private:


    void apply_delta_cpu(const TensorView& input, const TensorView& output_delta,

                         TensorView& input_delta) const;

    void apply_delta_gpu(const TensorView& input, const TensorView& output_delta,

                         TensorView& input_delta) const;


    void plan_convolution_algorithms(const TensorView& input, const TensorView& output);


    array<pair<Index, Index>, 4> nhwc_padding() const;

};


struct ConvolutionReluOp : Operator

{

    ConvolutionOp convolution;

    ActivationOp  activation;


    void set(Index input_h, Index input_w,

             Index kernels_n, Index kernel_h, Index kernel_w, Index kernel_c,

             Index row_stride, Index column_stride,

             Index padding_h, Index padding_w,

             Type compute_dtype);


    vector<TensorSpec> parameter_specs() const override { return convolution.parameter_specs(); }

    void link_parameters(span<const TensorView> views) override { convolution.link_parameters(views); }

    void link_gradients (span<const TensorView> views) override { convolution.link_gradients(views); }


    void set_parameters_random() override { convolution.set_parameters_random(); }

    void set_parameters_glorot() override { convolution.set_parameters_glorot(); }


    void destroy_cuda() override { convolution.destroy_cuda(); activation.destroy_cuda(); }

    ~ConvolutionReluOp() override { destroy_cuda(); }


    ConvolutionReluOp() = default;

    ConvolutionReluOp(const ConvolutionReluOp&) = delete;

    ConvolutionReluOp& operator=(const ConvolutionReluOp&) = delete;


    void forward_propagate(ForwardPropagation& fp, size_t layer, bool is_training) noexcept override;

    void back_propagate(ForwardPropagation& fp, BackPropagation& bp, size_t layer) const noexcept override;

};


struct LayerNormOp : Operator

{

    Index sequence_length     = 0;

    Index embedding_dimension = 0;


    TensorView gamma;

    TensorView beta;


    TensorView gamma_gradient;

    TensorView beta_gradient;


    void set(Index sequence_length, Index embedding_dimension);


    vector<TensorSpec> parameter_specs() const override;

    void link_parameters(span<const TensorView> views) override;

    void link_gradients (span<const TensorView> views) override;


    void set_parameters_random() override { init_defaults(); }

    void set_parameters_glorot() override { init_defaults(); }


    void init_defaults();


    void forward_propagate(ForwardPropagation& fp, size_t layer, bool is_training) noexcept override;

    void back_propagate(ForwardPropagation& fp, BackPropagation& bp, size_t layer) const noexcept override;


private:

    void apply_cpu(const TensorView& input,

                   TensorView& means, TensorView& standard_deviations, TensorView& normalized,

                   TensorView& output);


    void apply_gpu(const TensorView& input,

                   TensorView& means, TensorView& standard_deviations,

                   TensorView& output);


    void apply_delta_cpu(const TensorView& output_delta,

                         const TensorView& standard_deviations,

                         const TensorView& normalized,

                         TensorView& input_delta) const;

    void apply_delta_gpu(const TensorView& input,

                         const TensorView& output_delta,

                         const TensorView& means, const TensorView& standard_deviations,

                         TensorView& input_delta) const;

};


struct MultiHeadProjectionOp : Operator

{

    CombinationOp combination;

    Index input_features = 0;

    Index heads_number = 0;

    Index head_dimension = 0;

    Type compute_dtype = Type::FP32;


    // Which view inside views[input_slots[0]] to read. 0 for query path, 1 for

    // source path; clamped to size()-1 so self-attention (single input view)

    // works regardless.

    size_t input_view_index = 0;


    // Slot holding the shared transpose-scratch buffer.

    vector<size_t> scratch_slots;


    // Backward configuration. Self vs cross-attention is detected per-call from

    // forward_views[input_slots[0]].size() (1 = self, 2 = cross). The two pairs

    // below select destination slot and accumulate flag for each mode.

    vector<size_t> input_delta_slots_self;

    vector<size_t> input_delta_slots_cross;

    bool accumulate_input_delta_self  = false;

    bool accumulate_input_delta_cross = false;


    void set(Index input_features, Index heads_number, Index head_dimension, Type compute_dtype);


    vector<TensorSpec> parameter_specs() const override { return combination.parameter_specs(); }

    void link_parameters(span<const TensorView> views) override { combination.link_parameters(views); }

    void link_gradients (span<const TensorView> views) override { combination.link_gradients(views); }


    void set_parameters_random() override { combination.set_parameters_random(); }

    void set_parameters_glorot() override { combination.set_parameters_glorot(); }


    void forward_propagate(ForwardPropagation& fp, size_t layer, bool is_training) noexcept override;

    void back_propagate(ForwardPropagation& fp, BackPropagation& bp, size_t layer) const noexcept override;


    void apply(const TensorView& input, TensorView& head_output, float* scratch);


    void apply_delta(const TensorView& head_delta,

                     const TensorView& input,

                     TensorView& input_delta,

                     bool accumulate,

                     float* scratch) const;

};


struct AttentionOp : Operator

{

    Index heads_number = 0;

    Index head_dimension = 0;

    Index query_sequence_length = 0;

    Index source_sequence_length = 0;

    bool  use_causal_mask = false;

    Type  compute_dtype = Type::FP32;


    MatrixR causal_mask;


    DropoutOp dropout;


    void set(Index heads_number, Index head_dimension,

             Index query_sequence_length, Index source_sequence_length,

             bool use_causal_mask, Type compute_dtype);


    void set_dropout_rate(float rate) { dropout.set_rate(rate); }


    vector<TensorSpec> forward_scratch_specs(Index batch_size) const;


    // Slot convention (set by hosting layer):

    //   input_slots  = {Query, Key, Value, Input}     (Input read via source_view_index)

    //   output_slots = {AttentionWeights, AttentionWeightsDropped}

    //   scratch_slots = {TransposeScratch}             (used as attention_out + mask_scratch)

    //   attention_output_slots = {ConcatenatedAttentionOutputs}  (backward-only: merged output for SDPA)

    //   output_delta_slots = {AttentionWeightDelta, InputQueryDelta, InputSourceDelta, ValueDelta}

    size_t source_view_index = 1;  // 1 = source path; clamped to size()-1 for self-attention


    vector<size_t> scratch_slots;

    vector<size_t> attention_output_slots;


    void forward_propagate(ForwardPropagation& fp, size_t layer, bool is_training) noexcept override;

    void back_propagate(ForwardPropagation& fp, BackPropagation& bp, size_t layer) const noexcept override;


    void apply(const TensorView& query,                    // {B, H, Q_seq, D}

               const TensorView& key,                      // {B, H, S_seq, D}

               const TensorView& value,                    // {B, H, S_seq, D}

               const TensorView& source_input,             // {B, S_seq, embed} for padding mask

               TensorView& attention_weights,              // {B, H, Q_seq, S_seq} on CPU; empty on GPU

               TensorView& attention_weights_dropped,      // CPU-only, optional

               TensorView& output,                         // {B, H, Q_seq, D}

               float* mask_scratch,

               bool is_training);


    void apply_delta(const TensorView& query,

                     const TensorView& key,

                     const TensorView& value,

                     const TensorView& attention_output,   // forward output O — only read by GPU SDPA

                     const TensorView& attention_weights,

                     const TensorView& attention_weights_dropped,

                     const TensorView& output_delta,        // {B, H, Q_seq, D}

                     TensorView& attention_weight_delta,    // CPU-only scratch; empty on GPU

                     TensorView& query_delta,

                     TensorView& key_delta,

                     TensorView& value_delta) const;


    void to_JSON(JsonWriter& w) const override;

    void from_JSON(const Json* parent) override;


    void destroy_cuda() override;


    AttentionOp();

    ~AttentionOp() override;

    AttentionOp(AttentionOp&&) noexcept;

    AttentionOp& operator=(AttentionOp&&) noexcept;

    AttentionOp(const AttentionOp&) = delete;

    AttentionOp& operator=(const AttentionOp&) = delete;


    struct SDPACache;


private:

    float scaling_factor() const;


    void apply_cpu(const TensorView& query,

                   const TensorView& key,

                   const TensorView& value,

                   const TensorView& source_input,

                   TensorView& attention_weights,

                   TensorView& attention_weights_dropped,

                   TensorView& output,

                   float* mask_scratch,

                   bool is_training);


    void apply_gpu(const TensorView& query,

                   const TensorView& key,

                   const TensorView& value,

                   const TensorView& source_input,

                   TensorView& attention_weights,

                   TensorView& attention_weights_dropped,

                   TensorView& output,

                   float* mask_scratch,

                   bool is_training);


    // Same signature as apply_delta(); CPU path ignores attention_output.

    void apply_delta_cpu(const TensorView& query,

                         const TensorView& key,

                         const TensorView& value,

                         const TensorView& attention_output,

                         const TensorView& attention_weights,

                         const TensorView& attention_weights_dropped,

                         const TensorView& output_delta,

                         TensorView& attention_weight_delta,

                         TensorView& query_delta,

                         TensorView& key_delta,

                         TensorView& value_delta) const;


    void apply_delta_gpu(const TensorView& query,

                         const TensorView& key,

                         const TensorView& value,

                         const TensorView& attention_output,

                         const TensorView& attention_weights,

                         const TensorView& attention_weights_dropped,

                         const TensorView& output_delta,

                         TensorView& attention_weight_delta,

                         TensorView& query_delta,

                         TensorView& key_delta,

                         TensorView& value_delta) const;


    void apply_delta_gpu_unfused(const TensorView& query,

                                 const TensorView& key,

                                 const TensorView& value,

                                 const TensorView& attention_weights,

                                 const TensorView& attention_weights_dropped,

                                 const TensorView& output_delta,

                                 TensorView& attention_weight_delta,

                                 TensorView& query_delta,

                                 TensorView& key_delta,

                                 TensorView& value_delta) const;


    static bool get_contiguous_source_lengths(const TensorView& source_input,

                                              vector<Index>& lengths,

                                              bool& has_padding);

    static void softmax_rows_prefix(float* matrix, Index rows, Index cols, Index length);

    static Index infer_attention_prefix_length(const TensorView& attention_weights,

                                               Index batch_index);


    // Common backbone for the unfused CPU and GPU paths. The softmax-backward

    // step differs (Eigen vs cuDNN) and is supplied as a callable.

    template<typename SoftmaxBwd>

    void apply_delta_unfused(const TensorView& query,

                              const TensorView& key,

                              const TensorView& value,

                              const TensorView& attention_weights,

                              const TensorView& attention_weights_dropped,

                              const TensorView& output_delta,

                              TensorView& attention_weight_delta,

                              TensorView& query_delta,

                              TensorView& key_delta,

                              TensorView& value_delta,

                              SoftmaxBwd&& softmax_bwd) const;


    mutable unique_ptr<SDPACache> sdpa_cache;


    // SDPA dropout RNG state. Forward advances `sdpa_dropout_offset`; backward

    // replays the previous step's offset via `sdpa_last_used_offset` so the

    // dropout mask is reproduced. Seed is fixed per AttentionOp instance.

    uint64_t sdpa_dropout_seed   = 0x9E3779B97F4A7C15ULL;

    uint64_t sdpa_dropout_offset = 0;

    mutable uint64_t sdpa_last_used_offset = 0;

};


// Forward = merge_heads; the layer hosts the shape configuration via set().


struct MergeOp : Operator

{

    Index heads_number = 0;

    Index query_sequence_length = 0;

    Index head_dimension = 0;

    Type  compute_dtype = Type::FP32;


    void set(Index heads_number, Index query_sequence_length, Index head_dimension, Type compute_dtype);


    void forward_propagate(ForwardPropagation& fp, size_t layer, bool is_training) noexcept override;


    // Note: writes the heads gradient back to the SAME forward slot it reads from in

    // forward (input_slots[0]). Buffer reuse for memory efficiency — the next backward

    // op (AttentionOp) consumes the heads gradient from that scratch slot.

    void back_propagate(ForwardPropagation& fp, BackPropagation& bp, size_t layer) const noexcept override;

};


struct PoolOp : Operator

{

    enum Method { Max, Average };


    Index input_height = 0;

    Index input_width = 0;

    Index input_channels = 0;


    Index pool_height = 1;

    Index pool_width = 1;

    Index row_stride = 1;

    Index column_stride = 1;

    Index padding_height = 0;

    Index padding_width = 0;


    Method method = Max;


#ifdef OPENNN_HAS_CUDA

    cudnnPoolingDescriptor_t pooling_descriptor = nullptr;

#endif


    void set(Index input_h, Index input_w, Index input_c,

             Index pool_h, Index pool_w,

             Index row_stride, Index column_stride,

             Index padding_h, Index padding_w,

             Method method);


    void destroy_cuda() override;


    ~PoolOp() override { destroy_cuda(); }


    PoolOp() = default;

    PoolOp(const PoolOp&) = delete;

    PoolOp& operator=(const PoolOp&) = delete;


    // Slot convention (set by Pooling layer in update_pool_operator):

    //   input_slots  = {Input}

    //   output_slots = {Output, MaximalIndices} for MaxPooling

    //   output_slots = {Output}                  for AveragePooling

    void forward_propagate(ForwardPropagation& fp, size_t layer, bool is_training) noexcept override;

    void back_propagate(ForwardPropagation& fp, BackPropagation& bp, size_t layer) const noexcept override;


private:

    void apply_cpu(const TensorView& input, TensorView& output, TensorView& maximal_indices, bool is_training);

    void apply_gpu(const TensorView& input, TensorView& output);


    void apply_delta_cpu(const TensorView& output_delta,

                         const TensorView& maximal_indices,

                         TensorView& input_delta) const;

    void apply_delta_gpu(const TensorView& input,

                         const TensorView& output,

                         const TensorView& output_delta,

                         TensorView& input_delta) const;

};


struct Pool3dOp : Operator

{

    enum Method { Max, Average };

    Method method = Max;


    // Slot convention (set by Pooling3d layer):

    //   input_slots  = {Input}

    //   output_slots = {Output, MaximalIndices}

    //   For AveragePooling, MaximalIndices is allocated empty (Shape{}).

    void forward_propagate(ForwardPropagation& fp, size_t layer, bool is_training) noexcept override;

    void back_propagate(ForwardPropagation& fp, BackPropagation& bp, size_t layer) const noexcept override;

};


struct EmbeddingLookupOp : Operator

{

    Index vocabulary_size     = 0;

    Index sequence_length     = 0;

    Index embedding_dimension = 0;


    bool  scale_embedding         = false;

    bool  add_positional_encoding = false;


    float embedding_scale = 1.0f;


    TensorView weights;

    TensorView positional_encoding;


    TensorView weight_gradient;


    void set(Index new_vocabulary_size, Index new_sequence_length, Index new_embedding_dimension);


    vector<TensorSpec> parameter_specs() const override;

    vector<TensorSpec> state_specs()     const override;

    void link_parameters(span<const TensorView> views) override;

    void link_gradients (span<const TensorView> views) override;

    void link_states    (span<const TensorView> views) override;


    void set_parameters_random() override;

    void set_parameters_glorot() override;


    void init_positional_encoding();


    void forward_propagate(ForwardPropagation& fp, size_t layer, bool is_training) noexcept override;

    void back_propagate(ForwardPropagation& fp, BackPropagation& bp, size_t layer) const noexcept override;


private:

    void apply_cpu(const TensorView& indices, TensorView& output);

    void apply_gpu(const TensorView& indices, TensorView& output);


    void apply_delta_cpu(const TensorView& indices, const TensorView& output_delta) const;

    void apply_delta_gpu(const TensorView& indices, const TensorView& output_delta) const;

};


struct FlatOp : Operator

{

    void forward_propagate(ForwardPropagation& fp, size_t layer, bool is_training) noexcept override;

    void back_propagate(ForwardPropagation& fp, BackPropagation& bp, size_t layer) const noexcept override;

};


struct BoundOp : Operator

{

    enum class Method { NoBounding, Bounding };


    Method method = Method::Bounding;


    TensorView lower;

    TensorView upper;


    void forward_propagate(ForwardPropagation& fp, size_t layer, bool is_training) noexcept override;

};


struct ScaleOp : Operator

{

    float min_range = -1.0f;

    float max_range = 1.0f;


    TensorView minimums;

    TensorView maximums;

    TensorView means;

    TensorView standard_deviations;

    TensorView scalers;


    void forward_propagate(ForwardPropagation& fp, size_t layer, bool is_training) noexcept override;

};


struct UnscaleOp : Operator

{

    float min_range = -1.0f;

    float max_range = 1.0f;


    TensorView minimums;

    TensorView maximums;

    TensorView means;

    TensorView standard_deviations;

    TensorView scalers;


    void forward_propagate(ForwardPropagation& fp, size_t layer, bool is_training) noexcept override;

};


}


// OpenNN: Open Neural Networks Library.

// Copyright(C) 2005-2026 Artificial Intelligence Techniques, SL.

// Licensed under the GNU Lesser General Public License v2.1 or later.

back_propagation.h

opennn::JsonWriter
Definition json.h:85

opennn::Json
Definition json.h:23

enum_map.h

forward_propagation.h

opennn
Definition adaptive_moment_estimation.h:14

opennn::mean
float mean(const VectorR &)
Arithmetic mean of a vector, ignoring NaNs.

opennn::array
Eigen::array< T, N > array
Definition tensor_utilities.h:471

opennn::maximal_indices
VectorI maximal_indices(const VectorR &, Index)
Indices of the n largest elements of a vector.

opennn::Type
Type
Numeric precision used for training or inference tensors.
Definition configuration.h:20

opennn::Type::FP32
@ FP32
Definition configuration.h:20

VectorR
Matrix< float, Dynamic, 1 > VectorR
Definition pch.h:181

cudnnConvolutionFwdAlgo_t
cudnnConvolutionFwdAlgo_t
Definition pch.h:103

CUDNN_CONVOLUTION_FWD_ALGO_IMPLICIT_GEMM
@ CUDNN_CONVOLUTION_FWD_ALGO_IMPLICIT_GEMM
Definition pch.h:103

cudnnFilterDescriptor_t
void * cudnnFilterDescriptor_t
Definition pch.h:110

cudnnActivationMode_t
cudnnActivationMode_t
Definition pch.h:100

cublasLtEpilogue_t
cublasLtEpilogue_t
Definition pch.h:96

CUBLASLT_EPILOGUE_BIAS
@ CUBLASLT_EPILOGUE_BIAS
Definition pch.h:96

cudnnPoolingDescriptor_t
void * cudnnPoolingDescriptor_t
Definition pch.h:112

cudnnConvolutionBwdDataAlgo_t
cudnnConvolutionBwdDataAlgo_t
Definition pch.h:104

CUDNN_CONVOLUTION_BWD_DATA_ALGO_0
@ CUDNN_CONVOLUTION_BWD_DATA_ALGO_0
Definition pch.h:104

MatrixR
Matrix< float, Dynamic, Dynamic, Layout > MatrixR
Definition pch.h:177

cudnnActivationDescriptor_t
void * cudnnActivationDescriptor_t
Definition pch.h:113

cudnnConvolutionDescriptor_t
void * cudnnConvolutionDescriptor_t
Definition pch.h:111

cudnnConvolutionBwdFilterAlgo_t
cudnnConvolutionBwdFilterAlgo_t
Definition pch.h:105

CUDNN_CONVOLUTION_BWD_FILTER_ALGO_0
@ CUDNN_CONVOLUTION_BWD_FILTER_ALGO_0
Definition pch.h:105

opennn::ActivationOp
Element-wise non-linear activation (Identity, Sigmoid, Tanh, ReLU, Softmax).
Definition operators.h:169

opennn::ActivationOp::apply_delta
void apply_delta(const TensorView &outputs, TensorView &delta) const
Multiplies delta by the derivative of the activation evaluated at outputs.

opennn::ActivationOp::forward_propagate
void forward_propagate(ForwardPropagation &fp, size_t layer, bool is_training) noexcept override
Runs the operator's forward computation.

opennn::ActivationOp::to_JSON
void to_JSON(JsonWriter &w) const override
Serializes the operator configuration to a JSON writer.

opennn::ActivationOp::to_string
static const string & to_string(Function function)
Returns the string name of a Function.

opennn::ActivationOp::back_propagate
void back_propagate(ForwardPropagation &fp, BackPropagation &bp, size_t layer) const noexcept override
Runs the operator's backward computation, accumulating into gradient/delta buffers.

opennn::ActivationOp::destroy_cuda
void destroy_cuda() override
Releases CUDA resources owned by the operator; called from destructors.

opennn::ActivationOp::output_slots_backward
vector< size_t > output_slots_backward
Definition operators.h:192

opennn::ActivationOp::apply_gpu
void apply_gpu(TensorView &output)
GPU forward implementation; applies the activation in place on output.

opennn::ActivationOp::Function
Function
Supported activation functions.
Definition operators.h:171

opennn::ActivationOp::Function::Sigmoid
@ Sigmoid
Definition operators.h:171

opennn::ActivationOp::Function::Softmax
@ Softmax
Definition operators.h:171

opennn::ActivationOp::Function::Identity
@ Identity
Definition operators.h:171

opennn::ActivationOp::Function::Tanh
@ Tanh
Definition operators.h:171

opennn::ActivationOp::Function::ReLU
@ ReLU
Definition operators.h:171

opennn::ActivationOp::set_function
void set_function(Function new_function)
Selects the activation function and configures cuDNN descriptors.

opennn::ActivationOp::descriptor
cudnnActivationDescriptor_t descriptor
Definition operators.h:187

opennn::ActivationOp::ActivationOp
ActivationOp(const ActivationOp &)=delete

opennn::ActivationOp::function
Function function
Definition operators.h:185

opennn::ActivationOp::map
static const EnumMap< Function > & map()
Returns the bidirectional mapping between Function values and their string names.

opennn::ActivationOp::set_function
void set_function(const string &name)
Selects the activation function by name (delegates to set_function(Function)).

opennn::ActivationOp::operator=
ActivationOp & operator=(const ActivationOp &)=delete

opennn::ActivationOp::to_cudnn_mode
static cudnnActivationMode_t to_cudnn_mode(Function function)
Returns the cuDNN activation mode corresponding to a Function.

opennn::ActivationOp::from_string
static Function from_string(const string &name)
Returns the Function corresponding to a string name.

opennn::ActivationOp::apply_cpu
void apply_cpu(TensorView &output)
CPU forward implementation; applies the activation in place on output.

opennn::ActivationOp::~ActivationOp
~ActivationOp() override
Definition operators.h:219

opennn::ActivationOp::from_JSON
void from_JSON(const Json *parent) override
Restores the operator configuration from a JSON node.

opennn::ActivationOp::ActivationOp
ActivationOp()=default

opennn::AddOp
Element-wise sum of several input tensors (used by residual connections).
Definition operators.h:110

opennn::AddOp::forward_propagate
void forward_propagate(ForwardPropagation &fp, size_t layer, bool is_training) noexcept override
Runs the operator's forward computation.

opennn::AddOp::back_propagate
void back_propagate(ForwardPropagation &fp, BackPropagation &bp, size_t layer) const noexcept override
Runs the operator's backward computation, accumulating into gradient/delta buffers.

opennn::AttentionOp::back_propagate
void back_propagate(ForwardPropagation &fp, BackPropagation &bp, size_t layer) const noexcept override
Runs the operator's backward computation, accumulating into gradient/delta buffers.

opennn::AttentionOp::~AttentionOp
~AttentionOp() override

opennn::AttentionOp::forward_scratch_specs
vector< TensorSpec > forward_scratch_specs(Index batch_size) const
Returns the tensor specs of the forward-pass scratch buffers used by the operator.

opennn::AttentionOp::source_sequence_length
Index source_sequence_length
Definition operators.h:646

opennn::AttentionOp::query_sequence_length
Index query_sequence_length
Definition operators.h:645

opennn::AttentionOp::use_causal_mask
bool use_causal_mask
Definition operators.h:647

opennn::AttentionOp::destroy_cuda
void destroy_cuda() override
Releases CUDA resources owned by the operator; called from destructors.

opennn::AttentionOp::set
void set(Index heads_number, Index head_dimension, Index query_sequence_length, Index source_sequence_length, bool use_causal_mask, Type compute_dtype)
Configures the attention geometry and compute precision.

opennn::AttentionOp::causal_mask
MatrixR causal_mask
Definition operators.h:650

opennn::AttentionOp::set_dropout_rate
void set_dropout_rate(float rate)
Sets the post-softmax dropout rate (0 disables dropout).
Definition operators.h:666

opennn::AttentionOp::dropout
DropoutOp dropout
Definition operators.h:652

opennn::AttentionOp::apply
void apply(const TensorView &query, const TensorView &key, const TensorView &value, const TensorView &source_input, TensorView &attention_weights, TensorView &attention_weights_dropped, TensorView &output, float *mask_scratch, bool is_training)
Computes attention output from Q, K, V; applies softmax, mask and dropout in place.

opennn::AttentionOp::apply_delta
void apply_delta(const TensorView &query, const TensorView &key, const TensorView &value, const TensorView &attention_output, const TensorView &attention_weights, const TensorView &attention_weights_dropped, const TensorView &output_delta, TensorView &attention_weight_delta, TensorView &query_delta, TensorView &key_delta, TensorView &value_delta) const
Computes Q/K/V gradients from the output gradient and cached forward activations.

opennn::AttentionOp::attention_output_slots
vector< size_t > attention_output_slots
Definition operators.h:680

opennn::AttentionOp::from_JSON
void from_JSON(const Json *parent) override
Restores the operator configuration from a JSON node.

opennn::AttentionOp::head_dimension
Index head_dimension
Definition operators.h:644

opennn::AttentionOp::forward_propagate
void forward_propagate(ForwardPropagation &fp, size_t layer, bool is_training) noexcept override
Runs the operator's forward computation.

opennn::AttentionOp::AttentionOp
AttentionOp()

opennn::AttentionOp::compute_dtype
Type compute_dtype
Definition operators.h:648

opennn::AttentionOp::AttentionOp
AttentionOp(AttentionOp &&) noexcept

opennn::AttentionOp::to_JSON
void to_JSON(JsonWriter &w) const override
Serializes the operator configuration to a JSON writer.

opennn::AttentionOp::heads_number
Index heads_number
Definition operators.h:643

opennn::AttentionOp::scratch_slots
vector< size_t > scratch_slots
Definition operators.h:679

opennn::AttentionOp::source_view_index
size_t source_view_index
Definition operators.h:677

opennn::BackPropagation
Workspace holding parameter gradients and per-layer deltas during a backward pass.
Definition back_propagation.h:21

opennn::BackPropagation::delta_views
vector< vector< TensorView > > delta_views
Definition back_propagation.h:44

opennn::BatchNormOp
Batch normalization with learnable scale/shift and running statistics for inference.
Definition operators.h:308

opennn::BatchNormOp::load_state_from_JSON
void load_state_from_JSON(const Json *parent) override
Restores persistent state (e.g. running statistics) from a JSON node.

opennn::BatchNormOp::features
Index features
Definition operators.h:309

opennn::BatchNormOp::set
void set(Index new_features, float new_momentum=0.1f)
Configures the per-feature normalization.

opennn::BatchNormOp::link_states
void link_states(span< const TensorView > views) override
Binds state views provided by the hosting layer.

opennn::BatchNormOp::link_parameters
void link_parameters(span< const TensorView > views) override
Binds parameter views provided by the hosting layer.

opennn::BatchNormOp::gamma
TensorView gamma
Definition operators.h:312

opennn::BatchNormOp::init_defaults
void init_defaults()
Resets gamma to one, beta to zero, and running stats to identity values.

opennn::BatchNormOp::apply_delta
void apply_delta(const TensorView &input, const TensorView &mean, const TensorView &inverse_variance, TensorView &delta) const
Computes the input gradient given the cached normalization statistics from forward.

opennn::BatchNormOp::invalidate_inference_cache
void invalidate_inference_cache()
Marks the inference cache as stale so it is rebuilt on the next inference call.
Definition operators.h:362

opennn::BatchNormOp::state_specs
vector< TensorSpec > state_specs() const override
Returns the tensor specs of persistent state owned by this operator.

opennn::BatchNormOp::momentum
float momentum
Definition operators.h:310

opennn::BatchNormOp::from_JSON
void from_JSON(const Json *parent) override
Restores the operator configuration from a JSON node.

opennn::BatchNormOp::beta_gradient
TensorView beta_gradient
Definition operators.h:318

opennn::BatchNormOp::forward_propagate
void forward_propagate(ForwardPropagation &fp, size_t layer, bool is_training) noexcept override
Runs the operator's forward computation.

opennn::BatchNormOp::update_inference_cache
void update_inference_cache()
Rebuilds the fused scale/shift cache used by the inference path from running stats.

opennn::BatchNormOp::set_parameters_glorot
void set_parameters_glorot() override
Initializes parameters using Glorot (Xavier) initialization.
Definition operators.h:335

opennn::BatchNormOp::set_parameters_random
void set_parameters_random() override
Initializes parameters with random values.
Definition operators.h:334

opennn::BatchNormOp::beta
TensorView beta
Definition operators.h:313

opennn::BatchNormOp::gamma_gradient
TensorView gamma_gradient
Definition operators.h:317

opennn::BatchNormOp::link_gradients
void link_gradients(span< const TensorView > views) override
Binds gradient views provided by the hosting layer.

opennn::BatchNormOp::running_mean
TensorView running_mean
Definition operators.h:314

opennn::BatchNormOp::parameter_specs
vector< TensorSpec > parameter_specs() const override
Returns the tensor specs of trainable parameters owned by this operator.

opennn::BatchNormOp::active
bool active() const
Returns true when the operator has been configured (features > 0).
Definition operators.h:321

opennn::BatchNormOp::to_JSON
void to_JSON(JsonWriter &w) const override
Serializes the operator configuration to a JSON writer.

opennn::BatchNormOp::running_variance
TensorView running_variance
Definition operators.h:315

opennn::BatchNormOp::back_propagate
void back_propagate(ForwardPropagation &fp, BackPropagation &bp, size_t layer) const noexcept override
Runs the operator's backward computation, accumulating into gradient/delta buffers.

opennn::BoundOp
Clamps each output channel to a configurable lower/upper interval.
Definition operators.h:1004

opennn::BoundOp::upper
TensorView upper
Definition operators.h:1011

opennn::BoundOp::forward_propagate
void forward_propagate(ForwardPropagation &fp, size_t layer, bool is_training) noexcept override
Runs the operator's forward computation.

opennn::BoundOp::Method
Method
Disables bounding or enables per-channel clamping.
Definition operators.h:1006

opennn::BoundOp::Method::Bounding
@ Bounding
Definition operators.h:1006

opennn::BoundOp::Method::NoBounding
@ NoBounding
Definition operators.h:1006

opennn::BoundOp::method
Method method
Definition operators.h:1008

opennn::BoundOp::lower
TensorView lower
Definition operators.h:1010

opennn::Buffer
Owning raw byte buffer that lives on CPU or CUDA memory, with aligned (re)allocation.
Definition tensor_utilities.h:166

opennn::CombinationOp
Affine combination output = input * weights + bias (the dense matmul building block).
Definition operators.h:232

opennn::CombinationOp::bias_gradient
TensorView bias_gradient
Definition operators.h:241

opennn::CombinationOp::set_parameters_glorot
void set_parameters_glorot() override
Initializes parameters using Glorot (Xavier) initialization.

opennn::CombinationOp::link_parameters
void link_parameters(span< const TensorView > views) override
Binds parameter views provided by the hosting layer.

opennn::CombinationOp::weights
TensorView weights
Definition operators.h:237

opennn::CombinationOp::set_parameters_random
void set_parameters_random() override
Initializes parameters with random values.

opennn::CombinationOp::input_features
Index input_features
Definition operators.h:233

opennn::CombinationOp::forward_propagate
void forward_propagate(ForwardPropagation &fp, size_t layer, bool is_training) noexcept override
Runs the operator's forward computation.

opennn::CombinationOp::weight_type
Type weight_type
Definition operators.h:235

opennn::CombinationOp::back_propagate
void back_propagate(ForwardPropagation &fp, BackPropagation &bp, size_t layer) const noexcept override
Runs the operator's backward computation, accumulating into gradient/delta buffers.

opennn::CombinationOp::apply
void apply(const TensorView &input, TensorView &output, cublasLtEpilogue_t epilogue=CUBLASLT_EPILOGUE_BIAS)
Computes output = input * weights + bias with an optional fused epilogue (ReLU, bias,...

opennn::CombinationOp::weight_gradient
TensorView weight_gradient
Definition operators.h:240

opennn::CombinationOp::parameter_specs
vector< TensorSpec > parameter_specs() const override
Returns the tensor specs of trainable parameters owned by this operator.

opennn::CombinationOp::apply_delta
void apply_delta(const TensorView &output_delta, const TensorView &input, TensorView &input_delta, bool accumulate_input_delta=false) const
Computes input_delta from output_delta and updates weight/bias gradients.

opennn::CombinationOp::bias
TensorView bias
Definition operators.h:238

opennn::CombinationOp::output_features
Index output_features
Definition operators.h:234

opennn::CombinationOp::set
void set(Index new_input_features, Index new_output_features, Type new_weight_type=Type::FP32)
Configures input/output dimensions and the weight storage dtype.

opennn::CombinationOp::link_gradients
void link_gradients(span< const TensorView > views) override
Binds gradient views provided by the hosting layer.

opennn::CombinationReluOp
Fused affine + ReLU activation (uses cuBLASLt epilogue on GPU when available).
Definition operators.h:286

opennn::CombinationReluOp::set
void set(Index input_features, Index output_features, Type weight_type=Type::FP32)
Configures the underlying CombinationOp; ReLU is fixed.

opennn::CombinationReluOp::activation
ActivationOp activation
Definition operators.h:288

opennn::CombinationReluOp::set_parameters_glorot
void set_parameters_glorot() override
Initializes parameters using Glorot (Xavier) initialization.
Definition operators.h:298

opennn::CombinationReluOp::link_parameters
void link_parameters(span< const TensorView > views) override
Binds parameter views provided by the hosting layer.
Definition operators.h:294

opennn::CombinationReluOp::parameter_specs
vector< TensorSpec > parameter_specs() const override
Returns the tensor specs of trainable parameters owned by this operator.
Definition operators.h:293

opennn::CombinationReluOp::back_propagate
void back_propagate(ForwardPropagation &fp, BackPropagation &bp, size_t layer) const noexcept override
Runs the operator's backward computation, accumulating into gradient/delta buffers.

opennn::CombinationReluOp::set_parameters_random
void set_parameters_random() override
Initializes parameters with random values.
Definition operators.h:297

opennn::CombinationReluOp::combination
CombinationOp combination
Definition operators.h:287

opennn::CombinationReluOp::forward_propagate
void forward_propagate(ForwardPropagation &fp, size_t layer, bool is_training) noexcept override
Runs the operator's forward computation.

opennn::CombinationReluOp::link_gradients
void link_gradients(span< const TensorView > views) override
Binds gradient views provided by the hosting layer.
Definition operators.h:295

opennn::ConvolutionOp
2D convolution operator (NHWC layout) backed by Eigen on CPU and cuDNN on GPU.
Definition operators.h:397

opennn::ConvolutionOp::bias
TensorView bias
Definition operators.h:412

opennn::ConvolutionOp::parameter_specs
vector< TensorSpec > parameter_specs() const override
Returns the tensor specs of trainable parameters owned by this operator.

opennn::ConvolutionOp::kernel_channels
Index kernel_channels
Definition operators.h:404

opennn::ConvolutionOp::link_gradients
void link_gradients(span< const TensorView > views) override
Binds gradient views provided by the hosting layer.

opennn::ConvolutionOp::weight_gradient
TensorView weight_gradient
Definition operators.h:414

opennn::ConvolutionOp::set_parameters_glorot
void set_parameters_glorot() override
Initializes parameters using Glorot (Xavier) initialization.

opennn::ConvolutionOp::set
void set(Index input_h, Index input_w, Index kernels_n, Index kernel_h, Index kernel_w, Index kernel_c, Index row_stride, Index column_stride, Index padding_h, Index padding_w, Type compute_dtype)
Configures the convolution geometry and compute precision.

opennn::ConvolutionOp::operator=
ConvolutionOp & operator=(const ConvolutionOp &)=delete

opennn::ConvolutionOp::bias_gradient
TensorView bias_gradient
Definition operators.h:415

opennn::ConvolutionOp::input_width
Index input_width
Definition operators.h:399

opennn::ConvolutionOp::~ConvolutionOp
~ConvolutionOp() override
Definition operators.h:461

opennn::ConvolutionOp::padding_height
Index padding_height
Definition operators.h:406

opennn::ConvolutionOp::padding_width
Index padding_width
Definition operators.h:407

opennn::ConvolutionOp::ConvolutionOp
ConvolutionOp(const ConvolutionOp &)=delete

opennn::ConvolutionOp::destroy_cuda
void destroy_cuda() override
Releases CUDA resources owned by the operator; called from destructors.

opennn::ConvolutionOp::kernel_width
Index kernel_width
Definition operators.h:403

opennn::ConvolutionOp::compute_dtype
Type compute_dtype
Definition operators.h:409

opennn::ConvolutionOp::kernel_height
Index kernel_height
Definition operators.h:402

opennn::ConvolutionOp::link_parameters
void link_parameters(span< const TensorView > views) override
Binds parameter views provided by the hosting layer.

opennn::ConvolutionOp::set_parameters_random
void set_parameters_random() override
Initializes parameters with random values.

opennn::ConvolutionOp::back_propagate
void back_propagate(ForwardPropagation &fp, BackPropagation &bp, size_t layer) const noexcept override
Runs the operator's backward computation, accumulating into gradient/delta buffers.

opennn::ConvolutionOp::forward_propagate
void forward_propagate(ForwardPropagation &fp, size_t layer, bool is_training) noexcept override
Runs the operator's forward computation.

opennn::ConvolutionOp::kernels_number
Index kernels_number
Definition operators.h:401

opennn::ConvolutionOp::input_height
Index input_height
Definition operators.h:398

opennn::ConvolutionOp::apply_cpu
void apply_cpu(const TensorView &input, TensorView &output)
CPU forward path; im2col + GEMM.

opennn::ConvolutionOp::ConvolutionOp
ConvolutionOp()=default

opennn::ConvolutionOp::apply_delta
void apply_delta(const TensorView &input, const TensorView &output_delta, TensorView &input_delta) const
Computes input_delta from output_delta and updates weight/bias gradients.

opennn::ConvolutionOp::apply_gpu
void apply_gpu(const TensorView &input, TensorView &output, cudnnActivationDescriptor_t fused_activation=nullptr)
GPU forward path; runs cuDNN convolution with an optional fused activation.

opennn::ConvolutionOp::weights
TensorView weights
Definition operators.h:411

opennn::ConvolutionReluOp::ConvolutionReluOp
ConvolutionReluOp()=default

opennn::ConvolutionReluOp::set
void set(Index input_h, Index input_w, Index kernels_n, Index kernel_h, Index kernel_w, Index kernel_c, Index row_stride, Index column_stride, Index padding_h, Index padding_w, Type compute_dtype)
Configures the underlying ConvolutionOp; ReLU is fixed.

opennn::ConvolutionReluOp::forward_propagate
void forward_propagate(ForwardPropagation &fp, size_t layer, bool is_training) noexcept override
Runs the operator's forward computation.

opennn::ConvolutionReluOp::parameter_specs
vector< TensorSpec > parameter_specs() const override
Returns the tensor specs of trainable parameters owned by this operator.
Definition operators.h:508

opennn::ConvolutionReluOp::set_parameters_random
void set_parameters_random() override
Initializes parameters with random values.
Definition operators.h:512

opennn::ConvolutionReluOp::~ConvolutionReluOp
~ConvolutionReluOp() override
Definition operators.h:516

opennn::ConvolutionReluOp::link_gradients
void link_gradients(span< const TensorView > views) override
Binds gradient views provided by the hosting layer.
Definition operators.h:510

opennn::ConvolutionReluOp::activation
ActivationOp activation
Definition operators.h:499

opennn::ConvolutionReluOp::ConvolutionReluOp
ConvolutionReluOp(const ConvolutionReluOp &)=delete

opennn::ConvolutionReluOp::convolution
ConvolutionOp convolution
Definition operators.h:498

opennn::ConvolutionReluOp::set_parameters_glorot
void set_parameters_glorot() override
Initializes parameters using Glorot (Xavier) initialization.
Definition operators.h:513

opennn::ConvolutionReluOp::destroy_cuda
void destroy_cuda() override
Releases CUDA resources owned by the operator; called from destructors.
Definition operators.h:515

opennn::ConvolutionReluOp::link_parameters
void link_parameters(span< const TensorView > views) override
Binds parameter views provided by the hosting layer.
Definition operators.h:509

opennn::ConvolutionReluOp::operator=
ConvolutionReluOp & operator=(const ConvolutionReluOp &)=delete

opennn::ConvolutionReluOp::back_propagate
void back_propagate(ForwardPropagation &fp, BackPropagation &bp, size_t layer) const noexcept override
Runs the operator's backward computation, accumulating into gradient/delta buffers.

opennn::DropoutOp
Inverted dropout: at training time zeros activations with probability rate and rescales survivors.
Definition operators.h:122

opennn::DropoutOp::active
bool active() const
Returns true when the dropout rate is non-zero.
Definition operators.h:130

opennn::DropoutOp::forward_propagate
void forward_propagate(ForwardPropagation &fp, size_t layer, bool is_training) noexcept override
Runs the operator's forward computation.

opennn::DropoutOp::save_slots
vector< size_t > save_slots
Definition operators.h:127

opennn::DropoutOp::back_propagate
void back_propagate(ForwardPropagation &fp, BackPropagation &bp, size_t layer) const noexcept override
Runs the operator's backward computation, accumulating into gradient/delta buffers.

opennn::DropoutOp::DropoutOp
DropoutOp(DropoutOp &&) noexcept=default

opennn::DropoutOp::rate
float rate
Definition operators.h:123

opennn::DropoutOp::apply_gpu
void apply_gpu(TensorView &output)
GPU forward implementation; samples the mask and rescales survivors in place.

opennn::DropoutOp::to_JSON
void to_JSON(JsonWriter &w) const override
Serializes the operator configuration to a JSON writer.

opennn::DropoutOp::~DropoutOp
~DropoutOp() override
Definition operators.h:154

opennn::DropoutOp::mask
Buffer mask
Definition operators.h:125

opennn::DropoutOp::set_rate
void set_rate(float new_rate)
Sets the drop probability (0 disables dropout).

opennn::DropoutOp::from_JSON
void from_JSON(const Json *parent) override
Restores the operator configuration from a JSON node.

opennn::DropoutOp::apply_cpu
void apply_cpu(TensorView &output)
CPU forward implementation; samples the mask and rescales survivors in place.

opennn::DropoutOp::apply_delta
void apply_delta(TensorView &delta) const
Applies the cached mask to a gradient tensor during the backward pass.

opennn::DropoutOp::DropoutOp
DropoutOp()=default

opennn::DropoutOp::destroy_cuda
void destroy_cuda() override
Releases CUDA resources owned by the operator; called from destructors.

opennn::EmbeddingLookupOp
Token embedding lookup with optional scaling and additive positional encoding.
Definition operators.h:947

opennn::EmbeddingLookupOp::weights
TensorView weights
Definition operators.h:957

opennn::EmbeddingLookupOp::add_positional_encoding
bool add_positional_encoding
Definition operators.h:953

opennn::EmbeddingLookupOp::weight_gradient
TensorView weight_gradient
Definition operators.h:960

opennn::EmbeddingLookupOp::parameter_specs
vector< TensorSpec > parameter_specs() const override
Returns the tensor specs of trainable parameters owned by this operator.

opennn::EmbeddingLookupOp::init_positional_encoding
void init_positional_encoding()
Fills the positional-encoding state tensor with the standard sinusoidal pattern.

opennn::EmbeddingLookupOp::scale_embedding
bool scale_embedding
Definition operators.h:952

opennn::EmbeddingLookupOp::sequence_length
Index sequence_length
Definition operators.h:949

opennn::EmbeddingLookupOp::vocabulary_size
Index vocabulary_size
Definition operators.h:948

opennn::EmbeddingLookupOp::link_parameters
void link_parameters(span< const TensorView > views) override
Binds parameter views provided by the hosting layer.

opennn::EmbeddingLookupOp::positional_encoding
TensorView positional_encoding
Definition operators.h:958

opennn::EmbeddingLookupOp::forward_propagate
void forward_propagate(ForwardPropagation &fp, size_t layer, bool is_training) noexcept override
Runs the operator's forward computation.

opennn::EmbeddingLookupOp::embedding_scale
float embedding_scale
Definition operators.h:955

opennn::EmbeddingLookupOp::state_specs
vector< TensorSpec > state_specs() const override
Returns the tensor specs of persistent state owned by this operator.

opennn::EmbeddingLookupOp::link_states
void link_states(span< const TensorView > views) override
Binds state views provided by the hosting layer.

opennn::EmbeddingLookupOp::embedding_dimension
Index embedding_dimension
Definition operators.h:950

opennn::EmbeddingLookupOp::set
void set(Index new_vocabulary_size, Index new_sequence_length, Index new_embedding_dimension)
Configures the lookup table dimensions.

opennn::EmbeddingLookupOp::set_parameters_random
void set_parameters_random() override
Initializes parameters with random values.

opennn::EmbeddingLookupOp::link_gradients
void link_gradients(span< const TensorView > views) override
Binds gradient views provided by the hosting layer.

opennn::EmbeddingLookupOp::back_propagate
void back_propagate(ForwardPropagation &fp, BackPropagation &bp, size_t layer) const noexcept override
Runs the operator's backward computation, accumulating into gradient/delta buffers.

opennn::EmbeddingLookupOp::set_parameters_glorot
void set_parameters_glorot() override
Initializes parameters using Glorot (Xavier) initialization.

opennn::EnumMap
Definition enum_map.h:18

opennn::FlatOp
Flattens a multi-dimensional tensor into a 2D (batch, features) tensor.
Definition operators.h:995

opennn::FlatOp::forward_propagate
void forward_propagate(ForwardPropagation &fp, size_t layer, bool is_training) noexcept override
Runs the operator's forward computation.

opennn::FlatOp::back_propagate
void back_propagate(ForwardPropagation &fp, BackPropagation &bp, size_t layer) const noexcept override
Runs the operator's backward computation, accumulating into gradient/delta buffers.

opennn::ForwardPropagation
Workspace holding the activations of every layer during a forward pass.
Definition forward_propagation.h:20

opennn::ForwardPropagation::views
vector< vector< vector< TensorView > > > views
Definition forward_propagation.h:45

opennn::LayerNormOp
Layer normalization with learnable scale/shift, applied across the embedding dimension.
Definition operators.h:530

opennn::LayerNormOp::forward_propagate
void forward_propagate(ForwardPropagation &fp, size_t layer, bool is_training) noexcept override
Runs the operator's forward computation.

opennn::LayerNormOp::link_gradients
void link_gradients(span< const TensorView > views) override
Binds gradient views provided by the hosting layer.

opennn::LayerNormOp::gamma_gradient
TensorView gamma_gradient
Definition operators.h:537

opennn::LayerNormOp::parameter_specs
vector< TensorSpec > parameter_specs() const override
Returns the tensor specs of trainable parameters owned by this operator.

opennn::LayerNormOp::gamma
TensorView gamma
Definition operators.h:534

opennn::LayerNormOp::set
void set(Index sequence_length, Index embedding_dimension)
Configures the operator for a (sequence_length, embedding_dimension) input.

opennn::LayerNormOp::sequence_length
Index sequence_length
Definition operators.h:531

opennn::LayerNormOp::set_parameters_glorot
void set_parameters_glorot() override
Initializes parameters using Glorot (Xavier) initialization.
Definition operators.h:548

opennn::LayerNormOp::back_propagate
void back_propagate(ForwardPropagation &fp, BackPropagation &bp, size_t layer) const noexcept override
Runs the operator's backward computation, accumulating into gradient/delta buffers.

opennn::LayerNormOp::embedding_dimension
Index embedding_dimension
Definition operators.h:532

opennn::LayerNormOp::link_parameters
void link_parameters(span< const TensorView > views) override
Binds parameter views provided by the hosting layer.

opennn::LayerNormOp::beta
TensorView beta
Definition operators.h:535

opennn::LayerNormOp::beta_gradient
TensorView beta_gradient
Definition operators.h:538

opennn::LayerNormOp::init_defaults
void init_defaults()
Resets gamma to one and beta to zero.

opennn::LayerNormOp::set_parameters_random
void set_parameters_random() override
Initializes parameters with random values.
Definition operators.h:547

opennn::MergeOp
Reshapes (batch, heads, seq, head_dim) tensors back into (batch, seq, embed); no parameters.
Definition operators.h:839

opennn::MergeOp::forward_propagate
void forward_propagate(ForwardPropagation &fp, size_t layer, bool is_training) noexcept override
Runs the operator's forward computation.

opennn::MergeOp::head_dimension
Index head_dimension
Definition operators.h:842

opennn::MergeOp::query_sequence_length
Index query_sequence_length
Definition operators.h:841

opennn::MergeOp::compute_dtype
Type compute_dtype
Definition operators.h:843

opennn::MergeOp::set
void set(Index heads_number, Index query_sequence_length, Index head_dimension, Type compute_dtype)
Configures the merge geometry.

opennn::MergeOp::back_propagate
void back_propagate(ForwardPropagation &fp, BackPropagation &bp, size_t layer) const noexcept override
Runs the operator's backward computation, accumulating into gradient/delta buffers.

opennn::MergeOp::heads_number
Index heads_number
Definition operators.h:840

opennn::MultiHeadProjectionOp
Projects (input_features) into (heads * head_dim) and reshapes for multi-head attention.
Definition operators.h:579

opennn::MultiHeadProjectionOp::accumulate_input_delta_cross
bool accumulate_input_delta_cross
Definition operators.h:600

opennn::MultiHeadProjectionOp::head_dimension
Index head_dimension
Definition operators.h:583

opennn::MultiHeadProjectionOp::combination
CombinationOp combination
Definition operators.h:580

opennn::MultiHeadProjectionOp::back_propagate
void back_propagate(ForwardPropagation &fp, BackPropagation &bp, size_t layer) const noexcept override
Runs the operator's backward computation, accumulating into gradient/delta buffers.

opennn::MultiHeadProjectionOp::input_features
Index input_features
Definition operators.h:581

opennn::MultiHeadProjectionOp::input_delta_slots_cross
vector< size_t > input_delta_slots_cross
Definition operators.h:598

opennn::MultiHeadProjectionOp::scratch_slots
vector< size_t > scratch_slots
Definition operators.h:592

opennn::MultiHeadProjectionOp::input_delta_slots_self
vector< size_t > input_delta_slots_self
Definition operators.h:597

opennn::MultiHeadProjectionOp::compute_dtype
Type compute_dtype
Definition operators.h:584

opennn::MultiHeadProjectionOp::accumulate_input_delta_self
bool accumulate_input_delta_self
Definition operators.h:599

opennn::MultiHeadProjectionOp::apply_delta
void apply_delta(const TensorView &head_delta, const TensorView &input, TensorView &input_delta, bool accumulate, float *scratch) const
Computes input_delta from per-head gradients and updates the projection weight gradient.

opennn::MultiHeadProjectionOp::set_parameters_random
void set_parameters_random() override
Initializes parameters with random values.
Definition operators.h:613

opennn::MultiHeadProjectionOp::forward_propagate
void forward_propagate(ForwardPropagation &fp, size_t layer, bool is_training) noexcept override
Runs the operator's forward computation.

opennn::MultiHeadProjectionOp::apply
void apply(const TensorView &input, TensorView &head_output, float *scratch)
Projects input and reshapes the result into per-head form in head_output.

opennn::MultiHeadProjectionOp::link_parameters
void link_parameters(span< const TensorView > views) override
Binds parameter views provided by the hosting layer.
Definition operators.h:610

opennn::MultiHeadProjectionOp::set_parameters_glorot
void set_parameters_glorot() override
Initializes parameters using Glorot (Xavier) initialization.
Definition operators.h:614

opennn::MultiHeadProjectionOp::parameter_specs
vector< TensorSpec > parameter_specs() const override
Returns the tensor specs of trainable parameters owned by this operator.
Definition operators.h:609

opennn::MultiHeadProjectionOp::link_gradients
void link_gradients(span< const TensorView > views) override
Binds gradient views provided by the hosting layer.
Definition operators.h:611

opennn::MultiHeadProjectionOp::heads_number
Index heads_number
Definition operators.h:582

opennn::MultiHeadProjectionOp::set
void set(Index input_features, Index heads_number, Index head_dimension, Type compute_dtype)
Configures the projection geometry.

opennn::MultiHeadProjectionOp::input_view_index
size_t input_view_index
Definition operators.h:589

opennn::Operator
Base class for compute building blocks composed by layers (matmul, activation, dropout,...
Definition operators.h:28

opennn::Operator::destroy_cuda
virtual void destroy_cuda()
Releases CUDA resources owned by the operator; called from destructors.
Definition operators.h:74

opennn::Operator::parameter_specs
virtual vector< TensorSpec > parameter_specs() const
Returns the tensor specs of trainable parameters owned by this operator.
Definition operators.h:32

opennn::Operator::get_input
TensorView & get_input(ForwardPropagation &fp, size_t layer, size_t i=0) const noexcept
Definition operators.h:82

opennn::Operator::link_parameters
virtual void link_parameters(span< const TensorView >)
Binds parameter views provided by the hosting layer.
Definition operators.h:38

opennn::Operator::get_output
TensorView & get_output(ForwardPropagation &fp, size_t layer, size_t i=0) const noexcept
Definition operators.h:92

opennn::Operator::back_propagate
virtual void back_propagate(ForwardPropagation &, BackPropagation &, size_t) const noexcept
Runs the operator's backward computation, accumulating into gradient/delta buffers.
Definition operators.h:62

opennn::Operator::from_JSON
virtual void from_JSON(const Json *)
Restores the operator configuration from a JSON node.
Definition operators.h:68

opennn::Operator::to_JSON
virtual void to_JSON(JsonWriter &) const
Serializes the operator configuration to a JSON writer.
Definition operators.h:65

opennn::Operator::link_gradients
virtual void link_gradients(span< const TensorView >)
Binds gradient views provided by the hosting layer.
Definition operators.h:41

opennn::Operator::load_state_from_JSON
virtual void load_state_from_JSON(const Json *)
Restores persistent state (e.g. running statistics) from a JSON node.
Definition operators.h:71

opennn::Operator::get_output_delta
TensorView & get_output_delta(BackPropagation &bp, size_t layer, size_t i=0) const noexcept
Definition operators.h:97

opennn::Operator::get_inputs
vector< TensorView > & get_inputs(ForwardPropagation &fp, size_t layer, size_t i=0) const noexcept
Definition operators.h:87

opennn::Operator::output_slots
vector< size_t > output_slots
Definition operators.h:77

opennn::Operator::get_input_delta
TensorView & get_input_delta(BackPropagation &bp, size_t layer, size_t i=0) const noexcept
Definition operators.h:102

opennn::Operator::output_delta_slots
vector< size_t > output_delta_slots
Definition operators.h:80

opennn::Operator::input_delta_slots
vector< size_t > input_delta_slots
Definition operators.h:79

opennn::Operator::link_states
virtual void link_states(span< const TensorView >)
Binds state views provided by the hosting layer.
Definition operators.h:44

opennn::Operator::forward_propagate
virtual void forward_propagate(ForwardPropagation &, size_t, bool) noexcept
Runs the operator's forward computation.
Definition operators.h:56

opennn::Operator::set_parameters_glorot
virtual void set_parameters_glorot()
Initializes parameters using Glorot (Xavier) initialization.
Definition operators.h:50

opennn::Operator::~Operator
virtual ~Operator()=default

opennn::Operator::input_slots
vector< size_t > input_slots
Definition operators.h:76

opennn::Operator::set_parameters_random
virtual void set_parameters_random()
Initializes parameters with random values.
Definition operators.h:47

opennn::Operator::state_specs
virtual vector< TensorSpec > state_specs() const
Returns the tensor specs of persistent state owned by this operator.
Definition operators.h:35

opennn::Pool3dOp
Sequence-wide 1D pooling over the embedding dimension (mean or max).
Definition operators.h:930

opennn::Pool3dOp::method
Method method
Definition operators.h:933

opennn::Pool3dOp::Method
Method
Supported pooling reductions.
Definition operators.h:932

opennn::Pool3dOp::Max
@ Max
Definition operators.h:932

opennn::Pool3dOp::Average
@ Average
Definition operators.h:932

opennn::Pool3dOp::back_propagate
void back_propagate(ForwardPropagation &fp, BackPropagation &bp, size_t layer) const noexcept override
Runs the operator's backward computation, accumulating into gradient/delta buffers.

opennn::Pool3dOp::forward_propagate
void forward_propagate(ForwardPropagation &fp, size_t layer, bool is_training) noexcept override
Runs the operator's forward computation.

opennn::PoolOp::set
void set(Index input_h, Index input_w, Index input_c, Index pool_h, Index pool_w, Index row_stride, Index column_stride, Index padding_h, Index padding_w, Method method)
Configures the pooling geometry.

opennn::PoolOp::back_propagate
void back_propagate(ForwardPropagation &fp, BackPropagation &bp, size_t layer) const noexcept override
Runs the operator's backward computation, accumulating into gradient/delta buffers.

opennn::PoolOp::PoolOp
PoolOp(const PoolOp &)=delete

opennn::PoolOp::Method
Method
Supported pooling reductions.
Definition operators.h:862

opennn::PoolOp::Average
@ Average
Definition operators.h:862

opennn::PoolOp::Max
@ Max
Definition operators.h:862

opennn::PoolOp::padding_height
Index padding_height
Definition operators.h:872

opennn::PoolOp::input_channels
Index input_channels
Definition operators.h:866

opennn::PoolOp::~PoolOp
~PoolOp() override
Definition operators.h:900

opennn::PoolOp::row_stride
Index row_stride
Definition operators.h:870

opennn::PoolOp::pool_height
Index pool_height
Definition operators.h:868

opennn::PoolOp::column_stride
Index column_stride
Definition operators.h:871

opennn::PoolOp::pool_width
Index pool_width
Definition operators.h:869

opennn::PoolOp::forward_propagate
void forward_propagate(ForwardPropagation &fp, size_t layer, bool is_training) noexcept override
Runs the operator's forward computation.

opennn::PoolOp::method
Method method
Definition operators.h:875

opennn::PoolOp::operator=
PoolOp & operator=(const PoolOp &)=delete

opennn::PoolOp::input_height
Index input_height
Definition operators.h:864

opennn::PoolOp::PoolOp
PoolOp()=default

opennn::PoolOp::input_width
Index input_width
Definition operators.h:865

opennn::PoolOp::padding_width
Index padding_width
Definition operators.h:873

opennn::PoolOp::destroy_cuda
void destroy_cuda() override
Releases CUDA resources owned by the operator; called from destructors.

opennn::ScaleOp
Scales inputs to a target range using per-feature minimum/maximum or mean/std statistics.
Definition operators.h:1019

opennn::ScaleOp::minimums
TensorView minimums
Definition operators.h:1023

opennn::ScaleOp::min_range
float min_range
Definition operators.h:1020

opennn::ScaleOp::means
TensorView means
Definition operators.h:1025

opennn::ScaleOp::forward_propagate
void forward_propagate(ForwardPropagation &fp, size_t layer, bool is_training) noexcept override
Runs the operator's forward computation.

opennn::ScaleOp::maximums
TensorView maximums
Definition operators.h:1024

opennn::ScaleOp::max_range
float max_range
Definition operators.h:1021

opennn::ScaleOp::scalers
TensorView scalers
Definition operators.h:1027

opennn::ScaleOp::standard_deviations
TensorView standard_deviations
Definition operators.h:1026

opennn::TensorView
Non-owning view over a tensor: pointer, shape, and data type with rich reshape helpers.
Definition tensor_utilities.h:293

opennn::UnscaleOp
Inverse of ScaleOp: maps normalized outputs back to the original feature range.
Definition operators.h:1035

opennn::UnscaleOp::scalers
TensorView scalers
Definition operators.h:1043

opennn::UnscaleOp::max_range
float max_range
Definition operators.h:1037

opennn::UnscaleOp::means
TensorView means
Definition operators.h:1041

opennn::UnscaleOp::maximums
TensorView maximums
Definition operators.h:1040

opennn::UnscaleOp::minimums
TensorView minimums
Definition operators.h:1039

opennn::UnscaleOp::standard_deviations
TensorView standard_deviations
Definition operators.h:1042

opennn::UnscaleOp::min_range
float min_range
Definition operators.h:1036

opennn::UnscaleOp::forward_propagate
void forward_propagate(ForwardPropagation &fp, size_t layer, bool is_training) noexcept override
Runs the operator's forward computation.

tensor_utilities.h