documentation/reference/stochastic__gradient__descent_8h_source.html

//   OpenNN: Open Neural Networks Library

//   www.opennn.net

//

//   S T O C H A S T I C   G R A D I E N T   D E S C E N T   C L A S S   H E A D E R

//

//   Artificial Intelligence Techniques SL

//   artelnics@artelnics.com


#ifndef STOCHASTICGRADIENTDESCENT_H

#define STOCHASTICGRADIENTDESCENT_H


// System includes


#include <string>

#include <sstream>

#include <iostream>

#include <fstream>

#include <algorithm>

#include <functional>

#include <limits>

#include <cmath>

#include <ctime>


// OpenNN includes


#include "config.h"


#include "loss_index.h"

#include "optimization_algorithm.h"


namespace OpenNN

{


struct StochasticGradientDescentData;


class StochasticGradientDescent : public OptimizationAlgorithm

{


public:


   // Constructors


   explicit StochasticGradientDescent();


   explicit StochasticGradientDescent(LossIndex*);


   // Destructor


   virtual ~StochasticGradientDescent();


   //Training operators


   const type& get_initial_learning_rate() const;

   const type& get_initial_decay() const;

   const type& get_momentum() const;

   const bool& get_nesterov() const;


   // Stopping criteria


   const type& get_loss_goal() const;

   const type& get_maximum_time() const;


   // Set methods


   void set_loss_index_pointer(LossIndex*);


   void set_default();


   void set_batch_samples_number(const Index& new_batch_samples_number)

   {

       batch_samples_number = new_batch_samples_number;

   }


   // Get methods


   Index get_batch_samples_number() const;


   //Training operators


   void set_initial_learning_rate(const type&);

   void set_initial_decay(const type&);

   void set_momentum(const type&);

   void set_nesterov(const bool&);


   void set_maximum_epochs_number(const Index&);


   // Stopping criteria


   void set_loss_goal(const type&);

   void set_maximum_time(const type&);


   // Training methods


   void update_parameters(LossIndexBackPropagation& back_propagation,

                         StochasticGradientDescentData& optimization_data);


   TrainingResults perform_training();


   string write_optimization_algorithm_type() const;


   // Serialization methods


   Tensor<string, 2> to_string_matrix() const;


   void from_XML(const tinyxml2::XMLDocument&);


   void write_XML(tinyxml2::XMLPrinter&) const;


private:


   // Training operators


   type initial_learning_rate;


   type initial_decay;


   type momentum;


   bool nesterov;


   Index batch_samples_number = 1000;


   // Stopping criteria


   type training_loss_goal = type(0);


   Index maximum_selection_failures = numeric_limits<Index>::max();


   Index maximum_epochs_number = 10000;


   type maximum_time = type(3600);


#ifdef OPENNN_CUDA

    #include "../../opennn-cuda/opennn-cuda/stochastic_gradient_descent_cuda.h"

#endif


};


struct StochasticGradientDescentData : public OptimizationAlgorithmData

{


    explicit StochasticGradientDescentData()

    {

    }


    explicit StochasticGradientDescentData(StochasticGradientDescent* new_stochastic_gradient_descent_pointer)

    {

        set(new_stochastic_gradient_descent_pointer);

    }


    virtual ~StochasticGradientDescentData() {}


    void set(StochasticGradientDescent* new_stochastic_gradient_descent_pointer)

    {

        stochastic_gradient_descent_pointer = new_stochastic_gradient_descent_pointer;


        LossIndex* loss_index_pointer = stochastic_gradient_descent_pointer->get_loss_index_pointer();


        NeuralNetwork* neural_network_pointer = loss_index_pointer->get_neural_network_pointer();


        const Index parameters_number = neural_network_pointer->get_parameters_number();


        parameters_increment.resize(parameters_number);

        nesterov_increment.resize(parameters_number);

        last_parameters_increment.resize(parameters_number);


        parameters_increment.setZero();

        nesterov_increment.setZero();

        last_parameters_increment.setZero();

    }


    StochasticGradientDescent* stochastic_gradient_descent_pointer = nullptr;


    Index iteration = 0;


    Tensor<type, 1> parameters_increment;

    Tensor<type, 1> nesterov_increment;

    Tensor<type, 1> last_parameters_increment;

};


}


#endif

OpenNN::LossIndex
This abstract class represents the concept of loss index composed of an error term and a regularizati...
Definition: loss_index.h:48

OpenNN::LossIndex::get_neural_network_pointer
NeuralNetwork * get_neural_network_pointer() const
Returns a pointer to the neural network object associated to the error term.
Definition: loss_index.h:70

OpenNN::NeuralNetwork::get_parameters_number
Index get_parameters_number() const
Definition: neural_network.cpp:1044

OpenNN::OptimizationAlgorithm
Definition: optimization_algorithm.h:42

OpenNN::OptimizationAlgorithm::get_loss_index_pointer
LossIndex * get_loss_index_pointer() const
Definition: optimization_algorithm.cpp:54

OpenNN::StochasticGradientDescent
This concrete class represents the stochastic gradient descent optimization algorithm[1] for a loss i...
Definition: stochastic_gradient_descent.h:44

OpenNN::StochasticGradientDescent::set_momentum
void set_momentum(const type &)
Definition: stochastic_gradient_descent.cpp:187

OpenNN::StochasticGradientDescent::perform_training
TrainingResults perform_training()
Definition: stochastic_gradient_descent.cpp:328

OpenNN::StochasticGradientDescent::set_loss_index_pointer
void set_loss_index_pointer(LossIndex *)
Definition: stochastic_gradient_descent.cpp:97

OpenNN::StochasticGradientDescent::get_maximum_time
const type & get_maximum_time() const
Returns the maximum training time.
Definition: stochastic_gradient_descent.cpp:87

OpenNN::StochasticGradientDescent::momentum
type momentum
Parameter that accelerates SGD in the relevant direction and dampens oscillations.
Definition: stochastic_gradient_descent.h:130

OpenNN::StochasticGradientDescent::get_loss_goal
const type & get_loss_goal() const
Definition: stochastic_gradient_descent.cpp:79

OpenNN::StochasticGradientDescent::from_XML
void from_XML(const tinyxml2::XMLDocument &)
Definition: stochastic_gradient_descent.cpp:723

OpenNN::StochasticGradientDescent::set_default
void set_default()
Sets the members of the optimization algorithm object to their default values.
Definition: stochastic_gradient_descent.cpp:103

OpenNN::StochasticGradientDescent::initial_learning_rate
type initial_learning_rate
Initial learning rate.
Definition: stochastic_gradient_descent.h:122

OpenNN::StochasticGradientDescent::to_string_matrix
Tensor< string, 2 > to_string_matrix() const
Writes as matrix of strings the most representative atributes.
Definition: stochastic_gradient_descent.cpp:599

OpenNN::StochasticGradientDescent::set_initial_learning_rate
void set_initial_learning_rate(const type &)
Definition: stochastic_gradient_descent.cpp:134

OpenNN::StochasticGradientDescent::get_momentum
const type & get_momentum() const
Returns the momentum.
Definition: stochastic_gradient_descent.cpp:62

OpenNN::StochasticGradientDescent::set_maximum_time
void set_maximum_time(const type &)
Definition: stochastic_gradient_descent.cpp:258

OpenNN::StochasticGradientDescent::get_nesterov
const bool & get_nesterov() const
Returns true if nesterov is active, and false otherwise.
Definition: stochastic_gradient_descent.cpp:70

OpenNN::StochasticGradientDescent::set_loss_goal
void set_loss_goal(const type &)
Definition: stochastic_gradient_descent.cpp:249

OpenNN::StochasticGradientDescent::maximum_time
type maximum_time
Maximum training time. It is used as a stopping criterion.
Definition: stochastic_gradient_descent.h:156

OpenNN::StochasticGradientDescent::set_maximum_epochs_number
void set_maximum_epochs_number(const Index &)
Definition: stochastic_gradient_descent.cpp:222

OpenNN::StochasticGradientDescent::~StochasticGradientDescent
virtual ~StochasticGradientDescent()
Destructor.
Definition: stochastic_gradient_descent.cpp:39

OpenNN::StochasticGradientDescent::initial_decay
type initial_decay
Learning rate decay over each update.
Definition: stochastic_gradient_descent.h:126

OpenNN::StochasticGradientDescent::set_nesterov
void set_nesterov(const bool &)
Definition: stochastic_gradient_descent.cpp:213

OpenNN::StochasticGradientDescent::update_parameters
void update_parameters(LossIndexBackPropagation &back_propagation, StochasticGradientDescentData &optimization_data)
Set hardware to use. Default: Multi-core.
Definition: stochastic_gradient_descent.cpp:283

OpenNN::StochasticGradientDescent::training_loss_goal
type training_loss_goal
Goal value for the loss. It is used as a stopping criterion.
Definition: stochastic_gradient_descent.h:144

OpenNN::StochasticGradientDescent::set_initial_decay
void set_initial_decay(const type &)
Definition: stochastic_gradient_descent.cpp:160

OpenNN::StochasticGradientDescent::maximum_epochs_number
Index maximum_epochs_number
Maximum epochs number.
Definition: stochastic_gradient_descent.h:152

OpenNN::StochasticGradientDescent::write_XML
void write_XML(tinyxml2::XMLPrinter &) const
Definition: stochastic_gradient_descent.cpp:645

OpenNN::StochasticGradientDescent::nesterov
bool nesterov
Boolean. Whether to apply Nesterov momentum.
Definition: stochastic_gradient_descent.h:134

OpenNN::StochasticGradientDescent::StochasticGradientDescent
StochasticGradientDescent()
Definition: stochastic_gradient_descent.cpp:18

OpenNN::StochasticGradientDescent::batch_samples_number
Index batch_samples_number
Number of samples per training batch.
Definition: stochastic_gradient_descent.h:138

OpenNN::StochasticGradientDescent::maximum_selection_failures
Index maximum_selection_failures
Maximum selection error allowed.
Definition: stochastic_gradient_descent.h:148

OpenNN::StochasticGradientDescent::get_initial_learning_rate
const type & get_initial_learning_rate() const
Returns the initial learning rate.
Definition: stochastic_gradient_descent.cpp:46

OpenNN::StochasticGradientDescent::get_initial_decay
const type & get_initial_decay() const
Returns the initial decay.
Definition: stochastic_gradient_descent.cpp:54

tinyxml2::XMLDocument
Definition: tinyxml2.h:1653

tinyxml2::XMLPrinter
Definition: tinyxml2.h:2154

OpenNN::LossIndexBackPropagation
Definition: loss_index.h:290

OpenNN::OptimizationAlgorithmData
Definition: optimization_algorithm.h:168

OpenNN::StochasticGradientDescentData
Definition: stochastic_gradient_descent.h:166

OpenNN::StochasticGradientDescentData::StochasticGradientDescentData
StochasticGradientDescentData()
Default constructor.
Definition: stochastic_gradient_descent.h:169

OpenNN::TrainingResults
This structure contains the optimization algorithm results.
Definition: optimization_algorithm.h:198