documentation/reference/quasi__newton__method_8cpp_source.html

//   OpenNN: Open Neural Networks Library

//   www.opennn.net

//

//   Q U A S I - N E W T O N   M E T H O D   C L A S S

//

//   Artificial Intelligence Techniques SL

//   artelnics@artelnics.com


#include "quasi_newton_method.h"


namespace OpenNN

{


QuasiNewtonMethod::QuasiNewtonMethod()

    : OptimizationAlgorithm()

{

    set_default();

}


QuasiNewtonMethod::QuasiNewtonMethod(LossIndex* new_loss_index_pointer)

    : OptimizationAlgorithm(new_loss_index_pointer)

{

    learning_rate_algorithm.set_loss_index_pointer(new_loss_index_pointer);


    set_default();

}


QuasiNewtonMethod::~QuasiNewtonMethod()

{

}


const LearningRateAlgorithm& QuasiNewtonMethod::get_learning_rate_algorithm() const

{

    return learning_rate_algorithm;

}


LearningRateAlgorithm* QuasiNewtonMethod::get_learning_rate_algorithm_pointer()

{

    return &learning_rate_algorithm;

}


const QuasiNewtonMethod::InverseHessianApproximationMethod& QuasiNewtonMethod::get_inverse_hessian_approximation_method() const

{

    return inverse_hessian_approximation_method;

}


string QuasiNewtonMethod::write_inverse_hessian_approximation_method() const

{

    switch(inverse_hessian_approximation_method)

    {

    case InverseHessianApproximationMethod::DFP:

        return "DFP";


    case InverseHessianApproximationMethod::BFGS:

        return "BFGS";

    }


    ostringstream buffer;


    buffer << "OpenNN Exception: QuasiNewtonMethod class.\n"

           << "string write_inverse_hessian_approximation_method() const method.\n"

           << "Unknown inverse hessian approximation method.\n";


    throw logic_error(buffer.str());

}


const Index& QuasiNewtonMethod::get_epochs_number() const

{

    return epochs_number;

}


const type& QuasiNewtonMethod::get_minimum_loss_decrease() const

{

    return minimum_loss_decrease;

}


const type& QuasiNewtonMethod::get_loss_goal() const

{

    return training_loss_goal;

}


const Index& QuasiNewtonMethod::get_maximum_selection_failures() const

{

    return maximum_selection_failures;

}


const Index& QuasiNewtonMethod::get_maximum_epochs_number() const

{

    return maximum_epochs_number;

}


const type& QuasiNewtonMethod::get_maximum_time() const

{

    return maximum_time;

}


void QuasiNewtonMethod::set_loss_index_pointer(LossIndex* new_loss_index_pointer)

{

    loss_index_pointer = new_loss_index_pointer;


    learning_rate_algorithm.set_loss_index_pointer(new_loss_index_pointer);

}


void QuasiNewtonMethod::set_inverse_hessian_approximation_method(

    const QuasiNewtonMethod::InverseHessianApproximationMethod& new_inverse_hessian_approximation_method)

{

    inverse_hessian_approximation_method = new_inverse_hessian_approximation_method;

}


void QuasiNewtonMethod::set_inverse_hessian_approximation_method(const string& new_inverse_hessian_approximation_method_name)

{

    if(new_inverse_hessian_approximation_method_name == "DFP")

    {

        inverse_hessian_approximation_method = InverseHessianApproximationMethod::DFP;

    }

    else if(new_inverse_hessian_approximation_method_name == "BFGS")

    {

        inverse_hessian_approximation_method = InverseHessianApproximationMethod::BFGS;

    }

    else

    {

        ostringstream buffer;


        buffer << "OpenNN Exception: QuasiNewtonMethod class.\n"

               << "void set_inverse_hessian_approximation_method(const string&) method.\n"

               << "Unknown inverse hessian approximation method: " << new_inverse_hessian_approximation_method_name << ".\n";


        throw logic_error(buffer.str());

    }

}


void QuasiNewtonMethod::set_display(const bool& new_display)

{

    display = new_display;

}


void QuasiNewtonMethod::set_default()

{

    inverse_hessian_approximation_method = InverseHessianApproximationMethod::BFGS;


    learning_rate_algorithm.set_default();


    // Stopping criteria


    minimum_loss_decrease = type(0);

    training_loss_goal = type(0);

    maximum_selection_failures = numeric_limits<Index>::max();


    maximum_epochs_number = 1000;

    maximum_time = type(3600.0);


    // UTILITIES


    display = true;

    display_period = 10;

}


void QuasiNewtonMethod::set_minimum_loss_decrease(const type& new_minimum_loss_decrease)

{

    minimum_loss_decrease = new_minimum_loss_decrease;

}


void QuasiNewtonMethod::set_loss_goal(const type& new_loss_goal)

{

    training_loss_goal = new_loss_goal;

}


void QuasiNewtonMethod::set_maximum_selection_failures(const Index& new_maximum_selection_failures)

{

    maximum_selection_failures = new_maximum_selection_failures;

}


void QuasiNewtonMethod::set_maximum_epochs_number(const Index& new_maximum_epochs_number)

{

    maximum_epochs_number = new_maximum_epochs_number;

}


void QuasiNewtonMethod::set_maximum_time(const type& new_maximum_time)

{

#ifdef OPENNN_DEBUG


    if(new_maximum_time < static_cast<type>(0.0))

    {

        ostringstream buffer;


        buffer << "OpenNN Exception: QuasiNewtonMethod class.\n"

               << "void set_maximum_time(const type&) method.\n"

               << "Maximum time must be equal or greater than 0.\n";


        throw logic_error(buffer.str());

    }


#endif


    // Set maximum time


    maximum_time = new_maximum_time;

}


void QuasiNewtonMethod::initialize_inverse_hessian_approximation(QuasiNewtonMehtodData& optimization_data) const

{

    optimization_data.inverse_hessian.setZero();


    const Index parameters_number = optimization_data.inverse_hessian.dimension(0);


    for(Index i = 0; i < parameters_number; i++) optimization_data.inverse_hessian(i,i) = type(1);

}


void QuasiNewtonMethod::calculate_inverse_hessian_approximation(QuasiNewtonMehtodData& optimization_data) const

{

    switch(inverse_hessian_approximation_method)

    {

    case InverseHessianApproximationMethod::DFP:

        calculate_DFP_inverse_hessian(optimization_data);


        return;


    case InverseHessianApproximationMethod::BFGS:

        calculate_BFGS_inverse_hessian(optimization_data);


        return;

    }


    ostringstream buffer;


    buffer << "OpenNN Exception: QuasiNewtonMethod class.\n"

           << "Tensor<type, 1> calculate_inverse_hessian_approximation(const Tensor<type, 1>&, "

           "const Tensor<type, 1>&, const Tensor<type, 1>&, const Tensor<type, 1>&, const Tensor<type, 2>&) method.\n"

           << "Unknown inverse hessian approximation method.\n";


    throw logic_error(buffer.str());

}


const Tensor<type, 2> QuasiNewtonMethod::kronecker_product(Tensor<type, 1>& left_matrix, Tensor<type, 1>& right_matrix) const

{

    // Transform Tensors into Dense matrix


    auto ml = Eigen::Map<Eigen::Matrix<type,Eigen::Dynamic,Eigen::Dynamic,Eigen::RowMajor >>

            (left_matrix.data(),left_matrix.dimension(0), 1);


    auto mr = Eigen::Map<Eigen::Matrix<type,Eigen::Dynamic,Eigen::Dynamic,Eigen::RowMajor>>

            (right_matrix.data(),right_matrix.dimension(0), 1);


    // Kronecker Product


    auto product = kroneckerProduct(ml,mr).eval();


    // Matrix into a Tensor


    TensorMap< Tensor<type, 2> > direct_matrix(product.data(), left_matrix.size(), left_matrix.size());


    return direct_matrix;

}


const Tensor<type, 2> QuasiNewtonMethod::kronecker_product(Tensor<type, 2>& left_matrix, Tensor<type, 2>& right_matrix) const

{

    // Transform Tensors into Dense matrix


    auto ml = Eigen::Map<Eigen::Matrix<type,Eigen::Dynamic,Eigen::Dynamic,Eigen::RowMajor >>

            (left_matrix.data(),left_matrix.dimension(0),left_matrix.dimension(1));


    auto mr = Eigen::Map<Eigen::Matrix<type,Eigen::Dynamic,Eigen::Dynamic,Eigen::RowMajor>>

            (right_matrix.data(),right_matrix.dimension(0),right_matrix.dimension(1));


    // Kronecker Product


    auto product = kroneckerProduct(ml,mr).eval();


    // Matrix into a Tensor


    TensorMap< Tensor<type, 2> > direct_matrix(product.data(), product.rows(), product.cols());


    return direct_matrix;

}


void QuasiNewtonMethod::calculate_DFP_inverse_hessian(QuasiNewtonMehtodData& optimization_data) const

{

    // Dots


    Tensor<type, 0> parameters_difference_dot_gradient_difference;


    parameters_difference_dot_gradient_difference.device(*thread_pool_device)

            = optimization_data.parameters_difference.contract(optimization_data.gradient_difference, AT_B);


    optimization_data.old_inverse_hessian_dot_gradient_difference.device(*thread_pool_device)

            = optimization_data.old_inverse_hessian.contract(optimization_data.gradient_difference, A_B);


    Tensor<type, 0> gradient_dot_hessian_dot_gradient;


    gradient_dot_hessian_dot_gradient.device(*thread_pool_device)

            = optimization_data.gradient_difference.contract(optimization_data.old_inverse_hessian_dot_gradient_difference, AT_B); // Ok , auto?


    // Calculates Approximation


    optimization_data.inverse_hessian = optimization_data.old_inverse_hessian;


    optimization_data.inverse_hessian

            += kronecker_product(optimization_data.parameters_difference, optimization_data.parameters_difference)

            /parameters_difference_dot_gradient_difference(0);


    optimization_data.inverse_hessian

            -= kronecker_product(optimization_data.old_inverse_hessian_dot_gradient_difference, optimization_data.old_inverse_hessian_dot_gradient_difference)

            / gradient_dot_hessian_dot_gradient(0);

}


void QuasiNewtonMethod::calculate_BFGS_inverse_hessian(QuasiNewtonMehtodData& optimization_data) const

{

    const NeuralNetwork* neural_network_pointer = loss_index_pointer->get_neural_network_pointer();


    const Index parameters_number = neural_network_pointer->get_parameters_number();


    Tensor<type, 0> parameters_difference_dot_gradient_difference;


    parameters_difference_dot_gradient_difference.device(*thread_pool_device)

            = optimization_data.parameters_difference.contract(optimization_data.gradient_difference, AT_B);


    optimization_data.old_inverse_hessian_dot_gradient_difference.device(*thread_pool_device)

            = optimization_data.old_inverse_hessian.contract(optimization_data.gradient_difference, A_B);


    Tensor<type, 0> gradient_dot_hessian_dot_gradient;


    gradient_dot_hessian_dot_gradient.device(*thread_pool_device)

            = optimization_data.gradient_difference.contract(optimization_data.old_inverse_hessian_dot_gradient_difference, AT_B);


    Tensor<type, 1> BFGS(parameters_number);


    BFGS.device(*thread_pool_device)

            = optimization_data.parameters_difference/parameters_difference_dot_gradient_difference(0)

            - optimization_data.old_inverse_hessian_dot_gradient_difference/gradient_dot_hessian_dot_gradient(0);


    // Calculates Approximation


    optimization_data.inverse_hessian = optimization_data.old_inverse_hessian;


    optimization_data.inverse_hessian

            += kronecker_product(optimization_data.parameters_difference, optimization_data.parameters_difference)

            / parameters_difference_dot_gradient_difference(0); // Ok


    optimization_data.inverse_hessian

            -= kronecker_product(optimization_data.old_inverse_hessian_dot_gradient_difference, optimization_data.old_inverse_hessian_dot_gradient_difference)

            / gradient_dot_hessian_dot_gradient(0); // Ok


    optimization_data.inverse_hessian

            += kronecker_product(BFGS, BFGS)*(gradient_dot_hessian_dot_gradient(0)); // Ok

}


void QuasiNewtonMethod::update_parameters(

        const DataSetBatch& batch,

        NeuralNetworkForwardPropagation& forward_propagation,

        LossIndexBackPropagation& back_propagation,

        QuasiNewtonMehtodData& optimization_data)

{

    #ifdef OPENNN_DEBUG


        check();


    #endif


    optimization_data.parameters_difference.device(*thread_pool_device)

            = back_propagation.parameters - optimization_data.old_parameters;


    optimization_data.gradient_difference.device(*thread_pool_device)

            = back_propagation.gradient - optimization_data.old_gradient;


    optimization_data.old_parameters = back_propagation.parameters; // do not move above


    // Get training direction


    if(optimization_data.epoch == 0

    || is_zero(optimization_data.parameters_difference)

    || is_zero(optimization_data.gradient_difference))

    {

        initialize_inverse_hessian_approximation(optimization_data);

    }

    else

    {

        calculate_inverse_hessian_approximation(optimization_data);

    }


    optimization_data.training_direction.device(*thread_pool_device)

            = -optimization_data.inverse_hessian.contract(back_propagation.gradient, A_B);


    optimization_data.training_slope.device(*thread_pool_device)

            = back_propagation.gradient.contract(optimization_data.training_direction, AT_B);


    if(optimization_data.training_slope(0) >= type(0))

    {

        optimization_data.training_direction.device(*thread_pool_device) = -back_propagation.gradient;

    }


     // Get learning rate


    optimization_data.epoch == 0

            ? optimization_data.initial_learning_rate = first_learning_rate

            : optimization_data.initial_learning_rate = optimization_data.old_learning_rate;


    const pair<type,type> directional_point = learning_rate_algorithm.calculate_directional_point(

             batch,

             forward_propagation,

             back_propagation,

             optimization_data);


    optimization_data.learning_rate = directional_point.first;

    back_propagation.loss = directional_point.second;


    if(abs(optimization_data.learning_rate) > type(0))

    {

        optimization_data.parameters_increment.device(*thread_pool_device)

                = optimization_data.training_direction*optimization_data.learning_rate;


        back_propagation.parameters.device(*thread_pool_device) += optimization_data.parameters_increment;

    }

    else

    {

        const Index parameters_number = back_propagation.parameters.size();


        for(Index i = 0; i < parameters_number; i++)

        {

            if(abs(back_propagation.gradient(i)) < type(NUMERIC_LIMITS_MIN))

            {

                optimization_data.parameters_increment(i) = type(0);

            }

            else if(back_propagation.gradient(i) > type(0))

            {

                back_propagation.parameters(i) -= numeric_limits<type>::epsilon();


                optimization_data.parameters_increment(i) = -numeric_limits<type>::epsilon();

            }

            else if(back_propagation.gradient(i) < type(0))

            {

                back_propagation.parameters(i) += numeric_limits<type>::epsilon();


                optimization_data.parameters_increment(i) = numeric_limits<type>::epsilon();

            }

        }


        optimization_data.learning_rate = optimization_data.initial_learning_rate;

    }


    // Update stuff


    optimization_data.old_gradient = back_propagation.gradient;


    optimization_data.old_inverse_hessian = optimization_data.inverse_hessian;


    optimization_data.old_learning_rate = optimization_data.learning_rate;


    // Set parameters


    NeuralNetwork* neural_network_pointer = forward_propagation.neural_network_pointer;


    neural_network_pointer->set_parameters(back_propagation.parameters);

}


TrainingResults QuasiNewtonMethod::perform_training()

{

#ifdef OPENNN_DEBUG


    check();


#endif


    // Start training


    if(display) cout << "Training with quasi-Newton method...\n";


    TrainingResults results(maximum_epochs_number+1);


    // Data set


    DataSet* data_set_pointer = loss_index_pointer->get_data_set_pointer();


    // Loss index


    const string error_type = loss_index_pointer->get_error_type();


    const Index training_samples_number = data_set_pointer->get_training_samples_number();


    const Index selection_samples_number = data_set_pointer->get_selection_samples_number();

    const bool has_selection = data_set_pointer->has_selection();


    const Tensor<Index, 1> training_samples_indices = data_set_pointer->get_training_samples_indices();

    const Tensor<Index, 1> selection_samples_indices = data_set_pointer->get_selection_samples_indices();


    const Tensor<Index, 1> input_variables_indices = data_set_pointer->get_input_variables_indices();

    const Tensor<Index, 1> target_variables_indices = data_set_pointer->get_target_variables_indices();


    const Tensor<string, 1> inputs_names = data_set_pointer->get_input_variables_names();

    const Tensor<string, 1> targets_names = data_set_pointer->get_target_variables_names();


    const Tensor<Scaler, 1> input_variables_scalers = data_set_pointer->get_input_variables_scalers();

    const Tensor<Scaler, 1> target_variables_scalers = data_set_pointer->get_target_variables_scalers();


    Tensor<Descriptives, 1> input_variables_descriptives;

    Tensor<Descriptives, 1> target_variables_descriptives;


    // Neural network


    NeuralNetwork* neural_network_pointer = loss_index_pointer->get_neural_network_pointer();


    NeuralNetworkForwardPropagation training_forward_propagation(training_samples_number, neural_network_pointer);

    NeuralNetworkForwardPropagation selection_forward_propagation(selection_samples_number, neural_network_pointer);


    neural_network_pointer->set_inputs_names(inputs_names);

    neural_network_pointer->set_outputs_names(targets_names);


    if(neural_network_pointer->has_scaling_layer())

    {

        input_variables_descriptives = data_set_pointer->scale_input_variables();


        ScalingLayer* scaling_layer_pointer = neural_network_pointer->get_scaling_layer_pointer();

        scaling_layer_pointer->set(input_variables_descriptives, input_variables_scalers);

    }


    if(neural_network_pointer->has_unscaling_layer())

    {

        target_variables_descriptives = data_set_pointer->scale_target_variables();


        UnscalingLayer* unscaling_layer_pointer = neural_network_pointer->get_unscaling_layer_pointer();

        unscaling_layer_pointer->set(target_variables_descriptives, target_variables_scalers);

    }


    DataSetBatch training_batch(training_samples_number, data_set_pointer);

    training_batch.fill(training_samples_indices, input_variables_indices, target_variables_indices);


    DataSetBatch selection_batch(selection_samples_number, data_set_pointer);

    selection_batch.fill(selection_samples_indices, input_variables_indices, target_variables_indices);


    // Loss index


    loss_index_pointer->set_normalization_coefficient();


    LossIndexBackPropagation training_back_propagation(training_samples_number, loss_index_pointer);

    LossIndexBackPropagation selection_back_propagation(selection_samples_number, loss_index_pointer);


    // Optimization algorithm


    bool stop_training = false;


    Index selection_failures = 0;


    type old_loss = type(0);

    type loss_decrease = numeric_limits<type>::max();


    time_t beginning_time, current_time;

    time(&beginning_time);

    type elapsed_time;


    QuasiNewtonMehtodData optimization_data(this);


    // Main loop


    for(Index epoch = 0; epoch <= maximum_epochs_number; epoch++)

    {

        if(display && epoch%display_period == 0) cout << "Epoch: " << epoch << endl;


        optimization_data.epoch = epoch;


        // Neural network


        neural_network_pointer->forward_propagate(training_batch, training_forward_propagation);


        loss_index_pointer->back_propagate(training_batch, training_forward_propagation, training_back_propagation);


        results.training_error_history(epoch) = training_back_propagation.error;


        // Selection error


        if(has_selection)

        {

            neural_network_pointer->forward_propagate(selection_batch, selection_forward_propagation);


            // Loss Index


            loss_index_pointer->calculate_errors(selection_batch, selection_forward_propagation, selection_back_propagation);

            loss_index_pointer->calculate_error(selection_batch, selection_forward_propagation, selection_back_propagation);


            results.selection_error_history(epoch) = selection_back_propagation.error;


            if(epoch != 0 && results.selection_error_history(epoch) > results.selection_error_history(epoch-1)) selection_failures++;

        }


        time(&current_time);

        elapsed_time = static_cast<type>(difftime(current_time, beginning_time));


        if(display && epoch%display_period == 0)

        {

            cout << "Training error: " << training_back_propagation.error << endl;

            if(has_selection) cout << "Selection error: " << selection_back_propagation.error << endl;

            cout << "Learning rate: " << optimization_data.learning_rate << endl;

            cout << "Elapsed time: " << write_time(elapsed_time) << endl;

        }


        if(epoch != 0) loss_decrease = old_loss - training_back_propagation.loss;


        if(loss_decrease < minimum_loss_decrease)

        {

            if(display) cout << "Epoch " << epoch << endl << "Minimum loss decrease reached: " << loss_decrease << endl;


            stop_training = true;


            results.stopping_condition = OptimizationAlgorithm::StoppingCondition::MinimumLossDecrease;

        }


        old_loss = training_back_propagation.loss;


        if(training_back_propagation.loss <= training_loss_goal)

        {

            if(display) cout << "Epoch " << epoch << endl << "Loss goal reached: " << training_back_propagation.loss << endl;


            stop_training = true;


            results.stopping_condition = OptimizationAlgorithm::StoppingCondition::LossGoal;

        }

        else if(selection_failures >= maximum_selection_failures)

        {

            if(display) cout << "Epoch " << epoch << endl << "Maximum selection failures reached: " << selection_failures << endl;


            stop_training = true;


            results.stopping_condition = OptimizationAlgorithm::StoppingCondition::MaximumSelectionErrorIncreases;

        }

        else if(epoch == maximum_epochs_number)

        {

            if(display) cout << "Epoch " << epoch << endl << "Maximum number of epochs reached: " << epoch << endl;


            stop_training = true;


            results.stopping_condition = OptimizationAlgorithm::StoppingCondition::MaximumEpochsNumber;

        }

        else if(elapsed_time >= maximum_time)

        {

            if(display) cout << "Epoch " << epoch << endl << "Maximum training time reached: " << write_time(elapsed_time) << endl;


            stop_training = true;


            results.stopping_condition = OptimizationAlgorithm::StoppingCondition::MaximumTime;

        }


        if(stop_training)

        {

            results.resize_training_error_history(epoch+1);

            if(has_selection) results.resize_selection_error_history(epoch+1);

            else results.resize_selection_error_history(0);


            results.elapsed_time = write_time(elapsed_time);


            break;

        }


        if(epoch != 0 && epoch % save_period == 0) neural_network_pointer->save(neural_network_file_name);


        if(stop_training) break;


        update_parameters(training_batch, training_forward_propagation, training_back_propagation, optimization_data);

    }


    data_set_pointer->unscale_input_variables(input_variables_descriptives);


    if(neural_network_pointer->has_unscaling_layer())

        data_set_pointer->unscale_target_variables(target_variables_descriptives);


    if(display) results.print();


    return results;

}


string QuasiNewtonMethod::write_optimization_algorithm_type() const

{

    return "QUASI_NEWTON_METHOD";

}


void QuasiNewtonMethod::write_XML(tinyxml2::XMLPrinter& file_stream) const

{

    ostringstream buffer;


    file_stream.OpenElement("QuasiNewtonMethod");


    // Inverse hessian approximation method


    file_stream.OpenElement("InverseHessianApproximationMethod");


    file_stream.PushText(write_inverse_hessian_approximation_method().c_str());


    file_stream.CloseElement();


    // Learning rate algorithm


    learning_rate_algorithm.write_XML(file_stream);


    // Minimum loss decrease


    file_stream.OpenElement("MinimumLossDecrease");


    buffer.str("");

    buffer << minimum_loss_decrease;


    file_stream.PushText(buffer.str().c_str());


    file_stream.CloseElement();


    // Loss goal


    file_stream.OpenElement("LossGoal");


    buffer.str("");

    buffer << training_loss_goal;


    file_stream.PushText(buffer.str().c_str());


    file_stream.CloseElement();


    // Maximum selection error increases


    file_stream.OpenElement("MaximumSelectionErrorIncreases");


    buffer.str("");

    buffer << maximum_selection_failures;


    file_stream.PushText(buffer.str().c_str());


    file_stream.CloseElement();


    // Maximum iterations number


    file_stream.OpenElement("MaximumEpochsNumber");


    buffer.str("");

    buffer << maximum_epochs_number;


    file_stream.PushText(buffer.str().c_str());


    file_stream.CloseElement();


    // Maximum time


    file_stream.OpenElement("MaximumTime");


    buffer.str("");

    buffer << maximum_time;


    file_stream.PushText(buffer.str().c_str());


    file_stream.CloseElement();


    // Hardware use


    file_stream.OpenElement("HardwareUse");


    buffer.str("");

    buffer << hardware_use;


    file_stream.PushText(buffer.str().c_str());


    file_stream.CloseElement();


    file_stream.CloseElement();

}


Tensor<string, 2> QuasiNewtonMethod::to_string_matrix() const

{

    Tensor<string, 2> labels_values(8, 2);


    // Inverse hessian approximation method


    labels_values(0,0) = "Inverse hessian approximation method";

    labels_values(0,1) = write_inverse_hessian_approximation_method();


    // Learning rate method


    labels_values(1,0) = "Learning rate method";

    labels_values(1,1) = learning_rate_algorithm.write_learning_rate_method();


    // Loss tolerance


    labels_values(2,0) = "Learning rate tolerance";

    labels_values(2,1) = to_string(double(learning_rate_algorithm.get_learning_rate_tolerance()));


    // Minimum loss decrease


    labels_values(3,0) = "Minimum loss decrease";

    labels_values(3,1) = to_string(double(minimum_loss_decrease));


    // Loss goal


    labels_values(4,0) = "Loss goal";

    labels_values(4,1) = to_string(double(training_loss_goal));


    // Maximum selection error increases


    labels_values(5,0) = "Maximum selection error increases";

    labels_values(5,1) = to_string(maximum_selection_failures);


    // Maximum epochs number


    labels_values(6,0) = "Maximum epochs number";

    labels_values(6,1) = to_string(maximum_epochs_number);


    // Maximum time


    labels_values(7,0) = "Maximum time";

    labels_values(7,1) = write_time(maximum_time);


    return labels_values;

}


void QuasiNewtonMethod::from_XML(const tinyxml2::XMLDocument& document)

{

    const tinyxml2::XMLElement* root_element = document.FirstChildElement("QuasiNewtonMethod");


    if(!root_element)

    {

        ostringstream buffer;


        buffer << "OpenNN Exception: QuasiNewtonMethod class.\n"

               << "void from_XML(const tinyxml2::XMLDocument&) method.\n"

               << "Quasi-Newton method element is nullptr.\n";


        throw logic_error(buffer.str());

    }


    // Inverse hessian approximation method

    {

        const tinyxml2::XMLElement* element = root_element->FirstChildElement("InverseHessianApproximationMethod");


        if(element)

        {

            const string new_inverse_hessian_approximation_method = element->GetText();


            try

            {

                set_inverse_hessian_approximation_method(new_inverse_hessian_approximation_method);

            }

            catch(const logic_error& e)

            {

                cerr << e.what() << endl;

            }

        }

    }


    // Learning rate algorithm

    {

        const tinyxml2::XMLElement* element = root_element->FirstChildElement("LearningRateAlgorithm");


        if(element)

        {

            tinyxml2::XMLDocument learning_rate_algorithm_document;

            tinyxml2::XMLNode* element_clone;


            element_clone = element->DeepClone(&learning_rate_algorithm_document);


            learning_rate_algorithm_document.InsertFirstChild(element_clone);


            learning_rate_algorithm.from_XML(learning_rate_algorithm_document);

        }

    }


    // Minimum loss decrease

    {

        const tinyxml2::XMLElement* element = root_element->FirstChildElement("MinimumLossDecrease");


        if(element)

        {

            const type new_minimum_loss_decrease = static_cast<type>(atof(element->GetText()));


            try

            {

                set_minimum_loss_decrease(new_minimum_loss_decrease);

            }

            catch(const logic_error& e)

            {

                cerr << e.what() << endl;

            }

        }

    }


    // Loss goal

    {

        const tinyxml2::XMLElement* element = root_element->FirstChildElement("LossGoal");


        if(element)

        {

            const type new_loss_goal = static_cast<type>(atof(element->GetText()));


            try

            {

                set_loss_goal(new_loss_goal);

            }

            catch(const logic_error& e)

            {

                cerr << e.what() << endl;

            }

        }

    }


    // Maximum selection error increases

    {

        const tinyxml2::XMLElement* element = root_element->FirstChildElement("MaximumSelectionErrorIncreases");


        if(element)

        {

            const Index new_maximum_selection_failures = static_cast<Index>(atoi(element->GetText()));


            try

            {

                set_maximum_selection_failures(new_maximum_selection_failures);

            }

            catch(const logic_error& e)

            {

                cerr << e.what() << endl;

            }

        }

    }


    // Maximum epochs number

    {

        const tinyxml2::XMLElement* element = root_element->FirstChildElement("MaximumEpochsNumber");


        if(element)

        {

            const Index new_maximum_epochs_number = static_cast<Index>(atoi(element->GetText()));


            try

            {

                set_maximum_epochs_number(new_maximum_epochs_number);

            }

            catch(const logic_error& e)

            {

                cerr << e.what() << endl;

            }

        }

    }


    // Maximum time

    {

        const tinyxml2::XMLElement* element = root_element->FirstChildElement("MaximumTime");


        if(element)

        {

            const type new_maximum_time = static_cast<type>(atof(element->GetText()));


            try

            {

                set_maximum_time(new_maximum_time);

            }

            catch(const logic_error& e)

            {

                cerr << e.what() << endl;

            }

        }

    }


    // Hardware use

    {

        const tinyxml2::XMLElement* element = root_element->FirstChildElement("HardwareUse");


        if(element)

        {

            const string new_hardware_use = element->GetText();


            try

            {

                set_hardware_use(new_hardware_use);

            }

            catch(const logic_error& e)

            {

                cerr << e.what() << endl;

            }

        }

    }

}


}


// OpenNN: Open Neural Networks Library.

// Copyright(C) 2005-2021 Artificial Intelligence Techniques, SL.

//

// This library is free software; you can redistribute it and/or

// modify it under the terms of the GNU Lesser General Public

// License as published by the Free Software Foundation; either

// version 2.1 of the License, or any later version.

//

// This library is distributed in the hope that it will be useful,

// but WITHOUT ANY WARRANTY; without even the implied warranty of

// MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU

// Lesser General Public License for more details.


// You should have received a copy of the GNU Lesser General Public

// License along with this library; if not, write to the Free Software

// Foundation, Inc., 51 Franklin St, Fifth Floor, Boston, MA  02110-1301  USA

OpenNN::DataSet
This class represents the concept of data set for data modelling problems, such as approximation,...
Definition: data_set.h:57

OpenNN::DataSet::get_training_samples_number
Index get_training_samples_number() const
Returns the number of samples in the data set which will be used for training.
Definition: data_set.cpp:1382

OpenNN::DataSet::scale_target_variables
Tensor< Descriptives, 1 > scale_target_variables()
Definition: data_set.cpp:6298

OpenNN::DataSet::get_training_samples_indices
Tensor< Index, 1 > get_training_samples_indices() const
Returns the indices of the samples which will be used for training.
Definition: data_set.cpp:1073

OpenNN::DataSet::get_selection_samples_indices
Tensor< Index, 1 > get_selection_samples_indices() const
Returns the indices of the samples which will be used for selection.
Definition: data_set.cpp:1098

OpenNN::DataSet::unscale_input_variables
void unscale_input_variables(const Tensor< Descriptives, 1 > &)
Definition: data_set.cpp:6351

OpenNN::DataSet::get_target_variables_indices
Tensor< Index, 1 > get_target_variables_indices() const
Returns the indices of the target variables.
Definition: data_set.cpp:3094

OpenNN::DataSet::get_selection_samples_number
Index get_selection_samples_number() const
Returns the number of samples in the data set which will be used for selection.
Definition: data_set.cpp:1402

OpenNN::DataSet::unscale_target_variables
void unscale_target_variables(const Tensor< Descriptives, 1 > &)
Definition: data_set.cpp:6397

OpenNN::DataSet::get_target_variables_names
Tensor< string, 1 > get_target_variables_names() const
Definition: data_set.cpp:2215

OpenNN::DataSet::get_input_variables_indices
Tensor< Index, 1 > get_input_variables_indices() const
Returns the indices of the input variables.
Definition: data_set.cpp:3047

OpenNN::DataSet::get_input_variables_names
Tensor< string, 1 > get_input_variables_names() const
Definition: data_set.cpp:2184

OpenNN::DataSet::scale_input_variables
Tensor< Descriptives, 1 > scale_input_variables()
Definition: data_set.cpp:6243

OpenNN::LearningRateAlgorithm
A learning rate that is adjusted according to an algorithm during training to minimize training time.
Definition: learning_rate_algorithm.h:41

OpenNN::LearningRateAlgorithm::set_loss_index_pointer
void set_loss_index_pointer(LossIndex *)
Definition: learning_rate_algorithm.cpp:175

OpenNN::LearningRateAlgorithm::from_XML
void from_XML(const tinyxml2::XMLDocument &)
Definition: learning_rate_algorithm.cpp:730

OpenNN::LearningRateAlgorithm::set_default
void set_default()
Sets the members of the learning rate algorithm to their default values.
Definition: learning_rate_algorithm.cpp:152

OpenNN::LearningRateAlgorithm::write_learning_rate_method
string write_learning_rate_method() const
Returns a string with the name of the learning rate method to be used.
Definition: learning_rate_algorithm.cpp:97

OpenNN::LearningRateAlgorithm::calculate_directional_point
pair< type, type > calculate_directional_point(const DataSetBatch &, NeuralNetworkForwardPropagation &, LossIndexBackPropagation &, OptimizationAlgorithmData &) const
Definition: learning_rate_algorithm.cpp:268

OpenNN::LearningRateAlgorithm::write_XML
void write_XML(tinyxml2::XMLPrinter &) const
Definition: learning_rate_algorithm.cpp:693

OpenNN::LossIndex
This abstract class represents the concept of loss index composed of an error term and a regularizati...
Definition: loss_index.h:48

OpenNN::LossIndex::get_error_type
virtual string get_error_type() const
Returns a string with the default type of error term, "USER_PERFORMANCE_TERM".
Definition: loss_index.cpp:608

OpenNN::LossIndex::get_neural_network_pointer
NeuralNetwork * get_neural_network_pointer() const
Returns a pointer to the neural network object associated to the error term.
Definition: loss_index.h:70

OpenNN::LossIndex::get_data_set_pointer
DataSet * get_data_set_pointer() const
Returns a pointer to the data set object associated to the error term.
Definition: loss_index.h:92

OpenNN::NeuralNetwork
Definition: neural_network.h:47

OpenNN::NeuralNetwork::get_scaling_layer_pointer
ScalingLayer * get_scaling_layer_pointer() const
Returns a pointer to the scaling layers object composing this neural network object.
Definition: neural_network.cpp:473

OpenNN::NeuralNetwork::has_scaling_layer
bool has_scaling_layer() const
Definition: neural_network.cpp:221

OpenNN::NeuralNetwork::has_unscaling_layer
bool has_unscaling_layer() const
Definition: neural_network.cpp:285

OpenNN::NeuralNetwork::forward_propagate
void forward_propagate(const DataSetBatch &, NeuralNetworkForwardPropagation &) const
Calculate forward propagation in neural network.
Definition: neural_network.cpp:1373

OpenNN::NeuralNetwork::save
void save(const string &) const
Definition: neural_network.cpp:2371

OpenNN::NeuralNetwork::set_parameters
void set_parameters(Tensor< type, 1 > &)
Definition: neural_network.cpp:1135

OpenNN::NeuralNetwork::get_unscaling_layer_pointer
UnscalingLayer * get_unscaling_layer_pointer() const
Returns a pointer to the unscaling layers object composing this neural network object.
Definition: neural_network.cpp:497

OpenNN::NeuralNetwork::set_inputs_names
void set_inputs_names(const Tensor< string, 1 > &)
Definition: neural_network.cpp:796

OpenNN::NeuralNetwork::get_parameters_number
Index get_parameters_number() const
Definition: neural_network.cpp:1044

OpenNN::NeuralNetwork::set_outputs_names
void set_outputs_names(const Tensor< string, 1 > &)
Definition: neural_network.cpp:805

OpenNN::OptimizationAlgorithm
Definition: optimization_algorithm.h:42

OpenNN::OptimizationAlgorithm::neural_network_file_name
string neural_network_file_name
Path where the neural network is saved.
Definition: optimization_algorithm.h:150

OpenNN::OptimizationAlgorithm::set_hardware_use
void set_hardware_use(const string &)
Set hardware to use. Default: Multi-core.
Definition: optimization_algorithm.cpp:85

OpenNN::OptimizationAlgorithm::loss_index_pointer
LossIndex * loss_index_pointer
Pointer to a loss index for a neural network object.
Definition: optimization_algorithm.h:128

OpenNN::OptimizationAlgorithm::check
virtual void check() const
Definition: optimization_algorithm.cpp:260

OpenNN::OptimizationAlgorithm::display
bool display
Display messages to screen.
Definition: optimization_algorithm.h:154

OpenNN::OptimizationAlgorithm::write_time
const string write_time(const type &) const
Writes the time from seconds in format HH:mm:ss.
Definition: optimization_algorithm.cpp:483

OpenNN::OptimizationAlgorithm::save_period
Index save_period
Number of iterations between the training saving progress.
Definition: optimization_algorithm.h:146

OpenNN::OptimizationAlgorithm::hardware_use
string hardware_use
Hardware use.
Definition: optimization_algorithm.h:138

OpenNN::OptimizationAlgorithm::epochs_number
Index epochs_number
Number of training epochs in the neural network.
Definition: optimization_algorithm.h:132

OpenNN::OptimizationAlgorithm::display_period
Index display_period
Number of iterations between the training showing progress.
Definition: optimization_algorithm.h:142

OpenNN::QuasiNewtonMethod::perform_training
TrainingResults perform_training()
Definition: quasi_newton_method.cpp:592

OpenNN::QuasiNewtonMethod::set_maximum_selection_failures
void set_maximum_selection_failures(const Index &)
Definition: quasi_newton_method.cpp:249

OpenNN::QuasiNewtonMethod::update_parameters
void update_parameters(const DataSetBatch &batch, NeuralNetworkForwardPropagation &forward_propagation, LossIndexBackPropagation &back_propagation, QuasiNewtonMehtodData &optimization_data)
QuasiNewtonMethod::update_parameters.
Definition: quasi_newton_method.cpp:479

OpenNN::QuasiNewtonMethod::get_inverse_hessian_approximation_method
const InverseHessianApproximationMethod & get_inverse_hessian_approximation_method() const
Returns the method for approximating the inverse hessian matrix to be used when training.
Definition: quasi_newton_method.cpp:65

OpenNN::QuasiNewtonMethod::set_loss_index_pointer
void set_loss_index_pointer(LossIndex *)
Definition: quasi_newton_method.cpp:145

OpenNN::QuasiNewtonMethod::get_maximum_time
const type & get_maximum_time() const
Returns the maximum training time.
Definition: quasi_newton_method.cpp:135

OpenNN::QuasiNewtonMethod::get_loss_goal
const type & get_loss_goal() const
Definition: quasi_newton_method.cpp:111

OpenNN::QuasiNewtonMethod::from_XML
void from_XML(const tinyxml2::XMLDocument &)
Definition: quasi_newton_method.cpp:953

OpenNN::QuasiNewtonMethod::calculate_DFP_inverse_hessian
void calculate_DFP_inverse_hessian(QuasiNewtonMehtodData &) const
Definition: quasi_newton_method.cpp:390

OpenNN::QuasiNewtonMethod::set_default
void set_default()
Sets the members of the optimization algorithm object to their default values.
Definition: quasi_newton_method.cpp:205

OpenNN::QuasiNewtonMethod::inverse_hessian_approximation_method
InverseHessianApproximationMethod inverse_hessian_approximation_method
Variable containing the actual method used to obtain a suitable learning rate.
Definition: quasi_newton_method.h:155

OpenNN::QuasiNewtonMethod::get_maximum_epochs_number
const Index & get_maximum_epochs_number() const
Returns the maximum number of epochs for training.
Definition: quasi_newton_method.cpp:127

OpenNN::QuasiNewtonMethod::kronecker_product
const Tensor< type, 2 > kronecker_product(Tensor< type, 2 > &, Tensor< type, 2 > &) const
Definition: quasi_newton_method.cpp:360

OpenNN::QuasiNewtonMethod::to_string_matrix
Tensor< string, 2 > to_string_matrix() const
Writes as matrix of strings the most representative atributes.
Definition: quasi_newton_method.cpp:905

OpenNN::QuasiNewtonMethod::minimum_loss_decrease
type minimum_loss_decrease
Minimum loss improvement between two successive epochs. It is used as a stopping criterion.
Definition: quasi_newton_method.h:163

OpenNN::QuasiNewtonMethod::get_learning_rate_algorithm_pointer
LearningRateAlgorithm * get_learning_rate_algorithm_pointer()
Returns a pointer to the learning rate algorithm object inside the quasi-Newton method object.
Definition: quasi_newton_method.cpp:57

OpenNN::QuasiNewtonMethod::get_learning_rate_algorithm
const LearningRateAlgorithm & get_learning_rate_algorithm() const
Returns a constant reference to the learning rate algorithm object inside the quasi-Newton method obj...
Definition: quasi_newton_method.cpp:49

OpenNN::QuasiNewtonMethod::set_maximum_time
void set_maximum_time(const type &)
Definition: quasi_newton_method.cpp:267

OpenNN::QuasiNewtonMethod::set_inverse_hessian_approximation_method
void set_inverse_hessian_approximation_method(const InverseHessianApproximationMethod &)
Definition: quasi_newton_method.cpp:156

OpenNN::QuasiNewtonMethod::calculate_BFGS_inverse_hessian
void calculate_BFGS_inverse_hessian(QuasiNewtonMehtodData &) const
Definition: quasi_newton_method.cpp:430

OpenNN::QuasiNewtonMethod::InverseHessianApproximationMethod
InverseHessianApproximationMethod
Enumeration of the available training operators for obtaining the approximation to the inverse hessia...
Definition: quasi_newton_method.h:61

OpenNN::QuasiNewtonMethod::learning_rate_algorithm
LearningRateAlgorithm learning_rate_algorithm
Definition: quasi_newton_method.h:151

OpenNN::QuasiNewtonMethod::set_loss_goal
void set_loss_goal(const type &)
Definition: quasi_newton_method.cpp:240

OpenNN::QuasiNewtonMethod::maximum_time
type maximum_time
Maximum training time. It is used as a stopping criterion.
Definition: quasi_newton_method.h:180

OpenNN::QuasiNewtonMethod::set_maximum_epochs_number
void set_maximum_epochs_number(const Index &)
Definition: quasi_newton_method.cpp:258

OpenNN::QuasiNewtonMethod::set_minimum_loss_decrease
void set_minimum_loss_decrease(const type &)
Definition: quasi_newton_method.cpp:230

OpenNN::QuasiNewtonMethod::calculate_inverse_hessian_approximation
void calculate_inverse_hessian_approximation(QuasiNewtonMehtodData &) const
Definition: quasi_newton_method.cpp:307

OpenNN::QuasiNewtonMethod::QuasiNewtonMethod
QuasiNewtonMethod()
Definition: quasi_newton_method.cpp:18

OpenNN::QuasiNewtonMethod::write_inverse_hessian_approximation_method
string write_inverse_hessian_approximation_method() const
Returns the name of the method for the approximation of the inverse hessian.
Definition: quasi_newton_method.cpp:73

OpenNN::QuasiNewtonMethod::training_loss_goal
type training_loss_goal
Goal value for the loss. It is used as a stopping criterion.
Definition: quasi_newton_method.h:167

OpenNN::QuasiNewtonMethod::maximum_epochs_number
Index maximum_epochs_number
Maximum number of epochs to perform_training. It is used as a stopping criterion.
Definition: quasi_newton_method.h:176

OpenNN::QuasiNewtonMethod::set_display
void set_display(const bool &)
Definition: quasi_newton_method.cpp:199

OpenNN::QuasiNewtonMethod::write_XML
void write_XML(tinyxml2::XMLPrinter &) const
Definition: quasi_newton_method.cpp:815

OpenNN::QuasiNewtonMethod::~QuasiNewtonMethod
virtual ~QuasiNewtonMethod()
Definition: quasi_newton_method.cpp:42

OpenNN::QuasiNewtonMethod::get_maximum_selection_failures
const Index & get_maximum_selection_failures() const
Returns the maximum number of selection error increases during the training process.
Definition: quasi_newton_method.cpp:119

OpenNN::QuasiNewtonMethod::maximum_selection_failures
Index maximum_selection_failures
Definition: quasi_newton_method.h:172

OpenNN::QuasiNewtonMethod::get_minimum_loss_decrease
const type & get_minimum_loss_decrease() const
Returns the minimum loss improvement during training.
Definition: quasi_newton_method.cpp:102

OpenNN::ScalingLayer
This class represents a layer of scaling neurons.
Definition: scaling_layer.h:38

OpenNN::ScalingLayer::set
void set()
Sets the scaling layer to be empty.
Definition: scaling_layer.cpp:290

OpenNN::UnscalingLayer
This class represents a layer of unscaling neurons.
Definition: unscaling_layer.h:40

OpenNN::UnscalingLayer::set
void set()
Sets the unscaling layer to be empty.
Definition: unscaling_layer.cpp:273

tinyxml2::XMLDocument
Definition: tinyxml2.h:1653

tinyxml2::XMLElement
Definition: tinyxml2.h:1243

tinyxml2::XMLNode
Definition: tinyxml2.h:663

tinyxml2::XMLPrinter
Definition: tinyxml2.h:2154

tinyxml2::XMLPrinter::PushText
void PushText(const char *text, bool cdata=false)
Add a text node.
Definition: tinyxml2.cpp:2878

tinyxml2::XMLPrinter::CloseElement
virtual void CloseElement(bool compactMode=false)
If streaming, close the Element.
Definition: tinyxml2.cpp:2834

half_float::abs
HALF_CONSTEXPR half abs(half arg)
Definition: half.hpp:2735

OpenNN::DataSetBatch
Definition: data_set.h:887

OpenNN::LossIndexBackPropagation
Definition: loss_index.h:290

OpenNN::NeuralNetworkForwardPropagation
Definition: neural_network.h:262

OpenNN::QuasiNewtonMehtodData
Definition: quasi_newton_method.h:185

OpenNN::TrainingResults
This structure contains the optimization algorithm results.
Definition: optimization_algorithm.h:198

OpenNN::TrainingResults::selection_error_history
Tensor< type, 1 > selection_error_history
History of the selection error over the training iterations.
Definition: optimization_algorithm.h:279

OpenNN::TrainingResults::resize_training_error_history
void resize_training_error_history(const Index &)
Resizes the training error history keeping the values.
Definition: optimization_algorithm.cpp:438

OpenNN::TrainingResults::stopping_condition
OptimizationAlgorithm::StoppingCondition stopping_condition
Stopping condition of the algorithm.
Definition: optimization_algorithm.h:257

OpenNN::TrainingResults::resize_selection_error_history
void resize_selection_error_history(const Index &)
Resizes the selection error history keeping the values.
Definition: optimization_algorithm.cpp:461

OpenNN::TrainingResults::training_error_history
Tensor< type, 1 > training_error_history
History of the loss function loss over the training iterations.
Definition: optimization_algorithm.h:275

OpenNN::TrainingResults::elapsed_time
string elapsed_time
Elapsed time of the training process.
Definition: optimization_algorithm.h:283