34 Neural Networks in `R` (with Keras)

34.1 Introduction

Working with neural networks in R can be a bit challenging. For one, there are many packages available that can train ANNs, see Table 34.1 for some examples. The packages vary greatly in capabilities and syntax.

Several frameworks for ANNs and deep learning exist. TensorFlow, Microsoft CNTK, PyTorch, and Theano are among the most important ones.

Table 34.1: Some R packages for neural network analysis.

Package	Notes
`nnet`	Feed-forward neural networks with a single hidden layer, and for multinomial log-linear models
`neuralnet`	Training of neural networks using backpropagation
`tensorflow`	Interface to TensorFlow, a free and open-source software library for machine learning and artificial intelligence
`darch`	Deep architectures and Restricted Boltzmann Machines
`deepnet`	Deep learning toolkit
`deepr`	Streamlines training, tuning, and predicting for deep learning based on `darch` and `deepnet`
`rnn`	Recurrent Neural Networks (RNN)
`torch`	Tensors and neural networks with GPU acceleration; similar to Pytorch
`keras`	Interface to the Python deep learning library Keras
`kerasR`	Interface to the Python deep learning library Keras

Keras has emerged as an important API (Application Programming Interface) for deep learning. It provides a consistent interface on top of JAX, TensorFlow, or PyTorch. While TensorFlow is very powerful, the learning curve can be steep and you tend to write a lot of code. On the other hand, you have complete control over the types of models you build and train with TensorFlow. That makes Keras so relevant: you can tap into the capabilities of TensorFlow with a simpler API.

The drawback of using Keras and other deep learning frameworks in R is that they are written in Python. Tools from the modern machine learning toolbox tend to be written in Python. The keras package in R is not an implementation of Keras in R, it is an R-based API that calls into the Keras Python code. And that code calls into Tensorflow, or whatever deep learning framework Keras is running on.

To use keras in R, you thus need to manage a Python distribution, manage Python packages, and deal with the idiosyncrasies of function interfaces between programming languages. For example, you will have to deal with Python error messages bubbling up to the R session. Fortunately, some of the headaches of running Python from R are mitigated by the reticulate package which provides the R interface to Python.

Tip

The KerasR package is not the same as the keras package in R. Both packages provide an API for Keras and the API of KerasR is closer to the Python syntax. That makes switching between R and Python for deep learning easier. However, the keras package supports piping of operations similar to the dplyr package. I find working with keras simple because neural networks can be build by piping layer definitions. After all, that is how neural networks work: the output of one layer is input to the next layer.

We will be using the keras package in R. It uses the TensorFlow framework under the cover by default.

34.2 Running Keras in `R`

Installation

As mentioned earlier, running keras requires a Python distribution. In addition, you need to install the Keras and TensorFlow Python libraries. The preferred Python installation in this case is conda-based. Good instructions for installing TensorFlow, Keras, and the Python runtime at once—depending on whether you have a prior conda installation—can be found here.

In the situation without prior conda installation, these commands will install everything you need (do this once in your environment):

install.packages("keras")
reticulate::install_miniconda()
keras::install_keras(method="conda", python_version="3.11")

Then, in an R session that runs keras do the following:

library(keras)
reticulate::use_condaenv(condaenv = "r-tensorflow")

The "r-tensorflow" conda environment was installed during the previous step.

Keras Basics

Training a neural network with keras involves three steps:

Defining the network
Setting up the optimization
Fitting the model

Not until the third step does the algorithm get in contact with actual data. However, we need to know some things about the data in order to define the network in step 1: the dimensions of the input and output.

Defining the network

The most convenient way of specifying a multi layer neural network is by adding layers sequentially, from the input layer to the output layer. These starts with a call to keras_model_sequential(). Suppose we want to predict a continuous response (regression application) based on inputs \(x_1, \cdots, x_{20}\) with one hidden layer and dropout regularization.

The following statements define the model sequentially:

firstANN <- keras_model_sequential() %>%
    layer_dense(units      =50, 
                activation ="relu",
                input_shape=19
                ) %>%
    layer_dropout(rate=0.4) %>%
    layer_dense(units=1,
                name ="Output")

layer_dense() adds a fully connected layer to the networks, the units= option specifies the number of neurons in the layer. The input_shape= option is specified only for the first layer in the network. In summary, the hidden layer receives 20 inputs and has 50 output units (neurons) and ReLU activation. The output from the hidden layer is passed on (piped) to a dropout layer with a dropout rate of \(\phi = 0.4\). The result of the dropout layer is passed on to another fully connected layer with a single neuron. This is the output layer of the network. In other words, the last layer in the sequence is automatically the output layer. Since we are in a regression context to predict a numeric target variable, there is only one output unit in the final layer. If this was a classification problem with \(5\) categories, the last layer would have 5 units.

You can assign a name to each layer with the name= option, this makes it easier to identify the layers in output. If you do not specify a name, Keras will assign a name that combines a description of the layer type with a numerical index (not always). The numeric indices can be confusing because they depend on counters internal to the Python code. Assigning an explicit name is recommended practice.

The activation= option specifies the activation function \(\sigma()\) for the hidden layers and the output function \(g()\) for the output layer. The default is the identity (“linear”) activation, \(\sigma(x) = x\). This default is appropriate for the output layer in a regression application. For the hidden layer we choose the ReLU activation.

To see the list of activation functions supported by keras (Keras), type the following at the console prompt:

?keras::acti

The basic neural network is now defined and we can find out how many parameters it entails.

summary(firstANN)

Model: "sequential"
________________________________________________________________________________
 Layer (type)                       Output Shape                    Param #     
================================================================================
 dense (Dense)                      (None, 50)                      1000        
 dropout (Dropout)                  (None, 50)                      0           
 Output (Dense)                     (None, 1)                       51          
================================================================================
Total params: 1051 (4.11 KB)
Trainable params: 1051 (4.11 KB)
Non-trainable params: 0 (0.00 Byte)
________________________________________________________________________________

With 19 inputs and 50 neurons, the first layer has 50 x 20 = 1,000 parameters (19 slopes and an intercept for each output neuron). The dropout layer does not add any parameters to the estimation, it chooses output neurons of the previous layer at random and sets their activation to zero. The 50 neurons (some with activation set randomly to zero) are the input to the final layer, adding fifty weights (slopes) and one bias (intercept). The total number of parameters of this neural network is 1,051.

Setting up the optimization

The second step in training a model in Keras is to specify the particulars of the optimization with the keras::compile() function (which actually calls keras::compile.keras.engine.training.Model). Typical specifications include the loss functions, the type of optimization algorithm, and the metrics evaluated by the model during training.

The following function call uses the RMSProp algorithm with mean-squared error loss function to estimate the parameters of the network. During training, the mean absolute error is also monitored in addition to the mean squared error.

firstANN %>% compile(loss="mse",                         # see keras$losses$
                     optimizer=optimizer_rmsprop(),      # see keras$optimizers$
                     metrics=list("mean_absolute_error") # see keras$metrics$
   )

Depending on your environment, not all optimization algorithms are supported.

Fitting the model

The last step in training the network is to connect the defined and compiled model with training—and possibly test—data.

For this example we use the Hitters data from the ISLR2 package. This is a data set with 322 observations of major league baseball players from the 1986 and 1987 seasons. The following code removes observations with missing values from the data frame, defines a vector of ids for the test data (1/3 of the observations) and computes a scaled and centered model matrix using all 20 input variables.

library(ISLR2)

Gitters <- na.omit(Hitters)
n <- nrow(Gitters)

tensorflow::set_random_seed(13)

ntest <- trunc(n / 3)
testid <- sample(1:n, ntest)

x <- scale(model.matrix(Salary ~ ., data = Gitters))
x <- x[,-1] #Remove intercept term

y <- Gitters$Salary

Note that the model contains several factors (League, Division, NewLeague) whose levels are encoded as binary variables in the model matrix. One could exclude those from scaling and centering as they already are in the proper range. In a regression model you would not want to scale these variables to preserve the interpretation of their coefficients. In a neural network interpretation of the model coefficients is not important and we include all columns of the model matrix in the scaling operation.

The following code fits the model to the training data (-testid) using 20 epochs and a minibatch size of 32. That means the gradient is computed based on 32 randomly chosen observations in each step of the stochastic gradient descent algorithm. Since there are 176 training observations it takes \(176/32=5.5\) SGD steps to process all \(n\) observations. This is known as an epoch and is akin to the concept of an iteration in numerical optimization: a full pass through the data. The fundamental difference between an epoch and an iteration lies in the fact that updates of the parameters occur after each gradient computation. In a full iteration, there is one update after the pass through the entire data. In SGD with minibatch, there are multiple updates of the parameters, one for each minibatch.

Running 200 epochs with a batch size of 32 and a training set size of 176 results in 200 * 5.5 = 1,100 gradient evaluations.

The validation_data= option lists the test data for the training. The objective function and metrics specified in the compile command earlier are computed at each epoch for the training and the test data if the latter is specified. If you do not have a validation data set, you can specify validation_split= and request that a fraction of the training data is held back for validation.

history <- firstANN %>% 
    fit(x[-testid, ], 
        y[-testid  ], 
        epochs=200, 
        batch_size=32,
        validation_data=list(x[testid, ], y[testid])
  )

Epoch 1/200
6/6 - 0s - loss: 456560.3750 - mean_absolute_error: 533.2509 - val_loss: 555462.3750 - val_mean_absolute_error: 538.9760 - 141ms/epoch - 23ms/step
Epoch 2/200
6/6 - 0s - loss: 456180.9688 - mean_absolute_error: 532.8644 - val_loss: 555135.6875 - val_mean_absolute_error: 538.7349 - 14ms/epoch - 2ms/step
Epoch 3/200
6/6 - 0s - loss: 455882.0000 - mean_absolute_error: 532.6615 - val_loss: 554835.3750 - val_mean_absolute_error: 538.5181 - 8ms/epoch - 1ms/step
Epoch 4/200
6/6 - 0s - loss: 455716.3125 - mean_absolute_error: 532.4524 - val_loss: 554534.1875 - val_mean_absolute_error: 538.3035 - 9ms/epoch - 1ms/step
Epoch 5/200
6/6 - 0s - loss: 455285.6250 - mean_absolute_error: 532.2136 - val_loss: 554223.1250 - val_mean_absolute_error: 538.0743 - 8ms/epoch - 1ms/step
Epoch 6/200
6/6 - 0s - loss: 455035.9688 - mean_absolute_error: 532.0588 - val_loss: 553918.0000 - val_mean_absolute_error: 537.8533 - 8ms/epoch - 1ms/step
Epoch 7/200
6/6 - 0s - loss: 454937.5312 - mean_absolute_error: 531.8617 - val_loss: 553624.6250 - val_mean_absolute_error: 537.6528 - 8ms/epoch - 1ms/step
Epoch 8/200
6/6 - 0s - loss: 454607.5000 - mean_absolute_error: 531.6082 - val_loss: 553301.0000 - val_mean_absolute_error: 537.4228 - 9ms/epoch - 1ms/step
Epoch 9/200
6/6 - 0s - loss: 454278.3750 - mean_absolute_error: 531.3519 - val_loss: 552988.0625 - val_mean_absolute_error: 537.1954 - 7ms/epoch - 1ms/step
Epoch 10/200
6/6 - 0s - loss: 454058.7188 - mean_absolute_error: 531.0999 - val_loss: 552648.3125 - val_mean_absolute_error: 536.9510 - 8ms/epoch - 1ms/step
Epoch 11/200
6/6 - 0s - loss: 453661.7188 - mean_absolute_error: 530.8485 - val_loss: 552300.8125 - val_mean_absolute_error: 536.7083 - 9ms/epoch - 1ms/step
Epoch 12/200
6/6 - 0s - loss: 453379.6250 - mean_absolute_error: 530.5903 - val_loss: 551932.5000 - val_mean_absolute_error: 536.4548 - 7ms/epoch - 1ms/step
Epoch 13/200
6/6 - 0s - loss: 452833.1250 - mean_absolute_error: 530.3576 - val_loss: 551525.0625 - val_mean_absolute_error: 536.1899 - 7ms/epoch - 1ms/step
Epoch 14/200
6/6 - 0s - loss: 452517.9062 - mean_absolute_error: 529.9553 - val_loss: 551133.5625 - val_mean_absolute_error: 535.9216 - 8ms/epoch - 1ms/step
Epoch 15/200
6/6 - 0s - loss: 452330.3750 - mean_absolute_error: 529.8209 - val_loss: 550732.4375 - val_mean_absolute_error: 535.6547 - 8ms/epoch - 1ms/step
Epoch 16/200
6/6 - 0s - loss: 452188.0000 - mean_absolute_error: 529.5402 - val_loss: 550317.8750 - val_mean_absolute_error: 535.3741 - 7ms/epoch - 1ms/step
Epoch 17/200
6/6 - 0s - loss: 451633.9688 - mean_absolute_error: 529.2128 - val_loss: 549861.8125 - val_mean_absolute_error: 535.0779 - 7ms/epoch - 1ms/step
Epoch 18/200
6/6 - 0s - loss: 451230.7812 - mean_absolute_error: 529.0327 - val_loss: 549414.1875 - val_mean_absolute_error: 534.7856 - 7ms/epoch - 1ms/step
Epoch 19/200
6/6 - 0s - loss: 450826.0938 - mean_absolute_error: 528.6508 - val_loss: 548933.1250 - val_mean_absolute_error: 534.4775 - 7ms/epoch - 1ms/step
Epoch 20/200
6/6 - 0s - loss: 450285.6875 - mean_absolute_error: 528.2288 - val_loss: 548449.5000 - val_mean_absolute_error: 534.1596 - 7ms/epoch - 1ms/step
Epoch 21/200
6/6 - 0s - loss: 450272.4688 - mean_absolute_error: 528.3463 - val_loss: 547965.5000 - val_mean_absolute_error: 533.8498 - 10ms/epoch - 2ms/step
Epoch 22/200
6/6 - 0s - loss: 449408.6250 - mean_absolute_error: 527.6746 - val_loss: 547422.6875 - val_mean_absolute_error: 533.4997 - 7ms/epoch - 1ms/step
Epoch 23/200
6/6 - 0s - loss: 448990.0312 - mean_absolute_error: 527.2517 - val_loss: 546897.6250 - val_mean_absolute_error: 533.1459 - 7ms/epoch - 1ms/step
Epoch 24/200
6/6 - 0s - loss: 449061.0938 - mean_absolute_error: 527.2700 - val_loss: 546349.6875 - val_mean_absolute_error: 532.7971 - 7ms/epoch - 1ms/step
Epoch 25/200
6/6 - 0s - loss: 448363.3125 - mean_absolute_error: 526.6881 - val_loss: 545825.7500 - val_mean_absolute_error: 532.4729 - 7ms/epoch - 1ms/step
Epoch 26/200
6/6 - 0s - loss: 447537.1875 - mean_absolute_error: 526.2008 - val_loss: 545244.8125 - val_mean_absolute_error: 532.1221 - 7ms/epoch - 1ms/step
Epoch 27/200
6/6 - 0s - loss: 447218.0000 - mean_absolute_error: 525.6867 - val_loss: 544620.0625 - val_mean_absolute_error: 531.7410 - 7ms/epoch - 1ms/step
Epoch 28/200
6/6 - 0s - loss: 447254.4688 - mean_absolute_error: 525.9711 - val_loss: 544022.1875 - val_mean_absolute_error: 531.3776 - 7ms/epoch - 1ms/step
Epoch 29/200
6/6 - 0s - loss: 446335.8750 - mean_absolute_error: 525.1835 - val_loss: 543404.9375 - val_mean_absolute_error: 530.9924 - 7ms/epoch - 1ms/step
Epoch 30/200
6/6 - 0s - loss: 446064.4688 - mean_absolute_error: 525.0806 - val_loss: 542710.3750 - val_mean_absolute_error: 530.5840 - 7ms/epoch - 1ms/step
Epoch 31/200
6/6 - 0s - loss: 445221.6875 - mean_absolute_error: 524.4622 - val_loss: 542049.6250 - val_mean_absolute_error: 530.1829 - 7ms/epoch - 1ms/step
Epoch 32/200
6/6 - 0s - loss: 444805.5938 - mean_absolute_error: 524.2470 - val_loss: 541386.1250 - val_mean_absolute_error: 529.7776 - 7ms/epoch - 1ms/step
Epoch 33/200
6/6 - 0s - loss: 444435.5938 - mean_absolute_error: 523.9349 - val_loss: 540707.0625 - val_mean_absolute_error: 529.3684 - 7ms/epoch - 1ms/step
Epoch 34/200
6/6 - 0s - loss: 444052.2188 - mean_absolute_error: 523.4775 - val_loss: 540024.9375 - val_mean_absolute_error: 528.9471 - 7ms/epoch - 1ms/step
Epoch 35/200
6/6 - 0s - loss: 442949.3750 - mean_absolute_error: 522.6668 - val_loss: 539308.6875 - val_mean_absolute_error: 528.5031 - 7ms/epoch - 1ms/step
Epoch 36/200
6/6 - 0s - loss: 442328.5000 - mean_absolute_error: 522.3586 - val_loss: 538550.5000 - val_mean_absolute_error: 528.0588 - 7ms/epoch - 1ms/step
Epoch 37/200
6/6 - 0s - loss: 441649.5938 - mean_absolute_error: 522.0195 - val_loss: 537763.3125 - val_mean_absolute_error: 527.5876 - 7ms/epoch - 1ms/step
Epoch 38/200
6/6 - 0s - loss: 441581.5938 - mean_absolute_error: 521.4653 - val_loss: 536986.1875 - val_mean_absolute_error: 527.1216 - 7ms/epoch - 1ms/step
Epoch 39/200
6/6 - 0s - loss: 440074.2188 - mean_absolute_error: 520.5640 - val_loss: 536204.1875 - val_mean_absolute_error: 526.6478 - 7ms/epoch - 1ms/step
Epoch 40/200
6/6 - 0s - loss: 439757.0000 - mean_absolute_error: 520.5919 - val_loss: 535384.8125 - val_mean_absolute_error: 526.1694 - 7ms/epoch - 1ms/step
Epoch 41/200
6/6 - 0s - loss: 438977.9688 - mean_absolute_error: 519.9265 - val_loss: 534523.6875 - val_mean_absolute_error: 525.6583 - 7ms/epoch - 1ms/step
Epoch 42/200
6/6 - 0s - loss: 437434.2812 - mean_absolute_error: 519.3111 - val_loss: 533715.4375 - val_mean_absolute_error: 525.1650 - 7ms/epoch - 1ms/step
Epoch 43/200
6/6 - 0s - loss: 438106.9062 - mean_absolute_error: 519.0538 - val_loss: 532871.1250 - val_mean_absolute_error: 524.6828 - 7ms/epoch - 1ms/step
Epoch 44/200
6/6 - 0s - loss: 436937.5938 - mean_absolute_error: 518.3713 - val_loss: 531959.0625 - val_mean_absolute_error: 524.1649 - 8ms/epoch - 1ms/step
Epoch 45/200
6/6 - 0s - loss: 436582.8750 - mean_absolute_error: 518.0457 - val_loss: 531071.8750 - val_mean_absolute_error: 523.6421 - 7ms/epoch - 1ms/step
Epoch 46/200
6/6 - 0s - loss: 435841.0000 - mean_absolute_error: 517.3759 - val_loss: 530195.7500 - val_mean_absolute_error: 523.1244 - 7ms/epoch - 1ms/step
Epoch 47/200
6/6 - 0s - loss: 434864.0938 - mean_absolute_error: 516.5615 - val_loss: 529338.8750 - val_mean_absolute_error: 522.5938 - 7ms/epoch - 1ms/step
Epoch 48/200
6/6 - 0s - loss: 433965.5938 - mean_absolute_error: 516.4062 - val_loss: 528372.5000 - val_mean_absolute_error: 522.0312 - 7ms/epoch - 1ms/step
Epoch 49/200
6/6 - 0s - loss: 433875.8750 - mean_absolute_error: 515.9335 - val_loss: 527390.1875 - val_mean_absolute_error: 521.4476 - 7ms/epoch - 1ms/step
Epoch 50/200
6/6 - 0s - loss: 432378.4688 - mean_absolute_error: 515.2098 - val_loss: 526375.6875 - val_mean_absolute_error: 520.8602 - 7ms/epoch - 1ms/step
Epoch 51/200
6/6 - 0s - loss: 431488.8125 - mean_absolute_error: 514.3785 - val_loss: 525359.6875 - val_mean_absolute_error: 520.2667 - 7ms/epoch - 1ms/step
Epoch 52/200
6/6 - 0s - loss: 431327.1875 - mean_absolute_error: 514.3599 - val_loss: 524330.5625 - val_mean_absolute_error: 519.6735 - 7ms/epoch - 1ms/step
Epoch 53/200
6/6 - 0s - loss: 430656.2188 - mean_absolute_error: 513.4481 - val_loss: 523265.6562 - val_mean_absolute_error: 519.0707 - 7ms/epoch - 1ms/step
Epoch 54/200
6/6 - 0s - loss: 429733.8125 - mean_absolute_error: 513.2316 - val_loss: 522327.6250 - val_mean_absolute_error: 518.5164 - 7ms/epoch - 1ms/step
Epoch 55/200
6/6 - 0s - loss: 428224.3750 - mean_absolute_error: 511.9606 - val_loss: 521240.0000 - val_mean_absolute_error: 517.8662 - 8ms/epoch - 1ms/step
Epoch 56/200
6/6 - 0s - loss: 427292.1250 - mean_absolute_error: 511.3916 - val_loss: 520151.7812 - val_mean_absolute_error: 517.2273 - 8ms/epoch - 1ms/step
Epoch 57/200
6/6 - 0s - loss: 426540.9688 - mean_absolute_error: 510.9475 - val_loss: 519049.4688 - val_mean_absolute_error: 516.5846 - 7ms/epoch - 1ms/step
Epoch 58/200
6/6 - 0s - loss: 425873.1875 - mean_absolute_error: 510.4596 - val_loss: 517950.9375 - val_mean_absolute_error: 515.9354 - 7ms/epoch - 1ms/step
Epoch 59/200
6/6 - 0s - loss: 424441.1250 - mean_absolute_error: 509.8015 - val_loss: 516759.5938 - val_mean_absolute_error: 515.2498 - 7ms/epoch - 1ms/step
Epoch 60/200
6/6 - 0s - loss: 423791.0312 - mean_absolute_error: 508.3780 - val_loss: 515679.6250 - val_mean_absolute_error: 514.6118 - 8ms/epoch - 1ms/step
Epoch 61/200
6/6 - 0s - loss: 422759.4688 - mean_absolute_error: 507.7127 - val_loss: 514527.4062 - val_mean_absolute_error: 513.9476 - 7ms/epoch - 1ms/step
Epoch 62/200
6/6 - 0s - loss: 422667.0000 - mean_absolute_error: 507.3310 - val_loss: 513309.4375 - val_mean_absolute_error: 513.2530 - 8ms/epoch - 1ms/step
Epoch 63/200
6/6 - 0s - loss: 420937.1875 - mean_absolute_error: 506.9292 - val_loss: 512106.0625 - val_mean_absolute_error: 512.5473 - 7ms/epoch - 1ms/step
Epoch 64/200
6/6 - 0s - loss: 420270.1875 - mean_absolute_error: 506.0993 - val_loss: 510909.5312 - val_mean_absolute_error: 511.8443 - 7ms/epoch - 1ms/step
Epoch 65/200
6/6 - 0s - loss: 419230.1875 - mean_absolute_error: 505.3429 - val_loss: 509691.0312 - val_mean_absolute_error: 511.1238 - 7ms/epoch - 1ms/step
Epoch 66/200
6/6 - 0s - loss: 417813.4062 - mean_absolute_error: 504.0319 - val_loss: 508384.5000 - val_mean_absolute_error: 510.3713 - 7ms/epoch - 1ms/step
Epoch 67/200
6/6 - 0s - loss: 415445.4062 - mean_absolute_error: 502.9052 - val_loss: 507013.6562 - val_mean_absolute_error: 509.5774 - 7ms/epoch - 1ms/step
Epoch 68/200
6/6 - 0s - loss: 415202.0312 - mean_absolute_error: 502.6707 - val_loss: 505837.9375 - val_mean_absolute_error: 508.8772 - 7ms/epoch - 1ms/step
Epoch 69/200
6/6 - 0s - loss: 415610.9062 - mean_absolute_error: 502.9955 - val_loss: 504559.9688 - val_mean_absolute_error: 508.1247 - 7ms/epoch - 1ms/step
Epoch 70/200
6/6 - 0s - loss: 413665.3750 - mean_absolute_error: 501.1124 - val_loss: 503276.4062 - val_mean_absolute_error: 507.3729 - 7ms/epoch - 1ms/step
Epoch 71/200
6/6 - 0s - loss: 412305.0312 - mean_absolute_error: 499.9524 - val_loss: 501933.6562 - val_mean_absolute_error: 506.5961 - 7ms/epoch - 1ms/step
Epoch 72/200
6/6 - 0s - loss: 412017.5938 - mean_absolute_error: 499.9599 - val_loss: 500556.0000 - val_mean_absolute_error: 505.7702 - 8ms/epoch - 1ms/step
Epoch 73/200
6/6 - 0s - loss: 409705.3750 - mean_absolute_error: 498.8223 - val_loss: 499138.2188 - val_mean_absolute_error: 504.9606 - 7ms/epoch - 1ms/step
Epoch 74/200
6/6 - 0s - loss: 408807.9688 - mean_absolute_error: 498.3723 - val_loss: 497770.0625 - val_mean_absolute_error: 504.1364 - 7ms/epoch - 1ms/step
Epoch 75/200
6/6 - 0s - loss: 410041.5312 - mean_absolute_error: 498.4614 - val_loss: 496356.2812 - val_mean_absolute_error: 503.3165 - 8ms/epoch - 1ms/step
Epoch 76/200
6/6 - 0s - loss: 407915.5312 - mean_absolute_error: 496.7468 - val_loss: 495001.9375 - val_mean_absolute_error: 502.5077 - 7ms/epoch - 1ms/step
Epoch 77/200
6/6 - 0s - loss: 406642.1875 - mean_absolute_error: 495.8831 - val_loss: 493603.5312 - val_mean_absolute_error: 501.6796 - 7ms/epoch - 1ms/step
Epoch 78/200
6/6 - 0s - loss: 405840.3750 - mean_absolute_error: 495.0319 - val_loss: 492098.7188 - val_mean_absolute_error: 500.8034 - 7ms/epoch - 1ms/step
Epoch 79/200
6/6 - 0s - loss: 405183.4688 - mean_absolute_error: 494.3127 - val_loss: 490646.7188 - val_mean_absolute_error: 499.9332 - 7ms/epoch - 1ms/step
Epoch 80/200
6/6 - 0s - loss: 399240.5312 - mean_absolute_error: 490.8667 - val_loss: 489096.3750 - val_mean_absolute_error: 499.0186 - 7ms/epoch - 1ms/step
Epoch 81/200
6/6 - 0s - loss: 400615.4688 - mean_absolute_error: 492.2878 - val_loss: 487565.0000 - val_mean_absolute_error: 498.1365 - 7ms/epoch - 1ms/step
Epoch 82/200
6/6 - 0s - loss: 399426.2188 - mean_absolute_error: 490.6825 - val_loss: 486141.9375 - val_mean_absolute_error: 497.2370 - 7ms/epoch - 1ms/step
Epoch 83/200
6/6 - 0s - loss: 399128.3750 - mean_absolute_error: 490.4005 - val_loss: 484740.5625 - val_mean_absolute_error: 496.4055 - 7ms/epoch - 1ms/step
Epoch 84/200
6/6 - 0s - loss: 398687.0938 - mean_absolute_error: 489.5092 - val_loss: 483279.7188 - val_mean_absolute_error: 495.5494 - 7ms/epoch - 1ms/step
Epoch 85/200
6/6 - 0s - loss: 396390.4062 - mean_absolute_error: 488.5998 - val_loss: 481760.2812 - val_mean_absolute_error: 494.6539 - 7ms/epoch - 1ms/step
Epoch 86/200
6/6 - 0s - loss: 395495.4062 - mean_absolute_error: 488.3804 - val_loss: 480179.7188 - val_mean_absolute_error: 493.7021 - 7ms/epoch - 1ms/step
Epoch 87/200
6/6 - 0s - loss: 395670.3750 - mean_absolute_error: 487.2852 - val_loss: 478637.5938 - val_mean_absolute_error: 492.7672 - 7ms/epoch - 1ms/step
Epoch 88/200
6/6 - 0s - loss: 393690.6250 - mean_absolute_error: 486.4576 - val_loss: 476991.5312 - val_mean_absolute_error: 491.7983 - 7ms/epoch - 1ms/step
Epoch 89/200
6/6 - 0s - loss: 392391.6250 - mean_absolute_error: 486.0064 - val_loss: 475350.0625 - val_mean_absolute_error: 490.8174 - 7ms/epoch - 1ms/step
Epoch 90/200
6/6 - 0s - loss: 390523.9688 - mean_absolute_error: 483.6442 - val_loss: 473757.6562 - val_mean_absolute_error: 489.8488 - 7ms/epoch - 1ms/step
Epoch 91/200
6/6 - 0s - loss: 388461.3125 - mean_absolute_error: 482.4796 - val_loss: 472016.0000 - val_mean_absolute_error: 488.8122 - 7ms/epoch - 1ms/step
Epoch 92/200
6/6 - 0s - loss: 390200.1250 - mean_absolute_error: 482.7600 - val_loss: 470501.0625 - val_mean_absolute_error: 487.8469 - 7ms/epoch - 1ms/step
Epoch 93/200
6/6 - 0s - loss: 387985.4062 - mean_absolute_error: 481.3204 - val_loss: 468963.4062 - val_mean_absolute_error: 486.9236 - 7ms/epoch - 1ms/step
Epoch 94/200
6/6 - 0s - loss: 385300.5000 - mean_absolute_error: 478.7104 - val_loss: 467350.2500 - val_mean_absolute_error: 485.9424 - 7ms/epoch - 1ms/step
Epoch 95/200
6/6 - 0s - loss: 383376.5000 - mean_absolute_error: 478.4099 - val_loss: 465605.8750 - val_mean_absolute_error: 484.8992 - 7ms/epoch - 1ms/step
Epoch 96/200
6/6 - 0s - loss: 383653.9062 - mean_absolute_error: 477.7944 - val_loss: 463975.7188 - val_mean_absolute_error: 483.8888 - 7ms/epoch - 1ms/step
Epoch 97/200
6/6 - 0s - loss: 380985.3750 - mean_absolute_error: 476.5428 - val_loss: 462256.4688 - val_mean_absolute_error: 482.8405 - 7ms/epoch - 1ms/step
Epoch 98/200
6/6 - 0s - loss: 382487.1875 - mean_absolute_error: 476.3485 - val_loss: 460594.4688 - val_mean_absolute_error: 481.8210 - 7ms/epoch - 1ms/step
Epoch 99/200
6/6 - 0s - loss: 379567.3438 - mean_absolute_error: 475.6955 - val_loss: 458878.0625 - val_mean_absolute_error: 480.7553 - 7ms/epoch - 1ms/step
Epoch 100/200
6/6 - 0s - loss: 378272.0938 - mean_absolute_error: 474.9254 - val_loss: 457142.6250 - val_mean_absolute_error: 479.7029 - 7ms/epoch - 1ms/step
Epoch 101/200
6/6 - 0s - loss: 374007.4062 - mean_absolute_error: 471.1824 - val_loss: 455326.8438 - val_mean_absolute_error: 478.5992 - 7ms/epoch - 1ms/step
Epoch 102/200
6/6 - 0s - loss: 375374.6562 - mean_absolute_error: 471.8434 - val_loss: 453466.1562 - val_mean_absolute_error: 477.4750 - 7ms/epoch - 1ms/step
Epoch 103/200
6/6 - 0s - loss: 373448.1875 - mean_absolute_error: 469.8642 - val_loss: 451721.4375 - val_mean_absolute_error: 476.3901 - 7ms/epoch - 1ms/step
Epoch 104/200
6/6 - 0s - loss: 370955.3438 - mean_absolute_error: 469.2846 - val_loss: 450001.0938 - val_mean_absolute_error: 475.3219 - 7ms/epoch - 1ms/step
Epoch 105/200
6/6 - 0s - loss: 370084.8125 - mean_absolute_error: 468.5100 - val_loss: 448214.6250 - val_mean_absolute_error: 474.2280 - 7ms/epoch - 1ms/step
Epoch 106/200
6/6 - 0s - loss: 367728.5000 - mean_absolute_error: 466.0443 - val_loss: 446399.9688 - val_mean_absolute_error: 473.0934 - 7ms/epoch - 1ms/step
Epoch 107/200
6/6 - 0s - loss: 368908.8125 - mean_absolute_error: 467.4102 - val_loss: 444722.4375 - val_mean_absolute_error: 471.9881 - 7ms/epoch - 1ms/step
Epoch 108/200
6/6 - 0s - loss: 366817.8125 - mean_absolute_error: 464.9108 - val_loss: 442946.6562 - val_mean_absolute_error: 470.9209 - 7ms/epoch - 1ms/step
Epoch 109/200
6/6 - 0s - loss: 364343.6250 - mean_absolute_error: 462.5008 - val_loss: 441099.5000 - val_mean_absolute_error: 469.7654 - 7ms/epoch - 1ms/step
Epoch 110/200
6/6 - 0s - loss: 364496.5938 - mean_absolute_error: 465.0520 - val_loss: 439291.2188 - val_mean_absolute_error: 468.6337 - 7ms/epoch - 1ms/step
Epoch 111/200
6/6 - 0s - loss: 365832.5312 - mean_absolute_error: 462.8051 - val_loss: 437452.5625 - val_mean_absolute_error: 467.5045 - 7ms/epoch - 1ms/step
Epoch 112/200
6/6 - 0s - loss: 359302.4375 - mean_absolute_error: 460.2673 - val_loss: 435599.0000 - val_mean_absolute_error: 466.3142 - 7ms/epoch - 1ms/step
Epoch 113/200
6/6 - 0s - loss: 358267.8750 - mean_absolute_error: 458.5849 - val_loss: 433741.3438 - val_mean_absolute_error: 465.1183 - 7ms/epoch - 1ms/step
Epoch 114/200
6/6 - 0s - loss: 359070.4062 - mean_absolute_error: 459.3037 - val_loss: 431913.8750 - val_mean_absolute_error: 463.9381 - 7ms/epoch - 1ms/step
Epoch 115/200
6/6 - 0s - loss: 356309.2812 - mean_absolute_error: 456.8405 - val_loss: 429975.0000 - val_mean_absolute_error: 462.7050 - 7ms/epoch - 1ms/step
Epoch 116/200
6/6 - 0s - loss: 352392.4688 - mean_absolute_error: 453.9178 - val_loss: 428001.1875 - val_mean_absolute_error: 461.4472 - 7ms/epoch - 1ms/step
Epoch 117/200
6/6 - 0s - loss: 353891.2812 - mean_absolute_error: 455.6485 - val_loss: 426068.5938 - val_mean_absolute_error: 460.2001 - 7ms/epoch - 1ms/step
Epoch 118/200
6/6 - 0s - loss: 350913.1875 - mean_absolute_error: 452.7582 - val_loss: 424192.1875 - val_mean_absolute_error: 458.9837 - 7ms/epoch - 1ms/step
Epoch 119/200
6/6 - 0s - loss: 349064.3750 - mean_absolute_error: 451.7615 - val_loss: 422379.9688 - val_mean_absolute_error: 457.7957 - 7ms/epoch - 1ms/step
Epoch 120/200
6/6 - 0s - loss: 346384.6875 - mean_absolute_error: 451.1905 - val_loss: 420472.2812 - val_mean_absolute_error: 456.5533 - 7ms/epoch - 1ms/step
Epoch 121/200
6/6 - 0s - loss: 346349.4688 - mean_absolute_error: 449.8314 - val_loss: 418430.7500 - val_mean_absolute_error: 455.2499 - 7ms/epoch - 1ms/step
Epoch 122/200
6/6 - 0s - loss: 342475.0938 - mean_absolute_error: 447.3237 - val_loss: 416447.0000 - val_mean_absolute_error: 453.9527 - 7ms/epoch - 1ms/step
Epoch 123/200
6/6 - 0s - loss: 346445.7188 - mean_absolute_error: 447.1894 - val_loss: 414546.7500 - val_mean_absolute_error: 452.7279 - 8ms/epoch - 1ms/step
Epoch 124/200
6/6 - 0s - loss: 341214.1250 - mean_absolute_error: 445.4316 - val_loss: 412573.6875 - val_mean_absolute_error: 451.4245 - 7ms/epoch - 1ms/step
Epoch 125/200
6/6 - 0s - loss: 338717.1250 - mean_absolute_error: 445.0240 - val_loss: 410508.0000 - val_mean_absolute_error: 450.0933 - 7ms/epoch - 1ms/step
Epoch 126/200
6/6 - 0s - loss: 340298.8750 - mean_absolute_error: 443.8568 - val_loss: 408663.9688 - val_mean_absolute_error: 448.8661 - 7ms/epoch - 1ms/step
Epoch 127/200
6/6 - 0s - loss: 339606.7812 - mean_absolute_error: 443.9031 - val_loss: 406642.0625 - val_mean_absolute_error: 447.5456 - 7ms/epoch - 1ms/step
Epoch 128/200
6/6 - 0s - loss: 335548.2812 - mean_absolute_error: 441.2853 - val_loss: 404698.1250 - val_mean_absolute_error: 446.2408 - 7ms/epoch - 1ms/step
Epoch 129/200
6/6 - 0s - loss: 331924.6562 - mean_absolute_error: 438.2969 - val_loss: 402605.4375 - val_mean_absolute_error: 444.8609 - 8ms/epoch - 1ms/step
Epoch 130/200
6/6 - 0s - loss: 334538.9688 - mean_absolute_error: 437.8024 - val_loss: 400664.1875 - val_mean_absolute_error: 443.5187 - 7ms/epoch - 1ms/step
Epoch 131/200
6/6 - 0s - loss: 330779.6250 - mean_absolute_error: 436.2512 - val_loss: 398844.6875 - val_mean_absolute_error: 442.2601 - 7ms/epoch - 1ms/step
Epoch 132/200
6/6 - 0s - loss: 330403.5625 - mean_absolute_error: 436.3625 - val_loss: 396795.3125 - val_mean_absolute_error: 440.8666 - 7ms/epoch - 1ms/step
Epoch 133/200
6/6 - 0s - loss: 328588.9688 - mean_absolute_error: 433.8100 - val_loss: 394687.7188 - val_mean_absolute_error: 439.4669 - 7ms/epoch - 1ms/step
Epoch 134/200
6/6 - 0s - loss: 328455.5938 - mean_absolute_error: 434.1469 - val_loss: 392710.1250 - val_mean_absolute_error: 438.1261 - 7ms/epoch - 1ms/step
Epoch 135/200
6/6 - 0s - loss: 325968.8750 - mean_absolute_error: 432.8379 - val_loss: 390640.5625 - val_mean_absolute_error: 436.6778 - 7ms/epoch - 1ms/step
Epoch 136/200
6/6 - 0s - loss: 324700.9688 - mean_absolute_error: 432.3322 - val_loss: 388689.2812 - val_mean_absolute_error: 435.3471 - 7ms/epoch - 1ms/step
Epoch 137/200
6/6 - 0s - loss: 318687.2188 - mean_absolute_error: 428.1300 - val_loss: 386417.0938 - val_mean_absolute_error: 433.8071 - 7ms/epoch - 1ms/step
Epoch 138/200
6/6 - 0s - loss: 321344.0938 - mean_absolute_error: 429.3062 - val_loss: 384380.8125 - val_mean_absolute_error: 432.4005 - 7ms/epoch - 1ms/step
Epoch 139/200
6/6 - 0s - loss: 320541.4062 - mean_absolute_error: 427.8346 - val_loss: 382357.4688 - val_mean_absolute_error: 430.9865 - 7ms/epoch - 1ms/step
Epoch 140/200
6/6 - 0s - loss: 314204.4688 - mean_absolute_error: 426.2739 - val_loss: 380179.5938 - val_mean_absolute_error: 429.4920 - 7ms/epoch - 1ms/step
Epoch 141/200
6/6 - 0s - loss: 314322.9688 - mean_absolute_error: 423.5395 - val_loss: 378054.9688 - val_mean_absolute_error: 428.0515 - 7ms/epoch - 1ms/step
Epoch 142/200
6/6 - 0s - loss: 311750.6250 - mean_absolute_error: 421.7986 - val_loss: 375926.0625 - val_mean_absolute_error: 426.5751 - 7ms/epoch - 1ms/step
Epoch 143/200
6/6 - 0s - loss: 313623.2812 - mean_absolute_error: 421.0920 - val_loss: 373847.4062 - val_mean_absolute_error: 425.2261 - 7ms/epoch - 1ms/step
Epoch 144/200
6/6 - 0s - loss: 313945.4688 - mean_absolute_error: 422.4594 - val_loss: 371910.6250 - val_mean_absolute_error: 424.0621 - 7ms/epoch - 1ms/step
Epoch 145/200
6/6 - 0s - loss: 309097.6250 - mean_absolute_error: 418.4734 - val_loss: 369858.8750 - val_mean_absolute_error: 422.7519 - 7ms/epoch - 1ms/step
Epoch 146/200
6/6 - 0s - loss: 308047.1250 - mean_absolute_error: 419.8464 - val_loss: 367801.7500 - val_mean_absolute_error: 421.5387 - 7ms/epoch - 1ms/step
Epoch 147/200
6/6 - 0s - loss: 307621.0312 - mean_absolute_error: 416.7124 - val_loss: 365745.5938 - val_mean_absolute_error: 420.2864 - 7ms/epoch - 1ms/step
Epoch 148/200
6/6 - 0s - loss: 305213.5000 - mean_absolute_error: 416.8352 - val_loss: 363556.0938 - val_mean_absolute_error: 418.9918 - 7ms/epoch - 1ms/step
Epoch 149/200
6/6 - 0s - loss: 301515.5312 - mean_absolute_error: 413.4119 - val_loss: 361411.5625 - val_mean_absolute_error: 417.6520 - 7ms/epoch - 1ms/step
Epoch 150/200
6/6 - 0s - loss: 299604.5625 - mean_absolute_error: 410.7570 - val_loss: 359199.6875 - val_mean_absolute_error: 416.3397 - 7ms/epoch - 1ms/step
Epoch 151/200
6/6 - 0s - loss: 301921.9688 - mean_absolute_error: 412.2278 - val_loss: 357269.4062 - val_mean_absolute_error: 415.1559 - 7ms/epoch - 1ms/step
Epoch 152/200
6/6 - 0s - loss: 296226.8750 - mean_absolute_error: 409.9257 - val_loss: 355055.3125 - val_mean_absolute_error: 413.8031 - 7ms/epoch - 1ms/step
Epoch 153/200
6/6 - 0s - loss: 296054.7812 - mean_absolute_error: 407.7989 - val_loss: 353002.7812 - val_mean_absolute_error: 412.5175 - 7ms/epoch - 1ms/step
Epoch 154/200
6/6 - 0s - loss: 290686.0000 - mean_absolute_error: 407.6748 - val_loss: 350810.7188 - val_mean_absolute_error: 411.1452 - 7ms/epoch - 1ms/step
Epoch 155/200
6/6 - 0s - loss: 298157.7812 - mean_absolute_error: 409.0526 - val_loss: 348831.9062 - val_mean_absolute_error: 409.9124 - 7ms/epoch - 1ms/step
Epoch 156/200
6/6 - 0s - loss: 293977.0938 - mean_absolute_error: 408.9546 - val_loss: 346773.8750 - val_mean_absolute_error: 408.5746 - 7ms/epoch - 1ms/step
Epoch 157/200
6/6 - 0s - loss: 293899.0312 - mean_absolute_error: 406.2575 - val_loss: 344840.7812 - val_mean_absolute_error: 407.3297 - 7ms/epoch - 1ms/step
Epoch 158/200
6/6 - 0s - loss: 287555.0938 - mean_absolute_error: 400.5305 - val_loss: 342681.0000 - val_mean_absolute_error: 405.9654 - 7ms/epoch - 1ms/step
Epoch 159/200
6/6 - 0s - loss: 283982.8750 - mean_absolute_error: 399.5132 - val_loss: 340530.7500 - val_mean_absolute_error: 404.5954 - 7ms/epoch - 1ms/step
Epoch 160/200
6/6 - 0s - loss: 287346.7812 - mean_absolute_error: 399.4600 - val_loss: 338479.9688 - val_mean_absolute_error: 403.2860 - 7ms/epoch - 1ms/step
Epoch 161/200
6/6 - 0s - loss: 290299.6250 - mean_absolute_error: 401.4791 - val_loss: 336378.6562 - val_mean_absolute_error: 401.9695 - 7ms/epoch - 1ms/step
Epoch 162/200
6/6 - 0s - loss: 287960.5625 - mean_absolute_error: 402.8635 - val_loss: 334481.5938 - val_mean_absolute_error: 400.7442 - 7ms/epoch - 1ms/step
Epoch 163/200
6/6 - 0s - loss: 285554.2188 - mean_absolute_error: 397.9341 - val_loss: 332496.8125 - val_mean_absolute_error: 399.4846 - 7ms/epoch - 1ms/step
Epoch 164/200
6/6 - 0s - loss: 276131.9375 - mean_absolute_error: 391.5551 - val_loss: 330345.4688 - val_mean_absolute_error: 398.0992 - 7ms/epoch - 1ms/step
Epoch 165/200
6/6 - 0s - loss: 276441.4688 - mean_absolute_error: 392.0463 - val_loss: 328191.0312 - val_mean_absolute_error: 396.6920 - 7ms/epoch - 1ms/step
Epoch 166/200
6/6 - 0s - loss: 276959.4688 - mean_absolute_error: 391.1243 - val_loss: 326086.3438 - val_mean_absolute_error: 395.3359 - 7ms/epoch - 1ms/step
Epoch 167/200
6/6 - 0s - loss: 275638.1250 - mean_absolute_error: 392.0930 - val_loss: 324067.0938 - val_mean_absolute_error: 394.0215 - 7ms/epoch - 1ms/step
Epoch 168/200
6/6 - 0s - loss: 271800.4688 - mean_absolute_error: 388.1720 - val_loss: 321968.0625 - val_mean_absolute_error: 392.6414 - 7ms/epoch - 1ms/step
Epoch 169/200
6/6 - 0s - loss: 276527.3750 - mean_absolute_error: 390.3458 - val_loss: 320017.2500 - val_mean_absolute_error: 391.3492 - 7ms/epoch - 1ms/step
Epoch 170/200
6/6 - 0s - loss: 270137.4688 - mean_absolute_error: 387.1188 - val_loss: 317759.3125 - val_mean_absolute_error: 389.8620 - 7ms/epoch - 1ms/step
Epoch 171/200
6/6 - 0s - loss: 268137.4375 - mean_absolute_error: 383.6100 - val_loss: 315709.9688 - val_mean_absolute_error: 388.4889 - 7ms/epoch - 1ms/step
Epoch 172/200
6/6 - 0s - loss: 258883.0625 - mean_absolute_error: 376.5533 - val_loss: 313500.5938 - val_mean_absolute_error: 386.9966 - 7ms/epoch - 1ms/step
Epoch 173/200
6/6 - 0s - loss: 268310.6250 - mean_absolute_error: 384.6831 - val_loss: 311383.5938 - val_mean_absolute_error: 385.5994 - 7ms/epoch - 1ms/step
Epoch 174/200
6/6 - 0s - loss: 267437.1250 - mean_absolute_error: 382.8031 - val_loss: 309302.6562 - val_mean_absolute_error: 384.1898 - 7ms/epoch - 1ms/step
Epoch 175/200
6/6 - 0s - loss: 261139.6406 - mean_absolute_error: 380.3994 - val_loss: 307307.3125 - val_mean_absolute_error: 382.8772 - 7ms/epoch - 1ms/step
Epoch 176/200
6/6 - 0s - loss: 255418.1406 - mean_absolute_error: 374.6114 - val_loss: 305345.1875 - val_mean_absolute_error: 381.5633 - 7ms/epoch - 1ms/step
Epoch 177/200
6/6 - 0s - loss: 260163.8594 - mean_absolute_error: 378.4645 - val_loss: 303296.6562 - val_mean_absolute_error: 380.2027 - 7ms/epoch - 1ms/step
Epoch 178/200
6/6 - 0s - loss: 263095.8125 - mean_absolute_error: 379.7852 - val_loss: 301463.5938 - val_mean_absolute_error: 378.9525 - 8ms/epoch - 1ms/step
Epoch 179/200
6/6 - 0s - loss: 252193.0469 - mean_absolute_error: 371.2647 - val_loss: 299394.6562 - val_mean_absolute_error: 377.5541 - 7ms/epoch - 1ms/step
Epoch 180/200
6/6 - 0s - loss: 256333.0625 - mean_absolute_error: 374.1683 - val_loss: 297475.0000 - val_mean_absolute_error: 376.2548 - 7ms/epoch - 1ms/step
Epoch 181/200
6/6 - 0s - loss: 249453.9844 - mean_absolute_error: 369.7284 - val_loss: 295357.3438 - val_mean_absolute_error: 374.8279 - 7ms/epoch - 1ms/step
Epoch 182/200
6/6 - 0s - loss: 251423.1406 - mean_absolute_error: 367.1398 - val_loss: 293405.8750 - val_mean_absolute_error: 373.5813 - 7ms/epoch - 1ms/step
Epoch 183/200
6/6 - 0s - loss: 252279.5469 - mean_absolute_error: 368.7811 - val_loss: 291363.1250 - val_mean_absolute_error: 372.2744 - 21ms/epoch - 4ms/step
Epoch 184/200
6/6 - 0s - loss: 254496.6406 - mean_absolute_error: 371.3627 - val_loss: 289334.7812 - val_mean_absolute_error: 370.9412 - 8ms/epoch - 1ms/step
Epoch 185/200
6/6 - 0s - loss: 254440.9375 - mean_absolute_error: 370.6922 - val_loss: 287262.3750 - val_mean_absolute_error: 369.5994 - 7ms/epoch - 1ms/step
Epoch 186/200
6/6 - 0s - loss: 244998.1406 - mean_absolute_error: 363.9462 - val_loss: 285339.3125 - val_mean_absolute_error: 368.3348 - 7ms/epoch - 1ms/step
Epoch 187/200
6/6 - 0s - loss: 249940.0469 - mean_absolute_error: 366.3317 - val_loss: 283441.0625 - val_mean_absolute_error: 367.0949 - 7ms/epoch - 1ms/step
Epoch 188/200
6/6 - 0s - loss: 245618.5000 - mean_absolute_error: 365.3096 - val_loss: 281467.5312 - val_mean_absolute_error: 365.7653 - 7ms/epoch - 1ms/step
Epoch 189/200
6/6 - 0s - loss: 235981.2031 - mean_absolute_error: 357.7282 - val_loss: 279373.6562 - val_mean_absolute_error: 364.4089 - 7ms/epoch - 1ms/step
Epoch 190/200
6/6 - 0s - loss: 243864.6562 - mean_absolute_error: 364.6628 - val_loss: 277417.2812 - val_mean_absolute_error: 363.0956 - 7ms/epoch - 1ms/step
Epoch 191/200
6/6 - 0s - loss: 239543.4531 - mean_absolute_error: 362.7082 - val_loss: 275559.1562 - val_mean_absolute_error: 361.8719 - 7ms/epoch - 1ms/step
Epoch 192/200
6/6 - 0s - loss: 244664.8594 - mean_absolute_error: 359.3243 - val_loss: 273874.5625 - val_mean_absolute_error: 360.7430 - 7ms/epoch - 1ms/step
Epoch 193/200
6/6 - 0s - loss: 236829.8125 - mean_absolute_error: 358.2658 - val_loss: 272072.6562 - val_mean_absolute_error: 359.5085 - 7ms/epoch - 1ms/step
Epoch 194/200
6/6 - 0s - loss: 238716.8906 - mean_absolute_error: 359.4713 - val_loss: 270064.8438 - val_mean_absolute_error: 358.1568 - 7ms/epoch - 1ms/step
Epoch 195/200
6/6 - 0s - loss: 232629.0000 - mean_absolute_error: 354.3625 - val_loss: 268329.5938 - val_mean_absolute_error: 356.9712 - 7ms/epoch - 1ms/step
Epoch 196/200
6/6 - 0s - loss: 225991.9844 - mean_absolute_error: 348.7137 - val_loss: 266216.1875 - val_mean_absolute_error: 355.5098 - 7ms/epoch - 1ms/step
Epoch 197/200
6/6 - 0s - loss: 230257.0156 - mean_absolute_error: 350.9655 - val_loss: 264460.6875 - val_mean_absolute_error: 354.3351 - 7ms/epoch - 1ms/step
Epoch 198/200
6/6 - 0s - loss: 231039.4531 - mean_absolute_error: 352.5783 - val_loss: 262615.8750 - val_mean_absolute_error: 353.1230 - 7ms/epoch - 1ms/step
Epoch 199/200
6/6 - 0s - loss: 231761.1562 - mean_absolute_error: 353.1273 - val_loss: 260780.0625 - val_mean_absolute_error: 351.9370 - 7ms/epoch - 1ms/step
Epoch 200/200
6/6 - 0s - loss: 229403.5938 - mean_absolute_error: 352.8158 - val_loss: 258941.3750 - val_mean_absolute_error: 350.7351 - 7ms/epoch - 1ms/step

Keras reports for each epoch the value of the loss metric (mean squared error) for the training and validation data and the monitored metrics (mean absolute error) for the validation data. As you can see from the lengthy output, all criteria are still decreasing after 200 epochs. It is helpful to view the epoch history graphically. If you run the code in an interactive environment (e.g., RStudio), the epoch history is displayed and updated live. You can always plot the epoch history with the plot command:

plot(history, smooth=FALSE)  # see ?plot.keras_training_history for doc

Figure 34.1: Epoch history for the first 200 epochs.

All criteria are steadily declining and have not leveled out after 200 epochs (Figure 35.1). As expected, the mean squared error and mean absolute error are higher in the validation data than in the training data. This is not always the case when training neural networks. Maybe surprisingly, after about 75 epochs the metrics are showing more variability from epoch to epoch in the training data than in the validation data. Also, there is no guarantee that criteria decrease monotonically, the mean squared error of epoch \(t\) can be higher than that of epoch \(t-1\). We are looking for the results to settle down and stabilize before calling the optimization completed. More epochs need to be run in this example. Fortunately, you can continue where the previous run has left off. The following code trains the network for another 100 epochs:

firstANN %>% 
    fit(x[-testid, ], 
        y[-testid], 
        epochs=100, 
        batch_size=32,
        validation_data= list(x[testid, ], y[testid])
  )

Epoch 1/100
6/6 - 0s - loss: 224791.2656 - mean_absolute_error: 349.2876 - val_loss: 257031.0625 - val_mean_absolute_error: 349.4930 - 16ms/epoch - 3ms/step
Epoch 2/100
6/6 - 0s - loss: 220872.5938 - mean_absolute_error: 343.3253 - val_loss: 255199.7656 - val_mean_absolute_error: 348.3150 - 7ms/epoch - 1ms/step
Epoch 3/100
6/6 - 0s - loss: 230922.8125 - mean_absolute_error: 348.6823 - val_loss: 253531.2812 - val_mean_absolute_error: 347.2625 - 7ms/epoch - 1ms/step
Epoch 4/100
6/6 - 0s - loss: 226895.8125 - mean_absolute_error: 349.3876 - val_loss: 251627.4688 - val_mean_absolute_error: 346.1228 - 7ms/epoch - 1ms/step
Epoch 5/100
6/6 - 0s - loss: 219859.2500 - mean_absolute_error: 346.2397 - val_loss: 249595.2344 - val_mean_absolute_error: 344.9175 - 7ms/epoch - 1ms/step
Epoch 6/100
6/6 - 0s - loss: 217666.4531 - mean_absolute_error: 341.6744 - val_loss: 247796.2344 - val_mean_absolute_error: 343.8401 - 7ms/epoch - 1ms/step
Epoch 7/100
6/6 - 0s - loss: 213776.3594 - mean_absolute_error: 337.4452 - val_loss: 245968.7656 - val_mean_absolute_error: 342.8589 - 7ms/epoch - 1ms/step
Epoch 8/100
6/6 - 0s - loss: 221224.0000 - mean_absolute_error: 343.8850 - val_loss: 244151.1719 - val_mean_absolute_error: 341.9339 - 7ms/epoch - 1ms/step
Epoch 9/100
6/6 - 0s - loss: 211788.1875 - mean_absolute_error: 334.8579 - val_loss: 242401.3750 - val_mean_absolute_error: 341.0275 - 8ms/epoch - 1ms/step
Epoch 10/100
6/6 - 0s - loss: 215253.4531 - mean_absolute_error: 341.4299 - val_loss: 240778.5469 - val_mean_absolute_error: 340.1877 - 7ms/epoch - 1ms/step
Epoch 11/100
6/6 - 0s - loss: 211269.1875 - mean_absolute_error: 334.2583 - val_loss: 239270.9844 - val_mean_absolute_error: 339.3930 - 7ms/epoch - 1ms/step
Epoch 12/100
6/6 - 0s - loss: 208500.9062 - mean_absolute_error: 333.0392 - val_loss: 237617.5625 - val_mean_absolute_error: 338.5232 - 7ms/epoch - 1ms/step
Epoch 13/100
6/6 - 0s - loss: 207764.9844 - mean_absolute_error: 332.1740 - val_loss: 236050.0938 - val_mean_absolute_error: 337.6951 - 7ms/epoch - 1ms/step
Epoch 14/100
6/6 - 0s - loss: 205532.2656 - mean_absolute_error: 334.1255 - val_loss: 234308.5781 - val_mean_absolute_error: 336.7695 - 7ms/epoch - 1ms/step
Epoch 15/100
6/6 - 0s - loss: 210153.2500 - mean_absolute_error: 335.0827 - val_loss: 232561.1250 - val_mean_absolute_error: 335.8162 - 7ms/epoch - 1ms/step
Epoch 16/100
6/6 - 0s - loss: 207091.6875 - mean_absolute_error: 334.6751 - val_loss: 230818.6250 - val_mean_absolute_error: 334.8681 - 7ms/epoch - 1ms/step
Epoch 17/100
6/6 - 0s - loss: 210881.5938 - mean_absolute_error: 334.5429 - val_loss: 229200.9375 - val_mean_absolute_error: 333.9839 - 7ms/epoch - 1ms/step
Epoch 18/100
6/6 - 0s - loss: 211783.9062 - mean_absolute_error: 334.2473 - val_loss: 227677.6094 - val_mean_absolute_error: 333.1381 - 8ms/epoch - 1ms/step
Epoch 19/100
6/6 - 0s - loss: 211858.2031 - mean_absolute_error: 330.9749 - val_loss: 226057.9844 - val_mean_absolute_error: 332.2371 - 8ms/epoch - 1ms/step
Epoch 20/100
6/6 - 0s - loss: 208662.5469 - mean_absolute_error: 332.9170 - val_loss: 224551.7656 - val_mean_absolute_error: 331.3869 - 8ms/epoch - 1ms/step
Epoch 21/100
6/6 - 0s - loss: 203965.9062 - mean_absolute_error: 328.4652 - val_loss: 223244.3750 - val_mean_absolute_error: 330.6154 - 10ms/epoch - 2ms/step
Epoch 22/100
6/6 - 0s - loss: 206621.2344 - mean_absolute_error: 332.5487 - val_loss: 221872.5938 - val_mean_absolute_error: 329.8323 - 9ms/epoch - 1ms/step
Epoch 23/100
6/6 - 0s - loss: 194933.1406 - mean_absolute_error: 324.5613 - val_loss: 220285.0156 - val_mean_absolute_error: 328.8973 - 8ms/epoch - 1ms/step
Epoch 24/100
6/6 - 0s - loss: 208980.0000 - mean_absolute_error: 332.9135 - val_loss: 218757.1719 - val_mean_absolute_error: 328.1025 - 8ms/epoch - 1ms/step
Epoch 25/100
6/6 - 0s - loss: 204899.7969 - mean_absolute_error: 332.9991 - val_loss: 217492.6250 - val_mean_absolute_error: 327.4543 - 8ms/epoch - 1ms/step
Epoch 26/100
6/6 - 0s - loss: 191131.1406 - mean_absolute_error: 316.8684 - val_loss: 216087.5469 - val_mean_absolute_error: 326.7378 - 8ms/epoch - 1ms/step
Epoch 27/100
6/6 - 0s - loss: 197979.2656 - mean_absolute_error: 327.8241 - val_loss: 214531.3125 - val_mean_absolute_error: 325.9354 - 9ms/epoch - 2ms/step
Epoch 28/100
6/6 - 0s - loss: 201273.1094 - mean_absolute_error: 327.9562 - val_loss: 213198.8281 - val_mean_absolute_error: 325.2409 - 9ms/epoch - 1ms/step
Epoch 29/100
6/6 - 0s - loss: 193072.6875 - mean_absolute_error: 325.2121 - val_loss: 211802.7188 - val_mean_absolute_error: 324.5041 - 8ms/epoch - 1ms/step
Epoch 30/100
6/6 - 0s - loss: 198304.3594 - mean_absolute_error: 322.2490 - val_loss: 210522.5000 - val_mean_absolute_error: 323.8247 - 8ms/epoch - 1ms/step
Epoch 31/100
6/6 - 0s - loss: 193468.0156 - mean_absolute_error: 318.0669 - val_loss: 208912.6875 - val_mean_absolute_error: 322.9886 - 8ms/epoch - 1ms/step
Epoch 32/100
6/6 - 0s - loss: 188204.3750 - mean_absolute_error: 314.9552 - val_loss: 207438.9688 - val_mean_absolute_error: 322.2015 - 8ms/epoch - 1ms/step
Epoch 33/100
6/6 - 0s - loss: 191693.4375 - mean_absolute_error: 317.7322 - val_loss: 206358.0938 - val_mean_absolute_error: 321.6151 - 9ms/epoch - 1ms/step
Epoch 34/100
6/6 - 0s - loss: 192634.5938 - mean_absolute_error: 319.9763 - val_loss: 205082.7344 - val_mean_absolute_error: 320.9189 - 8ms/epoch - 1ms/step
Epoch 35/100
6/6 - 0s - loss: 191954.2500 - mean_absolute_error: 320.6710 - val_loss: 203869.6562 - val_mean_absolute_error: 320.2673 - 8ms/epoch - 1ms/step
Epoch 36/100
6/6 - 0s - loss: 193771.4062 - mean_absolute_error: 320.8405 - val_loss: 202548.0938 - val_mean_absolute_error: 319.5464 - 8ms/epoch - 1ms/step
Epoch 37/100
6/6 - 0s - loss: 184846.8438 - mean_absolute_error: 314.3438 - val_loss: 201279.9531 - val_mean_absolute_error: 318.8421 - 8ms/epoch - 1ms/step
Epoch 38/100
6/6 - 0s - loss: 189066.6406 - mean_absolute_error: 316.1412 - val_loss: 199952.3906 - val_mean_absolute_error: 318.0969 - 8ms/epoch - 1ms/step
Epoch 39/100
6/6 - 0s - loss: 186158.8750 - mean_absolute_error: 316.1143 - val_loss: 198923.1562 - val_mean_absolute_error: 317.5159 - 8ms/epoch - 1ms/step
Epoch 40/100
6/6 - 0s - loss: 192397.8125 - mean_absolute_error: 321.7169 - val_loss: 197735.9844 - val_mean_absolute_error: 316.8292 - 8ms/epoch - 1ms/step
Epoch 41/100
6/6 - 0s - loss: 192770.7344 - mean_absolute_error: 319.1442 - val_loss: 196708.0469 - val_mean_absolute_error: 316.2372 - 8ms/epoch - 1ms/step
Epoch 42/100
6/6 - 0s - loss: 189004.1875 - mean_absolute_error: 318.7399 - val_loss: 195652.5000 - val_mean_absolute_error: 315.6300 - 7ms/epoch - 1ms/step
Epoch 43/100
6/6 - 0s - loss: 183013.4688 - mean_absolute_error: 310.7281 - val_loss: 194529.7188 - val_mean_absolute_error: 314.9731 - 7ms/epoch - 1ms/step
Epoch 44/100
6/6 - 0s - loss: 191928.4375 - mean_absolute_error: 327.4669 - val_loss: 193378.0156 - val_mean_absolute_error: 314.3028 - 8ms/epoch - 1ms/step
Epoch 45/100
6/6 - 0s - loss: 187393.4219 - mean_absolute_error: 318.2569 - val_loss: 192250.7812 - val_mean_absolute_error: 313.6416 - 8ms/epoch - 1ms/step
Epoch 46/100
6/6 - 0s - loss: 184491.3906 - mean_absolute_error: 312.7693 - val_loss: 191199.6719 - val_mean_absolute_error: 313.0177 - 7ms/epoch - 1ms/step
Epoch 47/100
6/6 - 0s - loss: 184332.8281 - mean_absolute_error: 316.6171 - val_loss: 190283.1875 - val_mean_absolute_error: 312.4655 - 8ms/epoch - 1ms/step
Epoch 48/100
6/6 - 0s - loss: 181215.1562 - mean_absolute_error: 312.7101 - val_loss: 189312.3906 - val_mean_absolute_error: 311.8822 - 7ms/epoch - 1ms/step
Epoch 49/100
6/6 - 0s - loss: 189199.8125 - mean_absolute_error: 320.2202 - val_loss: 188459.6250 - val_mean_absolute_error: 311.3807 - 7ms/epoch - 1ms/step
Epoch 50/100
6/6 - 0s - loss: 180506.3594 - mean_absolute_error: 313.2449 - val_loss: 187340.2812 - val_mean_absolute_error: 310.6902 - 7ms/epoch - 1ms/step
Epoch 51/100
6/6 - 0s - loss: 178710.8594 - mean_absolute_error: 308.1283 - val_loss: 186287.3281 - val_mean_absolute_error: 310.0344 - 7ms/epoch - 1ms/step
Epoch 52/100
6/6 - 0s - loss: 183595.1875 - mean_absolute_error: 312.3051 - val_loss: 185194.7188 - val_mean_absolute_error: 309.3505 - 7ms/epoch - 1ms/step
Epoch 53/100
6/6 - 0s - loss: 177396.1094 - mean_absolute_error: 308.4063 - val_loss: 184547.8906 - val_mean_absolute_error: 308.9644 - 7ms/epoch - 1ms/step
Epoch 54/100
6/6 - 0s - loss: 177468.2656 - mean_absolute_error: 307.2351 - val_loss: 183648.2031 - val_mean_absolute_error: 308.4103 - 7ms/epoch - 1ms/step
Epoch 55/100
6/6 - 0s - loss: 186985.6719 - mean_absolute_error: 318.3907 - val_loss: 182702.1250 - val_mean_absolute_error: 307.8213 - 7ms/epoch - 1ms/step
Epoch 56/100
6/6 - 0s - loss: 178526.8750 - mean_absolute_error: 310.2385 - val_loss: 182063.5938 - val_mean_absolute_error: 307.4338 - 7ms/epoch - 1ms/step
Epoch 57/100
6/6 - 0s - loss: 182687.6719 - mean_absolute_error: 314.3558 - val_loss: 181199.2188 - val_mean_absolute_error: 306.8984 - 7ms/epoch - 1ms/step
Epoch 58/100
6/6 - 0s - loss: 177884.8594 - mean_absolute_error: 313.6068 - val_loss: 180440.4531 - val_mean_absolute_error: 306.4089 - 7ms/epoch - 1ms/step
Epoch 59/100
6/6 - 0s - loss: 168834.8906 - mean_absolute_error: 299.1119 - val_loss: 179312.0156 - val_mean_absolute_error: 305.7029 - 8ms/epoch - 1ms/step
Epoch 60/100
6/6 - 0s - loss: 166649.0156 - mean_absolute_error: 300.6584 - val_loss: 178480.3750 - val_mean_absolute_error: 305.1863 - 7ms/epoch - 1ms/step
Epoch 61/100
6/6 - 0s - loss: 175848.4844 - mean_absolute_error: 308.1605 - val_loss: 177673.9375 - val_mean_absolute_error: 304.6721 - 7ms/epoch - 1ms/step
Epoch 62/100
6/6 - 0s - loss: 165735.0000 - mean_absolute_error: 298.4919 - val_loss: 176466.0000 - val_mean_absolute_error: 303.8873 - 8ms/epoch - 1ms/step
Epoch 63/100
6/6 - 0s - loss: 169080.9375 - mean_absolute_error: 301.7917 - val_loss: 175537.6094 - val_mean_absolute_error: 303.3054 - 7ms/epoch - 1ms/step
Epoch 64/100
6/6 - 0s - loss: 176347.3125 - mean_absolute_error: 310.7344 - val_loss: 174844.3750 - val_mean_absolute_error: 302.8463 - 8ms/epoch - 1ms/step
Epoch 65/100
6/6 - 0s - loss: 165401.8438 - mean_absolute_error: 297.4908 - val_loss: 173947.2031 - val_mean_absolute_error: 302.2639 - 7ms/epoch - 1ms/step
Epoch 66/100
6/6 - 0s - loss: 172462.4219 - mean_absolute_error: 305.5954 - val_loss: 173166.2812 - val_mean_absolute_error: 301.7672 - 7ms/epoch - 1ms/step
Epoch 67/100
6/6 - 0s - loss: 166208.1250 - mean_absolute_error: 297.8751 - val_loss: 172314.5000 - val_mean_absolute_error: 301.2296 - 7ms/epoch - 1ms/step
Epoch 68/100
6/6 - 0s - loss: 171138.6250 - mean_absolute_error: 304.1292 - val_loss: 171587.0156 - val_mean_absolute_error: 300.7671 - 8ms/epoch - 1ms/step
Epoch 69/100
6/6 - 0s - loss: 170740.3906 - mean_absolute_error: 303.7156 - val_loss: 170771.7969 - val_mean_absolute_error: 300.2287 - 7ms/epoch - 1ms/step
Epoch 70/100
6/6 - 0s - loss: 172795.8594 - mean_absolute_error: 305.6236 - val_loss: 169975.6094 - val_mean_absolute_error: 299.7105 - 7ms/epoch - 1ms/step
Epoch 71/100
6/6 - 0s - loss: 162731.5000 - mean_absolute_error: 293.6309 - val_loss: 169143.8906 - val_mean_absolute_error: 299.1707 - 8ms/epoch - 1ms/step
Epoch 72/100
6/6 - 0s - loss: 161406.3906 - mean_absolute_error: 299.5658 - val_loss: 168163.8438 - val_mean_absolute_error: 298.5193 - 8ms/epoch - 1ms/step
Epoch 73/100
6/6 - 0s - loss: 160787.6250 - mean_absolute_error: 298.2885 - val_loss: 167486.0938 - val_mean_absolute_error: 298.0768 - 7ms/epoch - 1ms/step
Epoch 74/100
6/6 - 0s - loss: 163448.7344 - mean_absolute_error: 298.8722 - val_loss: 166744.2812 - val_mean_absolute_error: 297.5808 - 7ms/epoch - 1ms/step
Epoch 75/100
6/6 - 0s - loss: 168023.4531 - mean_absolute_error: 298.7068 - val_loss: 165989.3750 - val_mean_absolute_error: 297.0630 - 7ms/epoch - 1ms/step
Epoch 76/100
6/6 - 0s - loss: 170455.3594 - mean_absolute_error: 302.9755 - val_loss: 165525.6719 - val_mean_absolute_error: 296.7442 - 7ms/epoch - 1ms/step
Epoch 77/100
6/6 - 0s - loss: 160666.3906 - mean_absolute_error: 296.4081 - val_loss: 164827.5625 - val_mean_absolute_error: 296.2523 - 7ms/epoch - 1ms/step
Epoch 78/100
6/6 - 0s - loss: 160125.5156 - mean_absolute_error: 292.2965 - val_loss: 163977.5938 - val_mean_absolute_error: 295.6626 - 7ms/epoch - 1ms/step
Epoch 79/100
6/6 - 0s - loss: 158322.0312 - mean_absolute_error: 298.7578 - val_loss: 163251.1719 - val_mean_absolute_error: 295.1383 - 7ms/epoch - 1ms/step
Epoch 80/100
6/6 - 0s - loss: 162133.4375 - mean_absolute_error: 295.1408 - val_loss: 162599.1250 - val_mean_absolute_error: 294.6570 - 7ms/epoch - 1ms/step
Epoch 81/100
6/6 - 0s - loss: 166505.0312 - mean_absolute_error: 299.8694 - val_loss: 162251.3594 - val_mean_absolute_error: 294.4118 - 7ms/epoch - 1ms/step
Epoch 82/100
6/6 - 0s - loss: 166428.6875 - mean_absolute_error: 297.9335 - val_loss: 161652.8906 - val_mean_absolute_error: 293.9765 - 7ms/epoch - 1ms/step
Epoch 83/100
6/6 - 0s - loss: 172265.1094 - mean_absolute_error: 301.3860 - val_loss: 161242.7344 - val_mean_absolute_error: 293.6899 - 7ms/epoch - 1ms/step
Epoch 84/100
6/6 - 0s - loss: 152702.6562 - mean_absolute_error: 296.0654 - val_loss: 160568.0625 - val_mean_absolute_error: 293.1788 - 7ms/epoch - 1ms/step
Epoch 85/100
6/6 - 0s - loss: 161644.6875 - mean_absolute_error: 295.5984 - val_loss: 160059.1875 - val_mean_absolute_error: 292.8037 - 7ms/epoch - 1ms/step
Epoch 86/100
6/6 - 0s - loss: 157514.6719 - mean_absolute_error: 297.0715 - val_loss: 159556.6250 - val_mean_absolute_error: 292.4243 - 7ms/epoch - 1ms/step
Epoch 87/100
6/6 - 0s - loss: 165127.1406 - mean_absolute_error: 298.0100 - val_loss: 159074.0625 - val_mean_absolute_error: 292.0617 - 7ms/epoch - 1ms/step
Epoch 88/100
6/6 - 0s - loss: 160245.6875 - mean_absolute_error: 298.9142 - val_loss: 158534.5781 - val_mean_absolute_error: 291.6372 - 7ms/epoch - 1ms/step
Epoch 89/100
6/6 - 0s - loss: 147076.9375 - mean_absolute_error: 287.0726 - val_loss: 158074.2344 - val_mean_absolute_error: 291.2890 - 7ms/epoch - 1ms/step
Epoch 90/100
6/6 - 0s - loss: 160462.5312 - mean_absolute_error: 297.0810 - val_loss: 157746.8281 - val_mean_absolute_error: 291.0243 - 7ms/epoch - 1ms/step
Epoch 91/100
6/6 - 0s - loss: 156210.9375 - mean_absolute_error: 288.4174 - val_loss: 157030.7656 - val_mean_absolute_error: 290.4538 - 8ms/epoch - 1ms/step
Epoch 92/100
6/6 - 0s - loss: 156058.4844 - mean_absolute_error: 291.7597 - val_loss: 156573.9844 - val_mean_absolute_error: 290.0740 - 7ms/epoch - 1ms/step
Epoch 93/100
6/6 - 0s - loss: 162954.1406 - mean_absolute_error: 300.6695 - val_loss: 156272.7188 - val_mean_absolute_error: 289.8282 - 7ms/epoch - 1ms/step
Epoch 94/100
6/6 - 0s - loss: 164465.1094 - mean_absolute_error: 295.0368 - val_loss: 155942.5781 - val_mean_absolute_error: 289.5508 - 7ms/epoch - 1ms/step
Epoch 95/100
6/6 - 0s - loss: 153806.0469 - mean_absolute_error: 288.5099 - val_loss: 155405.2188 - val_mean_absolute_error: 289.1063 - 7ms/epoch - 1ms/step
Epoch 96/100
6/6 - 0s - loss: 162177.4844 - mean_absolute_error: 296.6857 - val_loss: 154925.1250 - val_mean_absolute_error: 288.7036 - 7ms/epoch - 1ms/step
Epoch 97/100
6/6 - 0s - loss: 167687.3750 - mean_absolute_error: 297.1287 - val_loss: 154481.4531 - val_mean_absolute_error: 288.3136 - 7ms/epoch - 1ms/step
Epoch 98/100
6/6 - 0s - loss: 152048.0938 - mean_absolute_error: 288.2422 - val_loss: 154026.6406 - val_mean_absolute_error: 287.9357 - 7ms/epoch - 1ms/step
Epoch 99/100
6/6 - 0s - loss: 153931.9219 - mean_absolute_error: 290.8728 - val_loss: 153523.5625 - val_mean_absolute_error: 287.5160 - 7ms/epoch - 1ms/step
Epoch 100/100
6/6 - 0s - loss: 165787.7344 - mean_absolute_error: 298.7090 - val_loss: 153128.8125 - val_mean_absolute_error: 287.1978 - 7ms/epoch - 1ms/step

When training models this way you keep your eyes on the epoch history to study the behavior of the loss function and other metrics on training and test data sets. You have to make a judgement call as to when the optimization has stabilized and further progress is minimal. Alternatively, you can install a function that stops the optimization when certain conditions are met.

This is done in the following code with the callback_early_stopping callback function (not run here). The options of the early stopping function ask it to monitor the loss function on the validation data and stop the optimization when the criterion fails to decrease (mode="min") over 10 epochs (patience=10). Any change of the monitored metric has to be at least 0.1 in magnitude to qualify as an improvement (min_delta=.1).

early_stopping <- callback_early_stopping(monitor = 'val_loss', 
                                          patience = 10,
                                          min_delta = .1,
                                          mode="min")
firstANN %>% 
    fit(x[-testid, ], 
        y[-testid], 
        epochs=400, 
        batch_size=32,
        validation_data= list(x[testid, ], y[testid])
        callbacks=c(early_stopping)
  )

To see a list of all Keras callback functions type the following at the console prompt:

?keras::call

Finally, we predict from the final model, and evaluate its performance on the test data. Due to the use of random elements in the fit (stochastic gradient descent, random dropout, …), the results vary slightly with each fit. Unfortunately the set.seed() function does not ensure identical results (since the fitting is done in python), so your results will differ slightly.

predvals <- predict(firstANN, x[testid, ])

3/3 - 0s - 18ms/epoch - 6ms/step

mean(abs(y[testid] - predvals))

[1] 287.1977

Random numbers

An aspect of Keras that can be befuddling to R users is lack of control over the random mechanisms during training. Neural networks rely on random numbers for picking starting values, selecting observations into mini batches, selecting neurons in dropout layers, etc.

Since the code executes in Python, the set.seed() operation alone does not have the intended effect of fixing the sequence of generated random numbers. The underlying Python code relies on random number generators from the Random and Numpy packages. TensorFlow has its own random number generator on top of that. Python code that uses Keras with the TensorFlow backend needs to set a seed for each generator to obtain reproducible results. The tensorflow function set_random_seed sets a seed value for both the R environment and the Python environment random number generators to increase reproducibility.

tensorflow::set_random_seed(2, disable_gpu = TRUE)

Keras might still generate non-reproducible results. For example, multi-threading operations on CPUs—and GPUs in particular—can produce a non-deterministic order of operations. The diable_gpu argument of set_random_seed function can be set to TRUE to increase reproducibility but performance may suffer.

Even with these controls, results may vary slightly. One recommendation to deal with non-deterministic results is training the model several times and averaging the results, essentially ensembling them. When a single training run takes several hours, doing it thirty times is not practical.

MNIST Image Classification

We now return to the MNIST image classification data introduced in Section 32.4. Recall that the data comprise 60,000 training images and 10,000 test images of handwritten digits (0–9). Each image has 28 x 28 pixels recording a grayscale value.

The MNIST data is provided by Keras:

Setup the data

mnist <- dataset_mnist()
x_train <- mnist$train$x
g_train <- mnist$train$y

x_test <- mnist$test$x
g_test <- mnist$test$y
dim(x_train)

[1] 60000    28    28

dim(x_test)

[1] 10000    28    28

The images are stored as a three-dimensional array, and need to be reshaped into a matrix. For classification tasks with \(k\) categories, Keras expects as the target values a matrix of \(k\) columns. Column \(k\) contains ones in the rows for observations where the observed category is \(k\), and zeros otherwise. This is called one-hot encoding of the target variable. Luckily, keras has built-in functions that handle both tasks for us.

x_train <- array_reshape(x_train, c(nrow(x_train), 784))
x_test  <- array_reshape(x_test, c(nrow(x_test), 784))

y_train <- to_categorical(g_train, 10)
y_test  <- to_categorical(g_test, 10)

Let’s look at the one-hot encoding of the target data. g_test contains the value of the digit from 0–9. y_test is a matrix with 10 columns, each column corresponds to one digit. If observation \(i\) represents digit \(j\) then there is a 1 in row \(i\), column \(j+1\) of the encoded matrix. For example, for the first twenty images:

g_test[1:20]

 [1] 7 2 1 0 4 1 4 9 5 9 0 6 9 0 1 5 9 7 3 4

y_test[1:20,1:10]

      [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
 [1,]    0    0    0    0    0    0    0    1    0     0
 [2,]    0    0    1    0    0    0    0    0    0     0
 [3,]    0    1    0    0    0    0    0    0    0     0
 [4,]    1    0    0    0    0    0    0    0    0     0
 [5,]    0    0    0    0    1    0    0    0    0     0
 [6,]    0    1    0    0    0    0    0    0    0     0
 [7,]    0    0    0    0    1    0    0    0    0     0
 [8,]    0    0    0    0    0    0    0    0    0     1
 [9,]    0    0    0    0    0    1    0    0    0     0
[10,]    0    0    0    0    0    0    0    0    0     1
[11,]    1    0    0    0    0    0    0    0    0     0
[12,]    0    0    0    0    0    0    1    0    0     0
[13,]    0    0    0    0    0    0    0    0    0     1
[14,]    1    0    0    0    0    0    0    0    0     0
[15,]    0    1    0    0    0    0    0    0    0     0
[16,]    0    0    0    0    0    1    0    0    0     0
[17,]    0    0    0    0    0    0    0    0    0     1
[18,]    0    0    0    0    0    0    0    1    0     0
[19,]    0    0    0    1    0    0    0    0    0     0
[20,]    0    0    0    0    1    0    0    0    0     0

Let’s look at the matrix of inputs. The next array shows the 28 x 28 - 784 input columns for the third image. The values are grayscale values between 0 and 255.

x_test[3,]

  [1]   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
 [19]   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
 [37]   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
 [55]   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
 [73]   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
 [91]   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
[109]   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
[127]   0   0  38 254 109   0   0   0   0   0   0   0   0   0   0   0   0   0
[145]   0   0   0   0   0   0   0   0   0   0   0   0  87 252  82   0   0   0
[163]   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
[181]   0   0   0   0 135 241   0   0   0   0   0   0   0   0   0   0   0   0
[199]   0   0   0   0   0   0   0   0   0   0   0   0   0  45 244 150   0   0
[217]   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
[235]   0   0   0   0   0  84 254  63   0   0   0   0   0   0   0   0   0   0
[253]   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0 202 223  11
[271]   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
[289]   0   0   0   0   0   0  32 254 216   0   0   0   0   0   0   0   0   0
[307]   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0  95 254
[325] 195   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
[343]   0   0   0   0   0   0   0   0 140 254  77   0   0   0   0   0   0   0
[361]   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0  57
[379] 237 205   8   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
[397]   0   0   0   0   0   0   0   0   0 124 255 165   0   0   0   0   0   0
[415]   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
[433]   0 171 254  81   0   0   0   0   0   0   0   0   0   0   0   0   0   0
[451]   0   0   0   0   0   0   0   0   0   0  24 232 215   0   0   0   0   0
[469]   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
[487]   0   0 120 254 159   0   0   0   0   0   0   0   0   0   0   0   0   0
[505]   0   0   0   0   0   0   0   0   0   0   0   0 151 254 142   0   0   0
[523]   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
[541]   0   0   0   0 228 254  66   0   0   0   0   0   0   0   0   0   0   0
[559]   0   0   0   0   0   0   0   0   0   0   0   0   0  61 251 254  66   0
[577]   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
[595]   0   0   0   0   0 141 254 205   3   0   0   0   0   0   0   0   0   0
[613]   0   0   0   0   0   0   0   0   0   0   0   0   0   0  10 215 254 121
[631]   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
[649]   0   0   0   0   0   0   5 198 176  10   0   0   0   0   0   0   0   0
[667]   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
[685]   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
[703]   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
[721]   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
[739]   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
[757]   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
[775]   0   0   0   0   0   0   0   0   0   0

Finally, prior to training the network, we scale the input values to lie between 0–1.

x_train <- x_train / 255
x_test  <- x_test / 255

The target variable does not need to be scaled, the one-hot encoding together with the use of a softmax output function ensures that the output for each category is a value between 0 and 1, and that they sum to 1 across the 10 categories. We will interpret them as predicted probabilities that an observed image is assigned to a particular digit.

To classify the MNIST images we consider two types of neural networks in the remainder of this chapter: a multi layer ANN and a network without a hidden layer. The latter is a multi category perceptron and very similar to a multinomial logistic regression model.

Multi layer neural network

We now train the network shown in Figure 32.14, an ANN with two hidden layers. We also add dropout regularization layers after each fully connected hidden layer. The first layer specifies the input shape of 28 x 28 = 784. It has 128 neurons and ReLU activation. Why? Because.

This is followed by a first dropout layer with rate \(\phi_1 = 0.3\), another fully connected hidden layer with 64 nodes and hyperbolic tangent activation function, a second dropout layer with rate \(\phi_2 = 0.2\), and a final softmax output layer. Why? Because.

Setup the network

The following statements set up the network in keras:

modelnn <- keras_model_sequential() %>%
    layer_dense(units=128,
                activation="relu",
                input_shape=784,
                name="FirstHidden") %>%
    layer_dropout(rate=0.3,
                  name="FirstDropOut") %>%
    layer_dense(units=64,
                activation="tanh",
                name="SecondHidden") %>% 
    layer_dropout(rate=0.2,
                  name="SecondDropOut") %>% 
    layer_dense(units=10, 
                activation="softmax",
                name="Output")

The summary() function let’s us inspect whether we got it all right.

summary(modelnn)

Model: "sequential_1"
________________________________________________________________________________
 Layer (type)                       Output Shape                    Param #     
================================================================================
 FirstHidden (Dense)                (None, 128)                     100480      
 FirstDropOut (Dropout)             (None, 128)                     0           
 SecondHidden (Dense)               (None, 64)                      8256        
 SecondDropOut (Dropout)            (None, 64)                      0           
 Output (Dense)                     (None, 10)                      650         
================================================================================
Total params: 109386 (427.29 KB)
Trainable params: 109386 (427.29 KB)
Non-trainable params: 0 (0.00 Byte)
________________________________________________________________________________

The total number of parameters in this network is 109,386, a sizeable network but not a huge network.

Set up the optimization

Next, we add details to the model to specify the fitting algorithm. We fit the model by minimizing the categorical cross-entropy function and monitor the classification accuracy during the iterations.

modelnn %>% compile(loss="categorical_crossentropy",
                    optimizer=optimizer_rmsprop(), 
                    metrics=c("accuracy")
                    )

Fit the model

We are ready to go. The final step is to supply training data, and fit the model. With a batch size of 128 observations, each epoch corresponds to 60,000 / 128 = 469 gradient evaluations.

history <- modelnn %>%
      fit(x_train, 
          y_train, 
          epochs=20, 
          batch_size=128,
          validation_data= list(x_test, y_test),
          )

Epoch 1/20
469/469 - 1s - loss: 0.3979 - accuracy: 0.8844 - val_loss: 0.1681 - val_accuracy: 0.9466 - 558ms/epoch - 1ms/step
Epoch 2/20
469/469 - 0s - loss: 0.1871 - accuracy: 0.9450 - val_loss: 0.1213 - val_accuracy: 0.9637 - 411ms/epoch - 877us/step
Epoch 3/20
469/469 - 0s - loss: 0.1467 - accuracy: 0.9559 - val_loss: 0.1054 - val_accuracy: 0.9680 - 412ms/epoch - 878us/step
Epoch 4/20
469/469 - 0s - loss: 0.1252 - accuracy: 0.9632 - val_loss: 0.0887 - val_accuracy: 0.9734 - 420ms/epoch - 896us/step
Epoch 5/20
469/469 - 0s - loss: 0.1108 - accuracy: 0.9666 - val_loss: 0.0854 - val_accuracy: 0.9739 - 412ms/epoch - 878us/step
Epoch 6/20
469/469 - 0s - loss: 0.1010 - accuracy: 0.9701 - val_loss: 0.0801 - val_accuracy: 0.9753 - 412ms/epoch - 879us/step
Epoch 7/20
469/469 - 0s - loss: 0.0933 - accuracy: 0.9721 - val_loss: 0.0815 - val_accuracy: 0.9783 - 411ms/epoch - 875us/step
Epoch 8/20
469/469 - 0s - loss: 0.0877 - accuracy: 0.9729 - val_loss: 0.0791 - val_accuracy: 0.9783 - 410ms/epoch - 875us/step
Epoch 9/20
469/469 - 0s - loss: 0.0824 - accuracy: 0.9747 - val_loss: 0.0759 - val_accuracy: 0.9793 - 411ms/epoch - 876us/step
Epoch 10/20
469/469 - 0s - loss: 0.0790 - accuracy: 0.9751 - val_loss: 0.0715 - val_accuracy: 0.9795 - 413ms/epoch - 881us/step
Epoch 11/20
469/469 - 0s - loss: 0.0760 - accuracy: 0.9766 - val_loss: 0.0738 - val_accuracy: 0.9798 - 415ms/epoch - 884us/step
Epoch 12/20
469/469 - 0s - loss: 0.0719 - accuracy: 0.9778 - val_loss: 0.0754 - val_accuracy: 0.9786 - 413ms/epoch - 881us/step
Epoch 13/20
469/469 - 0s - loss: 0.0678 - accuracy: 0.9792 - val_loss: 0.0757 - val_accuracy: 0.9793 - 406ms/epoch - 865us/step
Epoch 14/20
469/469 - 0s - loss: 0.0651 - accuracy: 0.9800 - val_loss: 0.0740 - val_accuracy: 0.9786 - 409ms/epoch - 872us/step
Epoch 15/20
469/469 - 0s - loss: 0.0651 - accuracy: 0.9793 - val_loss: 0.0730 - val_accuracy: 0.9808 - 406ms/epoch - 867us/step
Epoch 16/20
469/469 - 0s - loss: 0.0613 - accuracy: 0.9810 - val_loss: 0.0709 - val_accuracy: 0.9803 - 412ms/epoch - 878us/step
Epoch 17/20
469/469 - 0s - loss: 0.0613 - accuracy: 0.9806 - val_loss: 0.0691 - val_accuracy: 0.9814 - 412ms/epoch - 878us/step
Epoch 18/20
469/469 - 0s - loss: 0.0575 - accuracy: 0.9812 - val_loss: 0.0767 - val_accuracy: 0.9799 - 414ms/epoch - 883us/step
Epoch 19/20
469/469 - 0s - loss: 0.0553 - accuracy: 0.9823 - val_loss: 0.0714 - val_accuracy: 0.9811 - 469ms/epoch - 1ms/step
Epoch 20/20
469/469 - 0s - loss: 0.0542 - accuracy: 0.9832 - val_loss: 0.0695 - val_accuracy: 0.9811 - 411ms/epoch - 877us/step

plot(history, smooth = FALSE)

After about 10 epochs the training and validation accuracy are stabilizing although the loss continues to decrease. Interestingly, the accuracy and loss in the 10,000 image validation set is better than in the 60,000 image training data set. Considering that the grayscale values are entered into this neural network as 784 numeric input variables without taking into account any spatial arrangement of the pixels on the image, a classification accuracy of 96% on unseen images is quite good. Whether that is sufficient depends on the application.

As we will see in Chapter 36, neural networks that specialize in the processing of grid-like data such as images easily improve on this performance.

Calculate predicted categories

To calculate the predicted categories for the images in the test data set, we use the predict function. The result of that operation is a vector of 10 predicted probabilities for each observation.

predvals <- modelnn %>% predict(x_test)

313/313 - 0s - 82ms/epoch - 262us/step

For the first image, the probabilities that its digit belongs to any of the 10 classes is given by this vector

round(predvals[1,],4)

 [1] 0 0 0 0 0 0 0 1 0 0

which.max(predvals[1,])

[1] 8

The maximum probability is 1 in position 8. The image is classified as a “7” (the digits are 0-based).

keras provides the convenience function k_argmax() to perform this operation; it returns the index of the maximum value:

predcl <- modelnn %>% predict(x_test) %>% k_argmax()

313/313 - 0s - 77ms/epoch - 245us/step

Which of the first 500 observations were misclassified?

miscl <- which(as.numeric(predcl[1:500]) != g_test[1:500])
miscl

[1] 248 260 322 341 360 382 446

cat("Observed value for obs # ", miscl[1], ":", g_test[miscl[1]],"\n")

Observed value for obs #  248 : 4

cat("Predicted value for obs #", miscl[1], ":", as.numeric(predcl[miscl[1]]))

Predicted value for obs # 248 : 2

The first misclassified observation is #248. The observed digit value is 4, the predicted value is 2. The softmax probabilities for this observation show why it predicted category 2:

round(predvals[miscl[1],],4)

 [1] 0.0000 0.0003 0.9791 0.0001 0.0039 0.0003 0.0159 0.0002 0.0001 0.0000

We can visualize the data with the image function. The next code segment does this for the first observation in the data set and for the first two mis-classified observations:

# visualize the digits
plotIt <- function(id=1) {
    im <- mnist$test$x[id,,]
    im <- t(apply(im, 2, rev)) 
    image(1:28, 1:28, 
          im, 
          col=gray((0:255)/255), 
          xaxt='n', 
          main=paste("Observation #",id,"--",
                     "Image label: ",g_test[id], 
                     " Predicted: ", as.numeric(predcl[id])))
}

plotIt(1)

plotIt(miscl[1])

plotIt(miscl[2])

Multinomial logistic regression

A 98% accuracy is impressive, but maybe it is not good enough. In applications where the consequences of errors are high, this accuracy might be insufficient. Suppose we are using the trained network to recognize written digits on personal checks. Getting 200 out of 10,000 digits wrong would be unacceptable. Banks would deposit incorrect amounts all the time.

If that is the application for the trained algorithm, we should consider other models for these data. This raises an interesting question: how much did we gain by adding the layers of the network? If this is an effective strategy to increase accuracy then we could consider adding more layers. If not, then maybe we need to research an entirely different network architecture.

Before trying deeper alternatives we can establish one performance benchmark by removing the hidden layers and training what essentially is a single layer perceptron (Section 32.1). This model has an input layer and an output layer. In terms of the keras syntax it is specified with a single layer:

modellr <- keras_model_sequential() %>%
    layer_dense(input_shape=784, 
                units=10,
                activation="softmax")
summary(modellr)

Model: "sequential_2"
________________________________________________________________________________
 Layer (type)                       Output Shape                    Param #     
================================================================================
 dense_1 (Dense)                    (None, 10)                      7850        
================================================================================
Total params: 7850 (30.66 KB)
Trainable params: 7850 (30.66 KB)
Non-trainable params: 0 (0.00 Byte)
________________________________________________________________________________

This is essentially a multinomial logistic regression model with a 10-category target variable and 784 input variables. The model is much smaller than the previous network (it has only 7,850 parameters) but is huge if we think of it as a multinomial logistic regression model. Many software packages for multinomial regression would struggle to fit a model of this size. When articulated as a neural network, training such a model is actually a breeze.

We proceed just as before.

modellr %>% compile(loss = "categorical_crossentropy",
     optimizer = optimizer_rmsprop(), 
     metrics = c("accuracy"))

history_lr <- modellr %>% fit(x_train, 
                y_train, 
                epochs=20,
                batch_size=128,
                validation_data=list(x_test, y_test))

Epoch 1/20
469/469 - 0s - loss: 0.6031 - accuracy: 0.8491 - val_loss: 0.3453 - val_accuracy: 0.9080 - 278ms/epoch - 593us/step
Epoch 2/20
469/469 - 0s - loss: 0.3331 - accuracy: 0.9074 - val_loss: 0.2994 - val_accuracy: 0.9171 - 180ms/epoch - 383us/step
Epoch 3/20
469/469 - 0s - loss: 0.3044 - accuracy: 0.9152 - val_loss: 0.2878 - val_accuracy: 0.9208 - 181ms/epoch - 386us/step
Epoch 4/20
469/469 - 0s - loss: 0.2912 - accuracy: 0.9189 - val_loss: 0.2788 - val_accuracy: 0.9226 - 186ms/epoch - 397us/step
Epoch 5/20
469/469 - 0s - loss: 0.2830 - accuracy: 0.9212 - val_loss: 0.2763 - val_accuracy: 0.9228 - 191ms/epoch - 407us/step
Epoch 6/20
469/469 - 0s - loss: 0.2771 - accuracy: 0.9226 - val_loss: 0.2744 - val_accuracy: 0.9236 - 182ms/epoch - 389us/step
Epoch 7/20
469/469 - 0s - loss: 0.2730 - accuracy: 0.9243 - val_loss: 0.2731 - val_accuracy: 0.9231 - 181ms/epoch - 385us/step
Epoch 8/20
469/469 - 0s - loss: 0.2696 - accuracy: 0.9255 - val_loss: 0.2712 - val_accuracy: 0.9251 - 183ms/epoch - 391us/step
Epoch 9/20
469/469 - 0s - loss: 0.2669 - accuracy: 0.9268 - val_loss: 0.2720 - val_accuracy: 0.9249 - 180ms/epoch - 385us/step
Epoch 10/20
469/469 - 0s - loss: 0.2649 - accuracy: 0.9272 - val_loss: 0.2676 - val_accuracy: 0.9254 - 180ms/epoch - 384us/step
Epoch 11/20
469/469 - 0s - loss: 0.2630 - accuracy: 0.9276 - val_loss: 0.2664 - val_accuracy: 0.9266 - 179ms/epoch - 383us/step
Epoch 12/20
469/469 - 0s - loss: 0.2611 - accuracy: 0.9287 - val_loss: 0.2669 - val_accuracy: 0.9262 - 188ms/epoch - 402us/step
Epoch 13/20
469/469 - 0s - loss: 0.2598 - accuracy: 0.9288 - val_loss: 0.2673 - val_accuracy: 0.9257 - 182ms/epoch - 388us/step
Epoch 14/20
469/469 - 0s - loss: 0.2583 - accuracy: 0.9296 - val_loss: 0.2650 - val_accuracy: 0.9268 - 186ms/epoch - 396us/step
Epoch 15/20
469/469 - 0s - loss: 0.2571 - accuracy: 0.9294 - val_loss: 0.2650 - val_accuracy: 0.9272 - 182ms/epoch - 389us/step
Epoch 16/20
469/469 - 0s - loss: 0.2564 - accuracy: 0.9302 - val_loss: 0.2669 - val_accuracy: 0.9270 - 187ms/epoch - 400us/step
Epoch 17/20
469/469 - 0s - loss: 0.2551 - accuracy: 0.9309 - val_loss: 0.2639 - val_accuracy: 0.9278 - 207ms/epoch - 441us/step
Epoch 18/20
469/469 - 0s - loss: 0.2542 - accuracy: 0.9308 - val_loss: 0.2644 - val_accuracy: 0.9275 - 211ms/epoch - 449us/step
Epoch 19/20
469/469 - 0s - loss: 0.2531 - accuracy: 0.9314 - val_loss: 0.2659 - val_accuracy: 0.9272 - 186ms/epoch - 397us/step
Epoch 20/20
469/469 - 0s - loss: 0.2526 - accuracy: 0.9313 - val_loss: 0.2651 - val_accuracy: 0.9270 - 183ms/epoch - 391us/step

plot(history, smooth = FALSE)

Even with just a single layer, the model performs quite well, its accuracy is around 93%. Adding the additional layer in the previous ANN did improve the accuracy. On the other hand, it took more than 100,000 extra parameters to move from 93% to 98% accuracy.