records/110924_Replicateleloykun/1621af10-aa0c-42af-bf54-8a773c63a2af.txt

====================================================================================================
import os
import sys
with open(sys.argv[0]) as f:
    code = f.read() # read the code of this file ASAP, for logging
import uuid
import glob
import time
from dataclasses import dataclass

import numpy as np
import torch
from torch import nn
import torch.nn.functional as F
import torch.distributed as dist
import torch._inductor.config as config
from torch.nn.parallel import DistributedDataParallel as DDP

# -----------------------------------------------------------------------------
# Muon optimizer

def zeropower_via_svd(G, steps=None):
    U, S, V = G.svd()
    return U @ V.T

@torch.compile
def zeropower_via_newtonschulz5(G: torch.Tensor, steps: int = 10):
    """
    Newton-Schulz iteration to compute the zeroth power / orthogonalization of G. We opt to use a
    quintic iteration whose coefficients are selected to maximize the slope at zero. For the purpose
    of minimizing steps, it turns out to be empirically effective to keep increasing the slope at
    zero even beyond the point where the iteration no longer converges all the way to one everywhere
    on the interval. This iteration therefore does not produce UV^T but rather something like US'V^T
    where S' is diagonal with S_{ii}' \sim Uniform(0.5, 1.5), which turns out not to hurt model
    performance at all relative to UV^T, where USV^T = G is the SVD.
    """
    assert len(G.shape) == 2
    a, b, c = (3.4445, -4.7750,  2.0315)
    X = G.bfloat16()
    I = torch.eye(min(G.size(0), G.size(1)), dtype=X.dtype, device=X.device)
    X.div_(X.norm() + 1e-7) # ensure top singular value <= 1
    if G.size(0) > G.size(1):
        X = X.T
    for _ in range(steps):
        A = X @ X.T
        S = A @ (b * I + c * A)
        torch.diagonal(S).add_(a)
        X = S @ X
    if G.size(0) > G.size(1):
        X = X.T
    return X

zeropower_backends = dict(svd=zeropower_via_svd, newtonschulz5=zeropower_via_newtonschulz5)

class Muon(torch.optim.Optimizer):
    """
    Muon - MomentUm Orthogonalized by Newton-schulz

    Muon internally runs standard SGD-momentum, and then performs an orthogonalization post-
    processing step, in which each 2D parameter's update is replaced with the nearest orthogonal
    matrix. To efficiently orthogonalize each update, we use a Newton-Schulz iteration, which has
    the advantage that it can be stably run in bfloat16 on the GPU.

    Some warnings:
    - This optimizer assumes that all parameters passed in are 2D.
    - It should not be used for the embedding layer, the final fully connected layer, or any {0,1}-D
    parameters; those should all be optimized by a standard method (e.g., AdamW).
    - To use it with 4D convolutional filters, it works well to just flatten their last 3 dimensions.
    - We believe it is unlikely to work well for training with small batch size.
    - We believe it may not work well for finetuning pretrained models, but we haven't tested this.
    - We have not yet tried this optimizer for training scenarios larger than NanoGPT (124M).

    Arguments:
        lr: The learning rate used by the internal SGD.
        momentum: The momentum used by the internal SGD.
        nesterov: Whether to use Nesterov-style momentum in the internal SGD. (recommended)
        backend: The chosen backend for the orthogonalization step. (recommended: 'newtonschulz5')
        backend_steps: The number of iteration steps to use in the backend, if it is iterative.
    """
    def __init__(self, params, lr=0.02, momentum=0.95, nesterov=True,
                 backend='newtonschulz5', backend_steps=5):
        defaults = dict(lr=lr, momentum=momentum, nesterov=nesterov, backend=backend, backend_steps=backend_steps)
        super().__init__(params, defaults)

    def step(self):

        for group in self.param_groups:

            lr = group['lr']
            momentum = group['momentum']
            zeropower_backend = zeropower_backends[group['backend']]

            # generate weight updates in distributed fashion
            total_params = sum(p.numel() for p in group['params'])
            updates_flat = torch.zeros(total_params, device='cuda', dtype=torch.bfloat16)
            curr_idx = 0
            for i, p in enumerate(group['params']):
                # luckily this will perfectly distribute a transformer with multiple of 4 layers to 8 GPUs
                if i % int(os.environ['WORLD_SIZE']) == int(os.environ['RANK']):
                    g = p.grad
                    assert g is not None
                    state = self.state[p]
                    if 'momentum_buffer' not in state:
                        state['momentum_buffer'] = torch.zeros_like(g)
                    buf = state['momentum_buffer']
                    buf.mul_(momentum).add_(g)
                    if group['nesterov']:
                        g = g.add(buf, alpha=momentum)
                    g = zeropower_backend(g, steps=group['backend_steps'])
                    g *= max(1, g.size(0)/g.size(1))**0.5
                    updates_flat[curr_idx:curr_idx+p.numel()] = g.flatten()
                curr_idx += p.numel()

            # sync updates across devices. we are not memory-constrained so can do this simple deserialization
            dist.all_reduce(updates_flat, op=dist.ReduceOp.SUM)

            # deserialize and apply updates
            curr_idx = 0
            for p in group['params']:
                g = updates_flat[curr_idx:curr_idx+p.numel()].view_as(p.data).type_as(p.data)
                p.data.add_(g, alpha=-lr)
                curr_idx += p.numel()

# -----------------------------------------------------------------------------
# PyTorch nn.Module definitions for the GPT-2 model

class Rotary(torch.nn.Module):

    def __init__(self, dim, base=10000):
        super().__init__()
        self.inv_freq = 1.0 / (base ** (torch.arange(0, dim, 2).float() / dim))
        self.seq_len_cached = None
        self.cos_cached = None
        self.sin_cached = None

    def forward(self, x):
        seq_len = x.shape[1]
        if seq_len != self.seq_len_cached:
            self.seq_len_cached = seq_len
            t = torch.arange(seq_len, device=x.device).type_as(self.inv_freq)
            freqs = torch.outer(t, self.inv_freq).to(x.device)
            self.cos_cached = freqs.cos().bfloat16()
            self.sin_cached = freqs.sin().bfloat16()
        return self.cos_cached[None, :, None, :], self.sin_cached[None, :, None, :]

def apply_rotary_emb(x, cos, sin):
    assert x.ndim == 4 # multihead attention
    d = x.shape[3]//2
    x1 = x[..., :d]
    x2 = x[..., d:]
    y1 = x1 * cos + x2 * sin
    y2 = x1 * (-sin) + x2 * cos
    return torch.cat([y1, y2], 3).type_as(x)

class CausalSelfAttention(nn.Module):

    def __init__(self, config):
        super().__init__()
        self.n_head = config.n_head
        self.n_embd = config.n_embd
        self.head_dim = self.n_embd // self.n_head
        assert self.n_embd % self.n_head == 0
        self.c_q = nn.Linear(self.n_embd, self.n_embd, bias=False)
        self.c_k = nn.Linear(self.n_embd, self.n_embd, bias=False)
        self.c_v = nn.Linear(self.n_embd, self.n_embd, bias=False)
        # output projection
        self.c_proj = nn.Linear(self.n_embd, self.n_embd, bias=False)
        self.c_proj.weight.data.zero_() # zero init suggested by @Grad62304977
        self.rotary = Rotary(self.head_dim)
        self.lambdas = nn.Parameter(torch.tensor([0.5, 0.5]))

    def forward(self, x, v1=None):
        B, T, C = x.size() # batch size, sequence length, embedding dimensionality (n_embd)
        q = self.c_q(x).view(B, T, self.n_head, self.head_dim)
        k = self.c_k(x).view(B, T, self.n_head, self.head_dim)
        v = self.c_v(x).view(B, T, self.n_head, self.head_dim)
        if v1 is None:
            v1 = v # This happens if we are in the first block. v needs to be accessed by subsequent blocks
        v = self.lambdas[0] * v + self.lambdas[1] * v1.view_as(v) # @Grad62304977
        cos, sin = self.rotary(q)
        q, k = F.rms_norm(q, (q.size(-1),)), F.rms_norm(k, (k.size(-1),)) # QK norm suggested by @Grad62304977
        q, k = apply_rotary_emb(q, cos, sin), apply_rotary_emb(k, cos, sin)
        y = F.scaled_dot_product_attention(q.transpose(1, 2), k.transpose(1, 2), v.transpose(1, 2), is_causal=True)
        y = y.transpose(1, 2).contiguous().view_as(x) # re-assemble all head outputs side by side
        y = self.c_proj(y)
        return y, v1

class MLP(nn.Module):

    def __init__(self, config):
        super().__init__()
        self.c_fc    = nn.Linear(config.n_embd, 4 * config.n_embd, bias=False)
        self.c_proj  = nn.Linear(4 * config.n_embd, config.n_embd, bias=False)
        self.c_proj.weight.data.zero_() # zero init suggested by @Grad62304977

    def forward(self, x):
        x = self.c_fc(x)
        x = F.relu(x).square() # https://arxiv.org/abs/2109.08668v2; ~1-2% better than GELU; suggested by @SKYLINEZ007 and @Grad62304977
        x = self.c_proj(x)
        return x

class Block(nn.Module):

    def __init__(self, config):
        super().__init__()
        self.attn = CausalSelfAttention(config)
        self.mlp = MLP(config)
        self.lambdas = nn.Parameter(torch.tensor([1., 0.]))

    def forward(self, x, v1, x0):
        x = self.lambdas[0] * x + self.lambdas[1] * x0
        x1, v1 = self.attn(F.rms_norm(x, (x.size(-1),)), v1)
        x = x + x1
        x = x + self.mlp(F.rms_norm(x, (x.size(-1),)))
        return x, v1

# -----------------------------------------------------------------------------
# The main GPT-2 model

@dataclass
class GPTConfig:
    vocab_size : int = 50304
    n_layer : int = 12
    n_head : int = 6 # head dim 128 suggested by @Grad62304977
    n_embd : int = 768

class GPT(nn.Module):

    def __init__(self, config):
        super().__init__()
        self.config = config

        self.transformer = nn.ModuleDict(dict(
            wte = nn.Embedding(config.vocab_size, config.n_embd),
            h = nn.ModuleList([Block(config) for _ in range(config.n_layer)]),
        ))
        self.lm_head = nn.Linear(config.n_embd, config.vocab_size, bias=False)
        self.lm_head.weight.data.zero_() # @Grad62304977

    def forward(self, idx, targets=None, return_logits=True):

        # forward the GPT model itself
        x = self.transformer.wte(idx) # token embeddings of shape (b, t, n_embd)
        x = F.rms_norm(x, (x.size(-1),)) # @Grad62304977
        x0 = x
        v1 = None
        for block in self.transformer.h:
            x, v1 = block(x, v1, x0)
        x = F.rms_norm(x, (x.size(-1),))

        if targets is not None:
            # if we are given some desired targets also calculate the loss
            logits = self.lm_head(x)
            logits = 30 * torch.tanh(logits / 30) # @Grad62304977
            logits = logits.float() # use tf32/fp32 for logits
            loss = F.cross_entropy(logits.view(-1, logits.size(-1)), targets.view(-1), ignore_index=-1)
        else:
            # inference-time mini-optimization: only forward the lm_head on the very last position
            logits = self.lm_head(x[:, [-1], :]) # note: using list [-1] to preserve the time dim
            logits = 30 * torch.tanh(logits / 30) # @Grad62304977
            logits = logits.float() # use tf32/fp32 for logits
            loss = None

        # there are performance reasons why not returning logits is prudent, if not needed
        if not return_logits:
            logits = None

        return logits, loss

# -----------------------------------------------------------------------------
# Our own simple Distributed Data Loader

def _peek_data_shard(filename):
    # only reads the header, returns header data
    with open(filename, "rb") as f:
        # first read the header, which is 256 int32 integers (4 bytes each)
        header = np.frombuffer(f.read(256*4), dtype=np.int32)
    if header[0] != 20240520:
        print("ERROR: magic number mismatch in the data .bin file!")
        print("---> HINT: Are you passing in a correct file with --input_bin?")
        print("---> HINT: Dataset encoding changed recently, re-run data prepro or refer again to README")
        print("---> HINT: For example re-run: `python dev/data/tinyshakespeare.py`, then re-try")
        exit(1)
    assert header[1] == 1, "unsupported version"
    ntok = header[2] # number of tokens (claimed)
    return ntok # for now just return the number of tokens

def _load_data_shard(filename):
    with open(filename, "rb") as f:
        # first read the header, which is 256 int32 integers (4 bytes each)
        header = np.frombuffer(f.read(256*4), dtype=np.int32)
        assert header[0] == 20240520, "magic number mismatch in the data .bin file"
        assert header[1] == 1, "unsupported version"
        ntok = header[2] # number of tokens (claimed)
        # the rest of it are tokens, stored as uint16
        tokens = np.frombuffer(f.read(), dtype=np.uint16)
    assert len(tokens) == ntok, "number of tokens read does not match header?"
    return tokens

class DistributedDataLoader:
    def __init__(self, filename_pattern, B, T, process_rank, num_processes):
        self.process_rank = process_rank
        self.num_processes = num_processes
        self.B = B
        self.T = T

        # glob files that match the pattern
        self.files = sorted(glob.glob(filename_pattern))
        assert len(self.files) > 0, f"did not find any files that match the pattern {filename_pattern}"

        # load and validate all data shards, count number of tokens in total
        ntok_total = 0
        for fname in self.files:
            shard_ntok = _peek_data_shard(fname)
            assert shard_ntok >= num_processes * B * T + 1
            ntok_total += int(shard_ntok)
        self.ntok_total = ntok_total

        # kick things off
        self.reset()

    def reset(self):
        self.current_shard = 0
        self.current_position = self.process_rank * self.B * self.T
        self.tokens = _load_data_shard(self.files[self.current_shard])

    def advance(self): # advance to next data shard
        self.current_shard = (self.current_shard + 1) % len(self.files)
        self.current_position = self.process_rank * self.B * self.T
        self.tokens = _load_data_shard(self.files[self.current_shard])

    def next_batch(self):
        B = self.B
        T = self.T
        buf = self.tokens[self.current_position : self.current_position+B*T+1]
        buf = torch.tensor(buf.astype(np.int32), dtype=torch.long)
        x = (buf[:-1]).view(B, T) # inputs
        y = (buf[1:]).view(B, T) # targets
        # advance current position and load next shard if necessary
        self.current_position += B * T * self.num_processes
        if self.current_position + (B * T * self.num_processes + 1) > len(self.tokens):
            self.advance()
        return x.cuda(), y.cuda()

# -----------------------------------------------------------------------------
# int main

@dataclass
class Hyperparameters:
    # data hyperparams
    input_bin : str = 'data/fineweb10B/fineweb_train_*.bin' # input .bin to train on
    input_val_bin : str = 'data/fineweb10B/fineweb_val_*.bin' # input .bin to eval validation loss on
    # optimization hyperparams
    batch_size : int = 8*64 # batch size, in sequences, across all devices
    device_batch_size : int = 64 # batch size, in sequences, per device
    sequence_length : int = 1024 # sequence length, in tokens
    num_iterations : int = 3125 # number of iterations to run
    warmup_iters : int = 0
    warmdown_iters : int = 914 # number of iterations of linear warmup/warmdown for triangular or trapezoidal schedule
    weight_decay : float = 0
    # evaluation and logging hyperparams
    val_loss_every : int = 125 # every how many steps to evaluate val loss? 0 for only at the end
    val_tokens : int = 10485760 # how many tokens of validation data? it's important to keep this fixed for consistent comparisons
    save_every : int = 0 # every how many steps to save the checkpoint? 0 for only at the end
args = Hyperparameters()

# set up DDP (distributed data parallel). torchrun sets this env variable
assert torch.cuda.is_available()
dist.init_process_group(backend='nccl')
ddp_rank = int(os.environ['RANK'])
ddp_local_rank = int(os.environ['LOCAL_RANK'])
ddp_world_size = int(os.environ['WORLD_SIZE'])
device = f'cuda:{ddp_local_rank}'
torch.cuda.set_device(device)
print(f"using device: {device}")
master_process = (ddp_rank == 0) # this process will do logging, checkpointing etc.

# convenience variables
B, T = args.device_batch_size, args.sequence_length
# calculate the number of steps to take in the val loop.
assert args.val_tokens % (B * T * ddp_world_size) == 0
val_steps = args.val_tokens // (B * T * ddp_world_size)
# calculate the steps of gradient accumulation required to attain the desired global batch size.
assert args.batch_size % (B * ddp_world_size) == 0
train_accumulation_steps = args.batch_size // (B * ddp_world_size)

# load tokens
train_loader = DistributedDataLoader(args.input_bin, B, T, ddp_rank, ddp_world_size)
val_loader = DistributedDataLoader(args.input_val_bin, B, T, ddp_rank, ddp_world_size)
if master_process:
    print(f"Training DataLoader: total number of tokens: {train_loader.ntok_total} across {len(train_loader.files)} files")
    print(f"Validation DataLoader: total number of tokens: {val_loader.ntok_total} across {len(val_loader.files)} files")
x, y = train_loader.next_batch()

# there are only 50257 unique GPT-2 tokens; we extend to nearest multiple of 128 for efficiency. suggested to me by @Grad62304977.
# this originates from Karpathy's experiments.
if master_process:
    print("Building model...")
num_vocab = 50304
model = GPT(GPTConfig(vocab_size=num_vocab, n_layer=12, n_head=6, n_embd=768))
model = model.to(device)
if hasattr(config, "coordinate_descent_tuning"):
    config.coordinate_descent_tuning = True # suggested by @Chillee
model = torch.compile(model)
# here we wrap model into DDP container
model = DDP(model, device_ids=[ddp_local_rank])
raw_model = model.module # always contains the "raw" unwrapped model
ctx = torch.amp.autocast(device_type='cuda', dtype=torch.bfloat16)
if master_process:
    print("Model built.")

# CUDNN attention is ~4ms faster than Flash, but doesn't get selected by default in PyTorch 2.5.1
from torch.backends.cuda import enable_cudnn_sdp, enable_flash_sdp, enable_math_sdp, enable_mem_efficient_sdp
enable_cudnn_sdp(True)
enable_flash_sdp(False)
enable_mem_efficient_sdp(False)
enable_math_sdp(False)

# init the optimizer(s)
optimizer1 = torch.optim.Adam([raw_model.transformer.wte.weight], lr=0.3,   betas=(0.9, 0.95), fused=True)
optimizer2 = torch.optim.Adam([raw_model.lm_head.weight],         lr=0.002, betas=(0.9, 0.95), fused=True)
params = list(raw_model.transformer.h.parameters())
matrix_params = [p for p in params if p.ndim == 2]
scalar_params = [p for p in params if p.ndim < 2]
optimizer3 = Muon(matrix_params,           lr=0.02,  momentum=0.95)
optimizer4 = torch.optim.Adam(scalar_params, lr=0.02, betas=(0.9, 0.95), fused=True) # note that this learning rate is neither sensitive nor tuned
optimizers = [optimizer1, optimizer2, optimizer3, optimizer4]
# learning rate decay scheduler (linear warmup and warmdown)
def get_lr(it):
    assert it <= args.num_iterations
    # 1) linear warmup for warmup_iters steps
    if it < args.warmup_iters:
        return (it+1) / args.warmup_iters
    # 2) constant lr for a while
    elif it < args.num_iterations - args.warmdown_iters:
        return 1.0
    # 3) linear warmdown
    else:
        decay_ratio = (args.num_iterations - it) / args.warmdown_iters
        return decay_ratio
schedulers = [torch.optim.lr_scheduler.LambdaLR(opt, get_lr) for opt in optimizers]

# begin logging
if master_process:
    run_id = str(uuid.uuid4())
    logdir = 'logs/%s/' % run_id
    os.makedirs(logdir, exist_ok=True)
    logfile = 'logs/%s.txt' % run_id
    # create the log file
    with open(logfile, "w") as f:
        # begin the log by printing this file (the Python code)
        f.write('='*100 + '\n')
        f.write(code)
        f.write('='*100 + '\n')
        # log information about the hardware/software environment this is running on
        # and print the full `nvidia-smi` to file
        f.write(f"Running pytorch {torch.version.__version__} compiled for CUDA {torch.version.cuda}\nnvidia-smi:\n")
        import subprocess
        result = subprocess.run(['nvidia-smi'], stdout=subprocess.PIPE, stderr=subprocess.PIPE, text=True)
        f.write(f'{result.stdout}\n')
        f.write('='*100 + '\n')

training_time_ms = 0
# start the clock
torch.cuda.synchronize()
t0 = time.time()
# begin training
train_loader.reset()
for step in range(args.num_iterations + 1):
    last_step = (step == args.num_iterations)
    # This effectively ignores timing first 10 steps, which are slower for weird reasons.
    # Alternately, and slightly more correctly in terms of benchmarking, we could do 10
    # steps with dummy data first, and then re-initialize the model and reset the loader.
    if step == 10:
        training_time_ms = 0
        t0 = time.time()
    timed_steps = float('nan') if step <= 11 else (step - 10) + 1 # <= 11 to avoid bug in val

    # once in a while evaluate the validation dataset
    if (last_step or (args.val_loss_every > 0 and step % args.val_loss_every == 0)):
        # stop the clock
        torch.cuda.synchronize()
        training_time_ms += 1000 * (time.time() - t0)
        # run validation batches
        model.eval()
        val_loader.reset()
        val_loss = 0.0
        for _ in range(val_steps):
            x_val, y_val = val_loader.next_batch()
            with ctx: # of course, we'd like to use no_grad() here too, but that creates a torch.compile error for some reason
                _, loss = model(x_val, y_val, return_logits=False)
                val_loss += loss.detach()
                del loss
        dist.all_reduce(val_loss, op=dist.ReduceOp.AVG)
        val_loss /= val_steps
        # log val loss to console and to logfile
        if master_process:
            print(f'step:{step}/{args.num_iterations} val_loss:{val_loss:.4f} train_time:{training_time_ms:.0f}ms step_avg:{training_time_ms/(timed_steps-1):.2f}ms')
            with open(logfile, "a") as f:
                f.write(f'step:{step}/{args.num_iterations} val_loss:{val_loss:.4f} train_time:{training_time_ms:.0f}ms step_avg:{training_time_ms/(timed_steps-1):.2f}ms\n')
        # start the clock again
        torch.cuda.synchronize()
        t0 = time.time()

    if master_process and (last_step or (args.save_every > 0 and step % args.save_every == 0)):
        # stop the clock
        torch.cuda.synchronize()
        training_time_ms += 1000 * (time.time() - t0)
        # save the state of the training process
        log = dict(step=step, code=code, model=raw_model.state_dict(), optimizers=[opt.state_dict() for opt in optimizers])
        torch.save(log, 'logs/%s/state_step%06d.pt' % (run_id, step))
        # start the clock again
        torch.cuda.synchronize()
        t0 = time.time()

    # bit confusing: we want to make sure to eval on 0th iteration
    # but also after the very last iteration. so we loop for step <= num_iterations
    # instead of just < num_iterations (one extra due to <=), only to do
    # the validation/sampling one last time, and then we break right here as we're done.
    if last_step:
        break

    # --------------- TRAINING SECTION BEGIN -----------------
    model.train()
    for i in range(1, train_accumulation_steps+1):
        # forward pass
        with ctx:
            _, loss = model(x, y, return_logits=False)
            train_loss = loss.detach()
        # advance the dataset for the next batch
        x, y = train_loader.next_batch()
        # backward pass
        if i < train_accumulation_steps:
            with model.no_sync(): # there's no need to sync gradients every accumulation step
                loss.backward()
        else:
            loss.backward() # just sync on the last step
    for p in model.parameters():
        p.grad /= train_accumulation_steps
    # momentum warmup for Muon
    frac = min(step/500, 1)
    frac2 = 1 - max(step - args.num_iterations + 500, 0) / 500
    optimizer3.param_groups[0]['momentum'] = (1 - frac) * 0.85 + frac * 0.95
    optimizer1.param_groups[0]['betas'] = (
        (1 - frac2) * 0.80 + frac2 * 0.90,
        (1 - frac2) * 0.85 + frac2 * 0.95,
    )
    # step the optimizers and schedulers
    for opt, sched in zip(optimizers, schedulers):
        opt.step()
        sched.step()
    # null the gradients
    model.zero_grad(set_to_none=True)
    # --------------- TRAINING SECTION END -------------------
    # everything that follows now is just diagnostics, prints, logging, etc.

    #dist.all_reduce(train_loss, op=dist.ReduceOp.AVG) # all-reducing the training loss would be more correct in terms of logging, but slower
    if master_process:
        approx_time = training_time_ms + 1000 * (time.time() - t0)
        print(f"step:{step+1}/{args.num_iterations} train_loss:{train_loss.item():.4f} train_time:{approx_time:.0f}ms step_avg:{approx_time/timed_steps:.2f}ms")
        with open(logfile, "a") as f:
            f.write(f"step:{step+1}/{args.num_iterations} train_loss:{train_loss.item():.4f} train_time:{approx_time:.0f}ms step_avg:{approx_time/timed_steps:.2f}ms\n")

if master_process:
    print(f"peak memory consumption: {torch.cuda.max_memory_allocated() // 1024 // 1024} MiB")

# -------------------------------------------------------------------------
# clean up nice
dist.destroy_process_group()
====================================================================================================
Running pytorch 2.5.1+cu124 compiled for CUDA 12.4
nvidia-smi:
Sat Nov  9 14:38:00 2024       
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 560.35.03              Driver Version: 560.35.03      CUDA Version: 12.6     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA H100 80GB HBM3          Off |   00000000:18:00.0 Off |                    0 |
| N/A   30C    P0            115W /  700W |    5304MiB /  81559MiB |      1%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   1  NVIDIA H100 80GB HBM3          Off |   00000000:2A:00.0 Off |                    0 |
| N/A   32C    P0            116W /  700W |    5352MiB /  81559MiB |      7%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   2  NVIDIA H100 80GB HBM3          Off |   00000000:3A:00.0 Off |                    0 |
| N/A   33C    P0            121W /  700W |    5352MiB /  81559MiB |      1%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   3  NVIDIA H100 80GB HBM3          Off |   00000000:5D:00.0 Off |                    0 |
| N/A   31C    P0            117W /  700W |    5352MiB /  81559MiB |      6%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   4  NVIDIA H100 80GB HBM3          Off |   00000000:84:00.0 Off |                    0 |
| N/A   31C    P0            121W /  700W |    5352MiB /  81559MiB |      6%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   5  NVIDIA H100 80GB HBM3          Off |   00000000:8B:00.0 Off |                    0 |
| N/A   33C    P0            119W /  700W |    5352MiB /  81559MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   6  NVIDIA H100 80GB HBM3          Off |   00000000:91:00.0 Off |                    0 |
| N/A   32C    P0            123W /  700W |    5352MiB /  81559MiB |      9%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   7  NVIDIA H100 80GB HBM3          Off |   00000000:E4:00.0 Off |                    0 |
| N/A   31C    P0            120W /  700W |    5112MiB /  81559MiB |      6%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
                                                                                         
+-----------------------------------------------------------------------------------------+
| Processes:                                                                              |
|  GPU   GI   CI        PID   Type   Process name                              GPU Memory |
|        ID   ID                                                               Usage      |
|=========================================================================================|
|    0   N/A  N/A       951      C   /usr/bin/python3                                0MiB |
|    1   N/A  N/A       952      C   /usr/bin/python3                                0MiB |
|    2   N/A  N/A       953      C   /usr/bin/python3                                0MiB |
|    3   N/A  N/A       954      C   /usr/bin/python3                                0MiB |
|    4   N/A  N/A       955      C   /usr/bin/python3                                0MiB |
|    5   N/A  N/A       956      C   /usr/bin/python3                                0MiB |
|    6   N/A  N/A       957      C   /usr/bin/python3                                0MiB |
|    7   N/A  N/A       958      C   /usr/bin/python3                                0MiB |
+-----------------------------------------------------------------------------------------+

====================================================================================================
step:0/3125 val_loss:10.8258 train_time:396ms step_avg:nanms
step:1/3125 train_loss:10.8258 train_time:54012ms step_avg:nanms
step:2/3125 train_loss:10.4261 train_time:54118ms step_avg:nanms
step:3/3125 train_loss:9.9420 train_time:54264ms step_avg:nanms
step:4/3125 train_loss:9.0165 train_time:54414ms step_avg:nanms
step:5/3125 train_loss:8.0278 train_time:54566ms step_avg:nanms
step:6/3125 train_loss:7.5126 train_time:54716ms step_avg:nanms
step:7/3125 train_loss:7.0222 train_time:54866ms step_avg:nanms
step:8/3125 train_loss:7.2630 train_time:55021ms step_avg:nanms
step:9/3125 train_loss:6.9143 train_time:55178ms step_avg:nanms
step:10/3125 train_loss:6.8157 train_time:55331ms step_avg:nanms
step:11/3125 train_loss:6.6897 train_time:104ms step_avg:nanms
step:12/3125 train_loss:6.6411 train_time:254ms step_avg:nanms
step:13/3125 train_loss:6.4859 train_time:405ms step_avg:134.99ms
step:14/3125 train_loss:6.4686 train_time:556ms step_avg:139.06ms
step:15/3125 train_loss:6.4627 train_time:711ms step_avg:142.14ms
step:16/3125 train_loss:6.4082 train_time:866ms step_avg:144.39ms
step:17/3125 train_loss:6.4091 train_time:1019ms step_avg:145.60ms
step:18/3125 train_loss:6.4478 train_time:1172ms step_avg:146.49ms
step:19/3125 train_loss:6.2866 train_time:1324ms step_avg:147.08ms
step:20/3125 train_loss:6.3076 train_time:1474ms step_avg:147.43ms
step:21/3125 train_loss:6.0141 train_time:1627ms step_avg:147.94ms
step:22/3125 train_loss:6.3312 train_time:1780ms step_avg:148.34ms
step:23/3125 train_loss:6.5705 train_time:1937ms step_avg:149.00ms
step:24/3125 train_loss:6.2327 train_time:2090ms step_avg:149.29ms
step:25/3125 train_loss:6.3876 train_time:2242ms step_avg:149.48ms
step:26/3125 train_loss:6.0977 train_time:2394ms step_avg:149.64ms
step:27/3125 train_loss:6.0111 train_time:2546ms step_avg:149.78ms
step:28/3125 train_loss:6.1932 train_time:2698ms step_avg:149.90ms
step:29/3125 train_loss:5.8512 train_time:2852ms step_avg:150.11ms
step:30/3125 train_loss:6.1101 train_time:3007ms step_avg:150.35ms
step:31/3125 train_loss:5.9462 train_time:3160ms step_avg:150.47ms
step:32/3125 train_loss:5.9173 train_time:3313ms step_avg:150.60ms
step:33/3125 train_loss:5.7513 train_time:3467ms step_avg:150.73ms
step:34/3125 train_loss:6.0540 train_time:3618ms step_avg:150.74ms
step:35/3125 train_loss:5.9704 train_time:3773ms step_avg:150.91ms
step:36/3125 train_loss:6.1164 train_time:3926ms step_avg:151.02ms
step:37/3125 train_loss:6.0245 train_time:4078ms step_avg:151.03ms
step:38/3125 train_loss:5.9221 train_time:4233ms step_avg:151.16ms
step:39/3125 train_loss:5.8179 train_time:4385ms step_avg:151.21ms
step:40/3125 train_loss:5.8284 train_time:4537ms step_avg:151.24ms
step:41/3125 train_loss:5.7434 train_time:4691ms step_avg:151.31ms
step:42/3125 train_loss:5.7435 train_time:4845ms step_avg:151.40ms
step:43/3125 train_loss:5.6391 train_time:4997ms step_avg:151.43ms
step:44/3125 train_loss:5.7260 train_time:5151ms step_avg:151.49ms
step:45/3125 train_loss:5.7058 train_time:5302ms step_avg:151.49ms
step:46/3125 train_loss:5.8419 train_time:5455ms step_avg:151.53ms
step:47/3125 train_loss:5.6445 train_time:5609ms step_avg:151.58ms
step:48/3125 train_loss:5.5161 train_time:5762ms step_avg:151.62ms
step:49/3125 train_loss:5.7064 train_time:5916ms step_avg:151.69ms
step:50/3125 train_loss:5.5812 train_time:6070ms step_avg:151.75ms
step:51/3125 train_loss:5.7231 train_time:6224ms step_avg:151.81ms
step:52/3125 train_loss:5.5884 train_time:6377ms step_avg:151.83ms
step:53/3125 train_loss:5.4458 train_time:6532ms step_avg:151.90ms
step:54/3125 train_loss:5.5656 train_time:6684ms step_avg:151.91ms
step:55/3125 train_loss:5.4369 train_time:6836ms step_avg:151.92ms
step:56/3125 train_loss:5.7777 train_time:6990ms step_avg:151.96ms
step:57/3125 train_loss:5.4376 train_time:7144ms step_avg:151.99ms
step:58/3125 train_loss:5.3100 train_time:7297ms step_avg:152.02ms
step:59/3125 train_loss:5.4322 train_time:7450ms step_avg:152.04ms
step:60/3125 train_loss:5.4089 train_time:7602ms step_avg:152.03ms
step:61/3125 train_loss:5.5060 train_time:7754ms step_avg:152.04ms
step:62/3125 train_loss:5.2616 train_time:7908ms step_avg:152.07ms
step:63/3125 train_loss:5.3716 train_time:8060ms step_avg:152.07ms
step:64/3125 train_loss:5.3461 train_time:8212ms step_avg:152.08ms
step:65/3125 train_loss:5.1526 train_time:8365ms step_avg:152.09ms
step:66/3125 train_loss:5.1552 train_time:8517ms step_avg:152.08ms
step:67/3125 train_loss:5.3056 train_time:8671ms step_avg:152.12ms
step:68/3125 train_loss:5.1777 train_time:8825ms step_avg:152.15ms
step:69/3125 train_loss:5.4080 train_time:8977ms step_avg:152.15ms
step:70/3125 train_loss:5.0760 train_time:9130ms step_avg:152.17ms
step:71/3125 train_loss:5.1377 train_time:9284ms step_avg:152.20ms
step:72/3125 train_loss:5.3021 train_time:9438ms step_avg:152.22ms
step:73/3125 train_loss:5.2423 train_time:9591ms step_avg:152.23ms
step:74/3125 train_loss:5.1207 train_time:9743ms step_avg:152.23ms
step:75/3125 train_loss:5.2410 train_time:9895ms step_avg:152.23ms
step:76/3125 train_loss:5.2206 train_time:10050ms step_avg:152.27ms
step:77/3125 train_loss:5.1605 train_time:10202ms step_avg:152.28ms
step:78/3125 train_loss:5.2586 train_time:10356ms step_avg:152.30ms
step:79/3125 train_loss:5.3542 train_time:10510ms step_avg:152.31ms
step:80/3125 train_loss:5.1061 train_time:10664ms step_avg:152.34ms
step:81/3125 train_loss:5.1902 train_time:10817ms step_avg:152.35ms
step:82/3125 train_loss:4.9574 train_time:10972ms step_avg:152.38ms
step:83/3125 train_loss:5.1413 train_time:11124ms step_avg:152.38ms
step:84/3125 train_loss:5.0892 train_time:11276ms step_avg:152.37ms
step:85/3125 train_loss:5.0735 train_time:11430ms step_avg:152.40ms
step:86/3125 train_loss:4.9389 train_time:11582ms step_avg:152.40ms
step:87/3125 train_loss:5.1425 train_time:11737ms step_avg:152.42ms
step:88/3125 train_loss:5.0428 train_time:11890ms step_avg:152.43ms
step:89/3125 train_loss:5.0948 train_time:12042ms step_avg:152.44ms
step:90/3125 train_loss:5.0627 train_time:12195ms step_avg:152.43ms
step:91/3125 train_loss:4.9775 train_time:12349ms step_avg:152.46ms
step:92/3125 train_loss:4.9784 train_time:12502ms step_avg:152.46ms
step:93/3125 train_loss:5.1006 train_time:12656ms step_avg:152.48ms
step:94/3125 train_loss:4.9287 train_time:12809ms step_avg:152.48ms
step:95/3125 train_loss:4.9311 train_time:12961ms step_avg:152.49ms
step:96/3125 train_loss:4.9759 train_time:13114ms step_avg:152.48ms
step:97/3125 train_loss:4.8791 train_time:13267ms step_avg:152.50ms
step:98/3125 train_loss:4.9504 train_time:13420ms step_avg:152.50ms
step:99/3125 train_loss:4.8856 train_time:13576ms step_avg:152.53ms
step:100/3125 train_loss:4.9870 train_time:13729ms step_avg:152.55ms
step:101/3125 train_loss:4.9617 train_time:13881ms step_avg:152.54ms
step:102/3125 train_loss:4.8356 train_time:14035ms step_avg:152.55ms
step:103/3125 train_loss:4.9724 train_time:14188ms step_avg:152.56ms
step:104/3125 train_loss:4.9054 train_time:14340ms step_avg:152.55ms
step:105/3125 train_loss:4.7951 train_time:14496ms step_avg:152.59ms
step:106/3125 train_loss:4.8399 train_time:14649ms step_avg:152.60ms
step:107/3125 train_loss:4.9966 train_time:14801ms step_avg:152.59ms
step:108/3125 train_loss:4.8096 train_time:14954ms step_avg:152.60ms
step:109/3125 train_loss:4.6138 train_time:15108ms step_avg:152.61ms
step:110/3125 train_loss:4.7772 train_time:15261ms step_avg:152.61ms
step:111/3125 train_loss:4.7652 train_time:15415ms step_avg:152.62ms
step:112/3125 train_loss:4.7062 train_time:15568ms step_avg:152.63ms
step:113/3125 train_loss:4.8524 train_time:15720ms step_avg:152.62ms
step:114/3125 train_loss:4.7537 train_time:15874ms step_avg:152.64ms
step:115/3125 train_loss:4.6237 train_time:16029ms step_avg:152.65ms
step:116/3125 train_loss:4.7756 train_time:16181ms step_avg:152.65ms
step:117/3125 train_loss:4.7004 train_time:16335ms step_avg:152.66ms
step:118/3125 train_loss:4.6319 train_time:16489ms step_avg:152.67ms
step:119/3125 train_loss:4.8120 train_time:16642ms step_avg:152.68ms
step:120/3125 train_loss:4.7115 train_time:16795ms step_avg:152.68ms
step:121/3125 train_loss:4.6102 train_time:16948ms step_avg:152.69ms
step:122/3125 train_loss:4.5419 train_time:17101ms step_avg:152.69ms
step:123/3125 train_loss:4.6831 train_time:17254ms step_avg:152.69ms
step:124/3125 train_loss:4.5294 train_time:17408ms step_avg:152.70ms
step:125/3125 train_loss:4.8178 train_time:17560ms step_avg:152.70ms
step:125/3125 val_loss:4.6392 train_time:17612ms step_avg:153.15ms
step:126/3125 train_loss:4.6867 train_time:17724ms step_avg:152.80ms
step:127/3125 train_loss:4.6394 train_time:17876ms step_avg:152.79ms
step:128/3125 train_loss:4.6799 train_time:18027ms step_avg:152.77ms
step:129/3125 train_loss:4.5889 train_time:18178ms step_avg:152.76ms
step:130/3125 train_loss:4.8742 train_time:18328ms step_avg:152.74ms
step:131/3125 train_loss:4.5761 train_time:18479ms step_avg:152.72ms
step:132/3125 train_loss:4.6035 train_time:18635ms step_avg:152.75ms
step:133/3125 train_loss:4.5456 train_time:18792ms step_avg:152.78ms
step:134/3125 train_loss:4.6294 train_time:18946ms step_avg:152.79ms
step:135/3125 train_loss:4.4692 train_time:19099ms step_avg:152.79ms
step:136/3125 train_loss:4.6201 train_time:19249ms step_avg:152.77ms
step:137/3125 train_loss:4.3998 train_time:19401ms step_avg:152.76ms
step:138/3125 train_loss:4.5667 train_time:19553ms step_avg:152.76ms
step:139/3125 train_loss:4.4729 train_time:19706ms step_avg:152.76ms
step:140/3125 train_loss:4.5560 train_time:19861ms step_avg:152.78ms
step:141/3125 train_loss:4.6299 train_time:20014ms step_avg:152.78ms
step:142/3125 train_loss:4.4966 train_time:20167ms step_avg:152.78ms
step:143/3125 train_loss:4.4827 train_time:20320ms step_avg:152.78ms
step:144/3125 train_loss:4.3968 train_time:20471ms step_avg:152.77ms
step:145/3125 train_loss:4.5205 train_time:20624ms step_avg:152.77ms
step:146/3125 train_loss:4.4669 train_time:20778ms step_avg:152.78ms
step:147/3125 train_loss:4.3538 train_time:20930ms step_avg:152.78ms
step:148/3125 train_loss:4.4781 train_time:21084ms step_avg:152.78ms
step:149/3125 train_loss:4.5100 train_time:21236ms step_avg:152.78ms
step:150/3125 train_loss:4.4599 train_time:21389ms step_avg:152.78ms
step:151/3125 train_loss:4.5691 train_time:21540ms step_avg:152.77ms
step:152/3125 train_loss:4.4222 train_time:21694ms step_avg:152.78ms
step:153/3125 train_loss:4.4187 train_time:21846ms step_avg:152.77ms
step:154/3125 train_loss:4.4950 train_time:22000ms step_avg:152.78ms
step:155/3125 train_loss:4.4815 train_time:22153ms step_avg:152.78ms
step:156/3125 train_loss:4.4156 train_time:22304ms step_avg:152.77ms
step:157/3125 train_loss:4.4667 train_time:22457ms step_avg:152.77ms
step:158/3125 train_loss:4.5437 train_time:22608ms step_avg:152.76ms
step:159/3125 train_loss:4.3693 train_time:22762ms step_avg:152.76ms
step:160/3125 train_loss:4.4364 train_time:22914ms step_avg:152.76ms
step:161/3125 train_loss:4.2521 train_time:23067ms step_avg:152.76ms
step:162/3125 train_loss:4.4643 train_time:23221ms step_avg:152.77ms
step:163/3125 train_loss:4.4756 train_time:23374ms step_avg:152.77ms
step:164/3125 train_loss:4.4570 train_time:23525ms step_avg:152.76ms
step:165/3125 train_loss:4.3213 train_time:23679ms step_avg:152.77ms
step:166/3125 train_loss:4.3986 train_time:23831ms step_avg:152.76ms
step:167/3125 train_loss:4.4666 train_time:23984ms step_avg:152.76ms
step:168/3125 train_loss:4.3012 train_time:24137ms step_avg:152.77ms
step:169/3125 train_loss:4.3786 train_time:24290ms step_avg:152.77ms
step:170/3125 train_loss:4.2761 train_time:24442ms step_avg:152.77ms
step:171/3125 train_loss:4.1504 train_time:24597ms step_avg:152.78ms
step:172/3125 train_loss:4.3073 train_time:24749ms step_avg:152.77ms
step:173/3125 train_loss:4.3188 train_time:24902ms step_avg:152.77ms
step:174/3125 train_loss:4.3681 train_time:25055ms step_avg:152.77ms
step:175/3125 train_loss:4.5277 train_time:25207ms step_avg:152.77ms
step:176/3125 train_loss:4.3584 train_time:25362ms step_avg:152.78ms
step:177/3125 train_loss:4.2212 train_time:25515ms step_avg:152.78ms
step:178/3125 train_loss:4.1816 train_time:25667ms step_avg:152.78ms
step:179/3125 train_loss:4.2823 train_time:25821ms step_avg:152.79ms
step:180/3125 train_loss:4.2387 train_time:25974ms step_avg:152.79ms
step:181/3125 train_loss:4.2159 train_time:26126ms step_avg:152.78ms
step:182/3125 train_loss:4.3881 train_time:26279ms step_avg:152.79ms
step:183/3125 train_loss:4.2616 train_time:26432ms step_avg:152.79ms
step:184/3125 train_loss:4.2409 train_time:26584ms step_avg:152.78ms
step:185/3125 train_loss:4.2292 train_time:26737ms step_avg:152.78ms
step:186/3125 train_loss:4.3161 train_time:26890ms step_avg:152.78ms
step:187/3125 train_loss:4.2897 train_time:27043ms step_avg:152.78ms
step:188/3125 train_loss:4.3509 train_time:27198ms step_avg:152.80ms
step:189/3125 train_loss:4.2839 train_time:27463ms step_avg:153.42ms
step:190/3125 train_loss:4.2111 train_time:27751ms step_avg:154.17ms
step:191/3125 train_loss:4.3091 train_time:27902ms step_avg:154.15ms
step:192/3125 train_loss:4.1810 train_time:28053ms step_avg:154.13ms
step:193/3125 train_loss:4.1217 train_time:28203ms step_avg:154.11ms
step:194/3125 train_loss:4.3402 train_time:28355ms step_avg:154.10ms
step:195/3125 train_loss:4.2551 train_time:28505ms step_avg:154.08ms
step:196/3125 train_loss:4.4594 train_time:28662ms step_avg:154.10ms
step:197/3125 train_loss:4.2902 train_time:28820ms step_avg:154.12ms
step:198/3125 train_loss:4.1322 train_time:28973ms step_avg:154.11ms
step:199/3125 train_loss:4.2683 train_time:29125ms step_avg:154.10ms
step:200/3125 train_loss:4.1294 train_time:29277ms step_avg:154.09ms
step:201/3125 train_loss:4.2196 train_time:29429ms step_avg:154.08ms
step:202/3125 train_loss:4.0931 train_time:29582ms step_avg:154.07ms
step:203/3125 train_loss:4.3334 train_time:29737ms step_avg:154.08ms
step:204/3125 train_loss:4.1688 train_time:29892ms step_avg:154.08ms
step:205/3125 train_loss:4.2815 train_time:30046ms step_avg:154.08ms
step:206/3125 train_loss:4.3343 train_time:30199ms step_avg:154.07ms
step:207/3125 train_loss:4.0381 train_time:30351ms step_avg:154.06ms
step:208/3125 train_loss:4.1824 train_time:30503ms step_avg:154.06ms
step:209/3125 train_loss:4.1751 train_time:30657ms step_avg:154.05ms
step:210/3125 train_loss:4.3260 train_time:30809ms step_avg:154.05ms
step:211/3125 train_loss:4.2605 train_time:30964ms step_avg:154.05ms
step:212/3125 train_loss:4.1554 train_time:31118ms step_avg:154.05ms
step:213/3125 train_loss:4.1698 train_time:31272ms step_avg:154.05ms
step:214/3125 train_loss:4.1329 train_time:31425ms step_avg:154.04ms
step:215/3125 train_loss:4.2028 train_time:31578ms step_avg:154.04ms
step:216/3125 train_loss:4.0256 train_time:31731ms step_avg:154.03ms
step:217/3125 train_loss:4.0843 train_time:31883ms step_avg:154.02ms
step:218/3125 train_loss:4.0890 train_time:32037ms step_avg:154.03ms
step:219/3125 train_loss:4.1714 train_time:32190ms step_avg:154.02ms
step:220/3125 train_loss:4.1603 train_time:32342ms step_avg:154.01ms
step:221/3125 train_loss:4.1684 train_time:32495ms step_avg:154.01ms
step:222/3125 train_loss:4.1961 train_time:32646ms step_avg:153.99ms
step:223/3125 train_loss:4.1016 train_time:32800ms step_avg:153.99ms
step:224/3125 train_loss:4.0603 train_time:32952ms step_avg:153.98ms
step:225/3125 train_loss:4.3720 train_time:33105ms step_avg:153.98ms
step:226/3125 train_loss:3.9910 train_time:33259ms step_avg:153.98ms
step:227/3125 train_loss:4.0650 train_time:33413ms step_avg:153.98ms
step:228/3125 train_loss:4.0734 train_time:33565ms step_avg:153.97ms
step:229/3125 train_loss:4.2206 train_time:33718ms step_avg:153.96ms
step:230/3125 train_loss:4.0105 train_time:33869ms step_avg:153.95ms
step:231/3125 train_loss:4.1350 train_time:34023ms step_avg:153.95ms
step:232/3125 train_loss:3.9911 train_time:34176ms step_avg:153.95ms
step:233/3125 train_loss:4.0595 train_time:34329ms step_avg:153.94ms
step:234/3125 train_loss:4.1844 train_time:34482ms step_avg:153.94ms
step:235/3125 train_loss:4.1051 train_time:34634ms step_avg:153.93ms
step:236/3125 train_loss:3.9907 train_time:34787ms step_avg:153.92ms
step:237/3125 train_loss:4.1527 train_time:34939ms step_avg:153.92ms
step:238/3125 train_loss:4.1634 train_time:35093ms step_avg:153.92ms
step:239/3125 train_loss:4.0258 train_time:35247ms step_avg:153.92ms
step:240/3125 train_loss:4.1590 train_time:35400ms step_avg:153.91ms
step:241/3125 train_loss:4.1925 train_time:35552ms step_avg:153.91ms
step:242/3125 train_loss:4.0543 train_time:35704ms step_avg:153.90ms
step:243/3125 train_loss:4.2208 train_time:35857ms step_avg:153.89ms
step:244/3125 train_loss:4.1026 train_time:36009ms step_avg:153.89ms
step:245/3125 train_loss:4.1576 train_time:36164ms step_avg:153.89ms
step:246/3125 train_loss:4.2304 train_time:36316ms step_avg:153.88ms
step:247/3125 train_loss:4.1454 train_time:36469ms step_avg:153.88ms
step:248/3125 train_loss:4.0902 train_time:36621ms step_avg:153.87ms
step:249/3125 train_loss:4.1949 train_time:36774ms step_avg:153.87ms
step:250/3125 train_loss:4.0062 train_time:36928ms step_avg:153.87ms
step:250/3125 val_loss:4.0891 train_time:36978ms step_avg:154.07ms
step:251/3125 train_loss:4.0506 train_time:37086ms step_avg:153.88ms
step:252/3125 train_loss:4.1582 train_time:37239ms step_avg:153.88ms
step:253/3125 train_loss:4.2259 train_time:37393ms step_avg:153.88ms
step:254/3125 train_loss:4.0141 train_time:37544ms step_avg:153.87ms
step:255/3125 train_loss:3.9551 train_time:37695ms step_avg:153.86ms
step:256/3125 train_loss:4.1475 train_time:37846ms step_avg:153.84ms
step:257/3125 train_loss:4.0586 train_time:38001ms step_avg:153.85ms
step:258/3125 train_loss:4.0613 train_time:38157ms step_avg:153.86ms
step:259/3125 train_loss:4.0487 train_time:38312ms step_avg:153.86ms
step:260/3125 train_loss:4.1038 train_time:38464ms step_avg:153.86ms
step:261/3125 train_loss:4.1327 train_time:38616ms step_avg:153.85ms
step:262/3125 train_loss:4.0982 train_time:38768ms step_avg:153.84ms
step:263/3125 train_loss:4.0664 train_time:38920ms step_avg:153.83ms
step:264/3125 train_loss:3.9791 train_time:39074ms step_avg:153.84ms
step:265/3125 train_loss:4.0681 train_time:39230ms step_avg:153.84ms
step:266/3125 train_loss:3.9388 train_time:39382ms step_avg:153.84ms
step:267/3125 train_loss:3.9913 train_time:39535ms step_avg:153.83ms
step:268/3125 train_loss:4.0002 train_time:39686ms step_avg:153.82ms
step:269/3125 train_loss:4.0295 train_time:39838ms step_avg:153.81ms
step:270/3125 train_loss:3.9338 train_time:39991ms step_avg:153.81ms
step:271/3125 train_loss:4.1785 train_time:40144ms step_avg:153.81ms
step:272/3125 train_loss:4.0551 train_time:40298ms step_avg:153.81ms
step:273/3125 train_loss:3.9859 train_time:40452ms step_avg:153.81ms
step:274/3125 train_loss:4.0325 train_time:40605ms step_avg:153.81ms
step:275/3125 train_loss:4.1041 train_time:40755ms step_avg:153.79ms
step:276/3125 train_loss:4.1350 train_time:40908ms step_avg:153.79ms
step:277/3125 train_loss:4.3022 train_time:41061ms step_avg:153.79ms
step:278/3125 train_loss:4.1009 train_time:41214ms step_avg:153.78ms
step:279/3125 train_loss:4.1594 train_time:41366ms step_avg:153.78ms
step:280/3125 train_loss:4.0655 train_time:41519ms step_avg:153.77ms
step:281/3125 train_loss:4.2077 train_time:41671ms step_avg:153.77ms
step:282/3125 train_loss:4.0303 train_time:41824ms step_avg:153.76ms
step:283/3125 train_loss:4.0169 train_time:41975ms step_avg:153.76ms
step:284/3125 train_loss:3.9859 train_time:42129ms step_avg:153.76ms
step:285/3125 train_loss:4.1345 train_time:42282ms step_avg:153.75ms
step:286/3125 train_loss:4.1376 train_time:42435ms step_avg:153.75ms
step:287/3125 train_loss:4.1666 train_time:42588ms step_avg:153.75ms
step:288/3125 train_loss:3.9887 train_time:42755ms step_avg:153.79ms
step:289/3125 train_loss:4.0869 train_time:42894ms step_avg:153.74ms
step:290/3125 train_loss:3.9415 train_time:43047ms step_avg:153.74ms
step:291/3125 train_loss:3.9426 train_time:43198ms step_avg:153.73ms
step:292/3125 train_loss:4.0083 train_time:43352ms step_avg:153.73ms
step:293/3125 train_loss:3.9413 train_time:43505ms step_avg:153.73ms
step:294/3125 train_loss:3.9859 train_time:43656ms step_avg:153.72ms
step:295/3125 train_loss:4.0276 train_time:43810ms step_avg:153.72ms
step:296/3125 train_loss:3.9105 train_time:43962ms step_avg:153.71ms
step:297/3125 train_loss:3.9335 train_time:44115ms step_avg:153.71ms
step:298/3125 train_loss:3.9310 train_time:44269ms step_avg:153.71ms
step:299/3125 train_loss:4.0412 train_time:44421ms step_avg:153.71ms
step:300/3125 train_loss:3.9015 train_time:44575ms step_avg:153.71ms
step:301/3125 train_loss:4.0362 train_time:44728ms step_avg:153.71ms
step:302/3125 train_loss:4.0515 train_time:44880ms step_avg:153.70ms
step:303/3125 train_loss:4.0011 train_time:45034ms step_avg:153.70ms
step:304/3125 train_loss:4.0491 train_time:45188ms step_avg:153.70ms
step:305/3125 train_loss:4.0329 train_time:45339ms step_avg:153.69ms
step:306/3125 train_loss:4.5284 train_time:45493ms step_avg:153.69ms
step:307/3125 train_loss:4.0074 train_time:45646ms step_avg:153.69ms
step:308/3125 train_loss:3.9175 train_time:45798ms step_avg:153.68ms
step:309/3125 train_loss:4.0571 train_time:45951ms step_avg:153.68ms
step:310/3125 train_loss:3.9389 train_time:46104ms step_avg:153.68ms
step:311/3125 train_loss:4.1604 train_time:46256ms step_avg:153.68ms
step:312/3125 train_loss:3.9973 train_time:46410ms step_avg:153.68ms
step:313/3125 train_loss:3.9412 train_time:46564ms step_avg:153.68ms
step:314/3125 train_loss:4.0273 train_time:46716ms step_avg:153.67ms
step:315/3125 train_loss:4.1527 train_time:46869ms step_avg:153.67ms
step:316/3125 train_loss:4.0261 train_time:47022ms step_avg:153.67ms
step:317/3125 train_loss:3.8674 train_time:47174ms step_avg:153.66ms
step:318/3125 train_loss:3.9491 train_time:47327ms step_avg:153.66ms
step:319/3125 train_loss:3.9919 train_time:47479ms step_avg:153.65ms
step:320/3125 train_loss:3.9635 train_time:47632ms step_avg:153.65ms
step:321/3125 train_loss:4.0795 train_time:47783ms step_avg:153.64ms
step:322/3125 train_loss:4.0218 train_time:47936ms step_avg:153.64ms
step:323/3125 train_loss:3.9958 train_time:48090ms step_avg:153.64ms
step:324/3125 train_loss:4.0816 train_time:48241ms step_avg:153.64ms
step:325/3125 train_loss:4.0211 train_time:48395ms step_avg:153.64ms
step:326/3125 train_loss:4.0953 train_time:48549ms step_avg:153.63ms
step:327/3125 train_loss:3.9555 train_time:48700ms step_avg:153.63ms
step:328/3125 train_loss:4.4681 train_time:48853ms step_avg:153.63ms
step:329/3125 train_loss:4.1446 train_time:49006ms step_avg:153.63ms
step:330/3125 train_loss:3.8813 train_time:49159ms step_avg:153.62ms
step:331/3125 train_loss:3.8321 train_time:49313ms step_avg:153.62ms
step:332/3125 train_loss:4.0541 train_time:49467ms step_avg:153.62ms
step:333/3125 train_loss:3.9808 train_time:49619ms step_avg:153.62ms
step:334/3125 train_loss:3.9419 train_time:49772ms step_avg:153.62ms
step:335/3125 train_loss:3.9128 train_time:49926ms step_avg:153.62ms
step:336/3125 train_loss:4.0895 train_time:50077ms step_avg:153.61ms
step:337/3125 train_loss:4.0317 train_time:50231ms step_avg:153.61ms
step:338/3125 train_loss:4.4952 train_time:50384ms step_avg:153.61ms
step:339/3125 train_loss:4.0152 train_time:50536ms step_avg:153.60ms
step:340/3125 train_loss:3.9528 train_time:50690ms step_avg:153.61ms
step:341/3125 train_loss:4.0082 train_time:50842ms step_avg:153.60ms
step:342/3125 train_loss:3.9268 train_time:50997ms step_avg:153.60ms
step:343/3125 train_loss:3.8975 train_time:51151ms step_avg:153.61ms
step:344/3125 train_loss:3.9192 train_time:51304ms step_avg:153.60ms
step:345/3125 train_loss:4.0665 train_time:51456ms step_avg:153.60ms
step:346/3125 train_loss:3.9087 train_time:51609ms step_avg:153.60ms
step:347/3125 train_loss:3.8442 train_time:51761ms step_avg:153.59ms
step:348/3125 train_loss:3.8810 train_time:51915ms step_avg:153.59ms
step:349/3125 train_loss:3.9299 train_time:52070ms step_avg:153.60ms
step:350/3125 train_loss:3.8974 train_time:52222ms step_avg:153.59ms
step:351/3125 train_loss:3.6387 train_time:52374ms step_avg:153.59ms
step:352/3125 train_loss:3.9012 train_time:52527ms step_avg:153.59ms
step:353/3125 train_loss:4.2410 train_time:52679ms step_avg:153.58ms
step:354/3125 train_loss:3.7344 train_time:52832ms step_avg:153.58ms
step:355/3125 train_loss:4.0016 train_time:52985ms step_avg:153.58ms
step:356/3125 train_loss:3.8580 train_time:53138ms step_avg:153.58ms
step:357/3125 train_loss:3.9634 train_time:53291ms step_avg:153.58ms
step:358/3125 train_loss:3.8900 train_time:53444ms step_avg:153.57ms
step:359/3125 train_loss:3.9189 train_time:53597ms step_avg:153.57ms
step:360/3125 train_loss:3.9230 train_time:53751ms step_avg:153.57ms
step:361/3125 train_loss:3.5190 train_time:53906ms step_avg:153.58ms
step:362/3125 train_loss:4.0960 train_time:54057ms step_avg:153.57ms
step:363/3125 train_loss:4.0032 train_time:54210ms step_avg:153.57ms
step:364/3125 train_loss:3.9230 train_time:54362ms step_avg:153.56ms
step:365/3125 train_loss:3.8203 train_time:54515ms step_avg:153.56ms
step:366/3125 train_loss:3.9874 train_time:54668ms step_avg:153.56ms
step:367/3125 train_loss:3.9438 train_time:54823ms step_avg:153.57ms
step:368/3125 train_loss:3.9314 train_time:54976ms step_avg:153.56ms
step:369/3125 train_loss:3.9230 train_time:55130ms step_avg:153.57ms
step:370/3125 train_loss:3.8246 train_time:55282ms step_avg:153.56ms
step:371/3125 train_loss:3.9651 train_time:55435ms step_avg:153.56ms
step:372/3125 train_loss:3.8313 train_time:55588ms step_avg:153.56ms
step:373/3125 train_loss:3.7728 train_time:55739ms step_avg:153.55ms
step:374/3125 train_loss:3.9950 train_time:55894ms step_avg:153.55ms
step:375/3125 train_loss:3.9127 train_time:56046ms step_avg:153.55ms
step:375/3125 val_loss:3.9079 train_time:56094ms step_avg:153.68ms
step:376/3125 train_loss:3.8889 train_time:56203ms step_avg:153.56ms
step:377/3125 train_loss:3.9499 train_time:56358ms step_avg:153.56ms
step:378/3125 train_loss:3.8658 train_time:56624ms step_avg:153.87ms
step:379/3125 train_loss:3.9194 train_time:56784ms step_avg:153.89ms
step:380/3125 train_loss:3.9445 train_time:57071ms step_avg:154.25ms
step:381/3125 train_loss:4.0248 train_time:57220ms step_avg:154.23ms
step:382/3125 train_loss:3.9214 train_time:57370ms step_avg:154.22ms
step:383/3125 train_loss:3.8921 train_time:57521ms step_avg:154.21ms
step:384/3125 train_loss:3.8753 train_time:57671ms step_avg:154.20ms
step:385/3125 train_loss:3.9511 train_time:57822ms step_avg:154.19ms
step:386/3125 train_loss:3.8676 train_time:57978ms step_avg:154.20ms
step:387/3125 train_loss:3.9652 train_time:58136ms step_avg:154.21ms
step:388/3125 train_loss:4.1559 train_time:58287ms step_avg:154.20ms
step:389/3125 train_loss:3.8790 train_time:58440ms step_avg:154.19ms
step:390/3125 train_loss:3.8790 train_time:58592ms step_avg:154.19ms
step:391/3125 train_loss:3.9741 train_time:58742ms step_avg:154.18ms
step:392/3125 train_loss:3.8974 train_time:58895ms step_avg:154.18ms
step:393/3125 train_loss:4.0095 train_time:59051ms step_avg:154.18ms
step:394/3125 train_loss:3.8456 train_time:59205ms step_avg:154.18ms
step:395/3125 train_loss:3.9730 train_time:59359ms step_avg:154.18ms
step:396/3125 train_loss:3.7118 train_time:59511ms step_avg:154.17ms
step:397/3125 train_loss:3.9239 train_time:59664ms step_avg:154.17ms
step:398/3125 train_loss:3.9527 train_time:59817ms step_avg:154.17ms
step:399/3125 train_loss:3.9657 train_time:59969ms step_avg:154.16ms
step:400/3125 train_loss:3.8694 train_time:60125ms step_avg:154.17ms
step:401/3125 train_loss:3.9162 train_time:60279ms step_avg:154.17ms
step:402/3125 train_loss:3.9925 train_time:60431ms step_avg:154.16ms
step:403/3125 train_loss:3.9231 train_time:60584ms step_avg:154.16ms
step:404/3125 train_loss:4.0312 train_time:60738ms step_avg:154.16ms
step:405/3125 train_loss:3.7761 train_time:60890ms step_avg:154.15ms
step:406/3125 train_loss:3.8765 train_time:61045ms step_avg:154.15ms
step:407/3125 train_loss:4.1719 train_time:61197ms step_avg:154.15ms
step:408/3125 train_loss:3.8781 train_time:61351ms step_avg:154.15ms
step:409/3125 train_loss:3.9051 train_time:61502ms step_avg:154.14ms
step:410/3125 train_loss:3.9440 train_time:61655ms step_avg:154.14ms
step:411/3125 train_loss:3.8364 train_time:61806ms step_avg:154.13ms
step:412/3125 train_loss:3.8506 train_time:61960ms step_avg:154.13ms
step:413/3125 train_loss:4.2724 train_time:62112ms step_avg:154.12ms
step:414/3125 train_loss:3.6976 train_time:62264ms step_avg:154.12ms
step:415/3125 train_loss:4.0879 train_time:62417ms step_avg:154.12ms
step:416/3125 train_loss:3.8396 train_time:62570ms step_avg:154.11ms
step:417/3125 train_loss:3.8552 train_time:62724ms step_avg:154.11ms
step:418/3125 train_loss:4.0388 train_time:62877ms step_avg:154.11ms
step:419/3125 train_loss:3.7755 train_time:63030ms step_avg:154.11ms
step:420/3125 train_loss:3.8954 train_time:63182ms step_avg:154.10ms
step:421/3125 train_loss:3.8111 train_time:63334ms step_avg:154.10ms
step:422/3125 train_loss:3.7349 train_time:63486ms step_avg:154.09ms
step:423/3125 train_loss:3.8686 train_time:63640ms step_avg:154.09ms
step:424/3125 train_loss:3.9577 train_time:63793ms step_avg:154.09ms
step:425/3125 train_loss:3.7100 train_time:63945ms step_avg:154.08ms
step:426/3125 train_loss:3.8907 train_time:64098ms step_avg:154.08ms
step:427/3125 train_loss:3.7680 train_time:64253ms step_avg:154.08ms
step:428/3125 train_loss:3.9875 train_time:64405ms step_avg:154.08ms
step:429/3125 train_loss:3.9054 train_time:64558ms step_avg:154.08ms
step:430/3125 train_loss:3.8464 train_time:64710ms step_avg:154.07ms
step:431/3125 train_loss:3.8163 train_time:64864ms step_avg:154.07ms
step:432/3125 train_loss:3.7160 train_time:65016ms step_avg:154.07ms
step:433/3125 train_loss:3.8554 train_time:65169ms step_avg:154.06ms
step:434/3125 train_loss:3.9098 train_time:65325ms step_avg:154.07ms
step:435/3125 train_loss:3.8630 train_time:65479ms step_avg:154.07ms
step:436/3125 train_loss:3.8986 train_time:65631ms step_avg:154.06ms
step:437/3125 train_loss:3.9218 train_time:65783ms step_avg:154.06ms
step:438/3125 train_loss:3.8001 train_time:65937ms step_avg:154.06ms
step:439/3125 train_loss:3.8052 train_time:66089ms step_avg:154.05ms
step:440/3125 train_loss:3.7963 train_time:66241ms step_avg:154.05ms
step:441/3125 train_loss:3.9697 train_time:66394ms step_avg:154.05ms
step:442/3125 train_loss:3.8554 train_time:66545ms step_avg:154.04ms
step:443/3125 train_loss:3.8351 train_time:66699ms step_avg:154.04ms
step:444/3125 train_loss:3.7370 train_time:66851ms step_avg:154.04ms
step:445/3125 train_loss:4.0090 train_time:67003ms step_avg:154.03ms
step:446/3125 train_loss:3.9321 train_time:67158ms step_avg:154.03ms
step:447/3125 train_loss:3.9225 train_time:67310ms step_avg:154.03ms
step:448/3125 train_loss:3.8399 train_time:67464ms step_avg:154.03ms
step:449/3125 train_loss:3.9483 train_time:67617ms step_avg:154.02ms
step:450/3125 train_loss:3.7791 train_time:67769ms step_avg:154.02ms
step:451/3125 train_loss:3.8148 train_time:67922ms step_avg:154.02ms
step:452/3125 train_loss:3.6799 train_time:68075ms step_avg:154.02ms
step:453/3125 train_loss:3.7996 train_time:68226ms step_avg:154.01ms
step:454/3125 train_loss:3.7746 train_time:68380ms step_avg:154.01ms
step:455/3125 train_loss:3.7339 train_time:68533ms step_avg:154.01ms
step:456/3125 train_loss:3.9368 train_time:68685ms step_avg:154.00ms
step:457/3125 train_loss:3.8258 train_time:68838ms step_avg:154.00ms
step:458/3125 train_loss:3.8854 train_time:68990ms step_avg:154.00ms
step:459/3125 train_loss:3.9256 train_time:69142ms step_avg:153.99ms
step:460/3125 train_loss:3.7323 train_time:69295ms step_avg:153.99ms
step:461/3125 train_loss:3.8953 train_time:69447ms step_avg:153.98ms
step:462/3125 train_loss:3.7965 train_time:69600ms step_avg:153.98ms
step:463/3125 train_loss:3.8233 train_time:69753ms step_avg:153.98ms
step:464/3125 train_loss:3.8624 train_time:69905ms step_avg:153.98ms
step:465/3125 train_loss:3.8091 train_time:70059ms step_avg:153.98ms
step:466/3125 train_loss:3.8202 train_time:70211ms step_avg:153.97ms
step:467/3125 train_loss:3.9025 train_time:70364ms step_avg:153.97ms
step:468/3125 train_loss:3.9239 train_time:70517ms step_avg:153.97ms
step:469/3125 train_loss:3.8941 train_time:70669ms step_avg:153.96ms
step:470/3125 train_loss:3.7882 train_time:70824ms step_avg:153.97ms
step:471/3125 train_loss:3.8606 train_time:70976ms step_avg:153.96ms
step:472/3125 train_loss:3.9197 train_time:71128ms step_avg:153.96ms
step:473/3125 train_loss:3.8711 train_time:71281ms step_avg:153.95ms
step:474/3125 train_loss:3.8176 train_time:71434ms step_avg:153.95ms
step:475/3125 train_loss:3.6889 train_time:71586ms step_avg:153.95ms
step:476/3125 train_loss:4.1193 train_time:71739ms step_avg:153.95ms
step:477/3125 train_loss:3.8662 train_time:71891ms step_avg:153.94ms
step:478/3125 train_loss:3.6845 train_time:72044ms step_avg:153.94ms
step:479/3125 train_loss:3.9192 train_time:72197ms step_avg:153.94ms
step:480/3125 train_loss:3.8686 train_time:72348ms step_avg:153.93ms
step:481/3125 train_loss:4.0150 train_time:72502ms step_avg:153.93ms
step:482/3125 train_loss:3.8252 train_time:72655ms step_avg:153.93ms
step:483/3125 train_loss:3.6323 train_time:72807ms step_avg:153.93ms
step:484/3125 train_loss:3.9102 train_time:72960ms step_avg:153.92ms
step:485/3125 train_loss:3.7619 train_time:73112ms step_avg:153.92ms
step:486/3125 train_loss:3.7701 train_time:73264ms step_avg:153.92ms
step:487/3125 train_loss:3.7000 train_time:73418ms step_avg:153.92ms
step:488/3125 train_loss:3.7782 train_time:73569ms step_avg:153.91ms
step:489/3125 train_loss:3.9769 train_time:73725ms step_avg:153.91ms
step:490/3125 train_loss:3.8175 train_time:73879ms step_avg:153.91ms
step:491/3125 train_loss:3.6989 train_time:74032ms step_avg:153.91ms
step:492/3125 train_loss:3.7181 train_time:74185ms step_avg:153.91ms
step:493/3125 train_loss:3.8348 train_time:74338ms step_avg:153.91ms
step:494/3125 train_loss:3.6811 train_time:74490ms step_avg:153.91ms
step:495/3125 train_loss:3.8119 train_time:74643ms step_avg:153.90ms
step:496/3125 train_loss:3.7574 train_time:74797ms step_avg:153.90ms
step:497/3125 train_loss:3.6386 train_time:74948ms step_avg:153.90ms
step:498/3125 train_loss:3.8335 train_time:75100ms step_avg:153.89ms
step:499/3125 train_loss:3.9041 train_time:75253ms step_avg:153.89ms
step:500/3125 train_loss:3.9392 train_time:75404ms step_avg:153.89ms
step:500/3125 val_loss:3.8109 train_time:75455ms step_avg:153.99ms
step:501/3125 train_loss:3.8514 train_time:75562ms step_avg:153.89ms
step:502/3125 train_loss:3.9038 train_time:75718ms step_avg:153.90ms
step:503/3125 train_loss:3.8475 train_time:75870ms step_avg:153.90ms
step:504/3125 train_loss:3.8817 train_time:76020ms step_avg:153.89ms
step:505/3125 train_loss:3.8272 train_time:76171ms step_avg:153.88ms
step:506/3125 train_loss:3.9142 train_time:76322ms step_avg:153.87ms
step:507/3125 train_loss:3.7449 train_time:76478ms step_avg:153.88ms
step:508/3125 train_loss:3.8642 train_time:76634ms step_avg:153.88ms
step:509/3125 train_loss:3.9347 train_time:76786ms step_avg:153.88ms
step:510/3125 train_loss:3.8760 train_time:76939ms step_avg:153.88ms
step:511/3125 train_loss:3.6862 train_time:77092ms step_avg:153.88ms
step:512/3125 train_loss:3.8821 train_time:77242ms step_avg:153.87ms
step:513/3125 train_loss:3.8277 train_time:77395ms step_avg:153.87ms
step:514/3125 train_loss:3.7883 train_time:77549ms step_avg:153.87ms
step:515/3125 train_loss:3.8734 train_time:77702ms step_avg:153.86ms
step:516/3125 train_loss:3.8463 train_time:77857ms step_avg:153.87ms
step:517/3125 train_loss:4.1910 train_time:78010ms step_avg:153.87ms
step:518/3125 train_loss:3.7953 train_time:78162ms step_avg:153.86ms
step:519/3125 train_loss:3.8896 train_time:78314ms step_avg:153.86ms
step:520/3125 train_loss:3.7811 train_time:78465ms step_avg:153.85ms
step:521/3125 train_loss:3.7951 train_time:78619ms step_avg:153.85ms
step:522/3125 train_loss:3.7514 train_time:78774ms step_avg:153.86ms
step:523/3125 train_loss:3.7584 train_time:78926ms step_avg:153.85ms
step:524/3125 train_loss:4.3866 train_time:79078ms step_avg:153.85ms
step:525/3125 train_loss:3.8524 train_time:79231ms step_avg:153.85ms
step:526/3125 train_loss:3.7820 train_time:79383ms step_avg:153.84ms
step:527/3125 train_loss:3.8009 train_time:79536ms step_avg:153.84ms
step:528/3125 train_loss:3.7601 train_time:79689ms step_avg:153.84ms
step:529/3125 train_loss:3.7353 train_time:79840ms step_avg:153.84ms
step:530/3125 train_loss:3.9572 train_time:79994ms step_avg:153.83ms
step:531/3125 train_loss:3.7573 train_time:80147ms step_avg:153.83ms
step:532/3125 train_loss:4.0224 train_time:80299ms step_avg:153.83ms
step:533/3125 train_loss:3.8402 train_time:80452ms step_avg:153.83ms
step:534/3125 train_loss:3.7645 train_time:80605ms step_avg:153.83ms
step:535/3125 train_loss:3.7900 train_time:80758ms step_avg:153.82ms
step:536/3125 train_loss:3.7215 train_time:80911ms step_avg:153.82ms
step:537/3125 train_loss:3.8570 train_time:81063ms step_avg:153.82ms
step:538/3125 train_loss:3.8389 train_time:81216ms step_avg:153.82ms
step:539/3125 train_loss:3.7354 train_time:81368ms step_avg:153.82ms
step:540/3125 train_loss:4.2403 train_time:81521ms step_avg:153.81ms
step:541/3125 train_loss:3.7806 train_time:81673ms step_avg:153.81ms
step:542/3125 train_loss:3.8912 train_time:81826ms step_avg:153.81ms
step:543/3125 train_loss:3.7119 train_time:81978ms step_avg:153.81ms
step:544/3125 train_loss:3.6938 train_time:82131ms step_avg:153.80ms
step:545/3125 train_loss:3.7765 train_time:82283ms step_avg:153.80ms
step:546/3125 train_loss:3.6991 train_time:82436ms step_avg:153.80ms
step:547/3125 train_loss:3.7453 train_time:82591ms step_avg:153.80ms
step:548/3125 train_loss:3.7555 train_time:82743ms step_avg:153.80ms
step:549/3125 train_loss:3.7316 train_time:82897ms step_avg:153.80ms
step:550/3125 train_loss:3.8325 train_time:83051ms step_avg:153.80ms
step:551/3125 train_loss:3.7192 train_time:83201ms step_avg:153.79ms
step:552/3125 train_loss:3.7365 train_time:83356ms step_avg:153.79ms
step:553/3125 train_loss:4.0673 train_time:83508ms step_avg:153.79ms
step:554/3125 train_loss:3.8606 train_time:83662ms step_avg:153.79ms
step:555/3125 train_loss:3.8274 train_time:83814ms step_avg:153.79ms
step:556/3125 train_loss:3.7558 train_time:83967ms step_avg:153.79ms
step:557/3125 train_loss:3.7984 train_time:84119ms step_avg:153.78ms
step:558/3125 train_loss:3.4525 train_time:84273ms step_avg:153.78ms
step:559/3125 train_loss:3.7214 train_time:84426ms step_avg:153.78ms
step:560/3125 train_loss:3.7570 train_time:84579ms step_avg:153.78ms
step:561/3125 train_loss:3.8085 train_time:84732ms step_avg:153.78ms
step:562/3125 train_loss:3.7201 train_time:84884ms step_avg:153.78ms
step:563/3125 train_loss:3.6635 train_time:85037ms step_avg:153.77ms
step:564/3125 train_loss:3.8704 train_time:85190ms step_avg:153.77ms
step:565/3125 train_loss:3.6792 train_time:85342ms step_avg:153.77ms
step:566/3125 train_loss:3.7960 train_time:85496ms step_avg:153.77ms
step:567/3125 train_loss:3.7323 train_time:85766ms step_avg:153.98ms
step:568/3125 train_loss:3.7059 train_time:85928ms step_avg:153.99ms
step:569/3125 train_loss:3.7890 train_time:86078ms step_avg:153.99ms
step:570/3125 train_loss:3.7629 train_time:86370ms step_avg:154.23ms
step:571/3125 train_loss:3.7933 train_time:86519ms step_avg:154.22ms
step:572/3125 train_loss:3.8757 train_time:86671ms step_avg:154.22ms
step:573/3125 train_loss:3.8298 train_time:86821ms step_avg:154.21ms
step:574/3125 train_loss:3.8372 train_time:86973ms step_avg:154.21ms
step:575/3125 train_loss:3.8855 train_time:87123ms step_avg:154.20ms
step:576/3125 train_loss:3.8425 train_time:87279ms step_avg:154.20ms
step:577/3125 train_loss:3.8638 train_time:87436ms step_avg:154.21ms
step:578/3125 train_loss:3.7842 train_time:87590ms step_avg:154.21ms
step:579/3125 train_loss:3.7881 train_time:87740ms step_avg:154.20ms
step:580/3125 train_loss:3.7694 train_time:87893ms step_avg:154.20ms
step:581/3125 train_loss:3.7053 train_time:88043ms step_avg:154.19ms
step:582/3125 train_loss:3.7415 train_time:88197ms step_avg:154.19ms
step:583/3125 train_loss:3.9624 train_time:88352ms step_avg:154.19ms
step:584/3125 train_loss:3.7316 train_time:88505ms step_avg:154.19ms
step:585/3125 train_loss:3.6975 train_time:88659ms step_avg:154.19ms
step:586/3125 train_loss:3.8887 train_time:88813ms step_avg:154.19ms
step:587/3125 train_loss:3.6342 train_time:88964ms step_avg:154.18ms
step:588/3125 train_loss:3.7771 train_time:89116ms step_avg:154.18ms
step:589/3125 train_loss:3.7524 train_time:89269ms step_avg:154.18ms
step:590/3125 train_loss:4.1060 train_time:89422ms step_avg:154.18ms
step:591/3125 train_loss:3.8902 train_time:89576ms step_avg:154.18ms
step:592/3125 train_loss:3.6333 train_time:89730ms step_avg:154.18ms
step:593/3125 train_loss:3.6386 train_time:89881ms step_avg:154.17ms
step:594/3125 train_loss:3.6291 train_time:90034ms step_avg:154.17ms
step:595/3125 train_loss:3.6752 train_time:90186ms step_avg:154.16ms
step:596/3125 train_loss:4.0385 train_time:90338ms step_avg:154.16ms
step:597/3125 train_loss:3.7584 train_time:90492ms step_avg:154.16ms
step:598/3125 train_loss:3.6914 train_time:90645ms step_avg:154.16ms
step:599/3125 train_loss:3.7712 train_time:90798ms step_avg:154.16ms
step:600/3125 train_loss:3.5891 train_time:90952ms step_avg:154.16ms
step:601/3125 train_loss:3.7086 train_time:91103ms step_avg:154.15ms
step:602/3125 train_loss:3.7439 train_time:91257ms step_avg:154.15ms
step:603/3125 train_loss:3.7708 train_time:91411ms step_avg:154.15ms
step:604/3125 train_loss:3.8908 train_time:91563ms step_avg:154.15ms
step:605/3125 train_loss:3.7323 train_time:91717ms step_avg:154.15ms
step:606/3125 train_loss:3.7265 train_time:91870ms step_avg:154.14ms
step:607/3125 train_loss:3.6882 train_time:92021ms step_avg:154.14ms
step:608/3125 train_loss:3.9290 train_time:92174ms step_avg:154.14ms
step:609/3125 train_loss:3.7559 train_time:92327ms step_avg:154.13ms
step:610/3125 train_loss:3.7254 train_time:92479ms step_avg:154.13ms
step:611/3125 train_loss:3.8210 train_time:92633ms step_avg:154.13ms
step:612/3125 train_loss:3.7231 train_time:92786ms step_avg:154.13ms
step:613/3125 train_loss:3.7082 train_time:92939ms step_avg:154.13ms
step:614/3125 train_loss:3.8673 train_time:93093ms step_avg:154.13ms
step:615/3125 train_loss:3.8286 train_time:93245ms step_avg:154.12ms
step:616/3125 train_loss:3.8050 train_time:93397ms step_avg:154.12ms
step:617/3125 train_loss:3.7261 train_time:93551ms step_avg:154.12ms
step:618/3125 train_loss:3.6780 train_time:93703ms step_avg:154.12ms
step:619/3125 train_loss:3.7861 train_time:93857ms step_avg:154.12ms
step:620/3125 train_loss:3.6796 train_time:94011ms step_avg:154.12ms
step:621/3125 train_loss:3.6960 train_time:94163ms step_avg:154.11ms
step:622/3125 train_loss:4.0192 train_time:94317ms step_avg:154.11ms
step:623/3125 train_loss:3.6938 train_time:94471ms step_avg:154.11ms
step:624/3125 train_loss:3.7165 train_time:94623ms step_avg:154.11ms
step:625/3125 train_loss:3.8049 train_time:94777ms step_avg:154.11ms
step:625/3125 val_loss:3.7349 train_time:94826ms step_avg:154.19ms
step:626/3125 train_loss:3.8211 train_time:94935ms step_avg:154.12ms
step:627/3125 train_loss:3.8522 train_time:95091ms step_avg:154.12ms
step:628/3125 train_loss:3.8421 train_time:95241ms step_avg:154.11ms
step:629/3125 train_loss:3.8746 train_time:95393ms step_avg:154.11ms
step:630/3125 train_loss:3.7012 train_time:95544ms step_avg:154.10ms
step:631/3125 train_loss:3.8325 train_time:95694ms step_avg:154.10ms
step:632/3125 train_loss:3.8575 train_time:95850ms step_avg:154.10ms
step:633/3125 train_loss:3.7599 train_time:96005ms step_avg:154.10ms
step:634/3125 train_loss:3.6948 train_time:96158ms step_avg:154.10ms
step:635/3125 train_loss:3.7945 train_time:96311ms step_avg:154.10ms
step:636/3125 train_loss:4.0562 train_time:96463ms step_avg:154.09ms
step:637/3125 train_loss:3.6462 train_time:96616ms step_avg:154.09ms
step:638/3125 train_loss:3.4619 train_time:96768ms step_avg:154.09ms
step:639/3125 train_loss:3.6947 train_time:96923ms step_avg:154.09ms
step:640/3125 train_loss:3.7262 train_time:97076ms step_avg:154.09ms
step:641/3125 train_loss:3.6766 train_time:97229ms step_avg:154.09ms
step:642/3125 train_loss:3.6893 train_time:97383ms step_avg:154.09ms
step:643/3125 train_loss:3.7284 train_time:97533ms step_avg:154.08ms
step:644/3125 train_loss:3.7234 train_time:97688ms step_avg:154.08ms
step:645/3125 train_loss:3.6579 train_time:97840ms step_avg:154.08ms
step:646/3125 train_loss:3.8822 train_time:97994ms step_avg:154.08ms
step:647/3125 train_loss:3.7836 train_time:98148ms step_avg:154.08ms
step:648/3125 train_loss:3.7751 train_time:98301ms step_avg:154.08ms
step:649/3125 train_loss:3.8056 train_time:98454ms step_avg:154.07ms
step:650/3125 train_loss:3.8694 train_time:98606ms step_avg:154.07ms
step:651/3125 train_loss:3.7326 train_time:98759ms step_avg:154.07ms
step:652/3125 train_loss:3.8683 train_time:98912ms step_avg:154.07ms
step:653/3125 train_loss:3.6950 train_time:99064ms step_avg:154.07ms
step:654/3125 train_loss:3.7752 train_time:99218ms step_avg:154.07ms
step:655/3125 train_loss:3.5439 train_time:99372ms step_avg:154.06ms
step:656/3125 train_loss:3.6864 train_time:99525ms step_avg:154.06ms
step:657/3125 train_loss:3.6911 train_time:99677ms step_avg:154.06ms
step:658/3125 train_loss:3.6244 train_time:99829ms step_avg:154.06ms
step:659/3125 train_loss:3.7942 train_time:99983ms step_avg:154.06ms
step:660/3125 train_loss:3.6967 train_time:100135ms step_avg:154.05ms
step:661/3125 train_loss:3.7899 train_time:100291ms step_avg:154.06ms
step:662/3125 train_loss:3.8614 train_time:100444ms step_avg:154.06ms
step:663/3125 train_loss:3.7793 train_time:100596ms step_avg:154.05ms
step:664/3125 train_loss:3.6568 train_time:100749ms step_avg:154.05ms
step:665/3125 train_loss:3.7337 train_time:100901ms step_avg:154.05ms
step:666/3125 train_loss:3.6083 train_time:101053ms step_avg:154.04ms
step:667/3125 train_loss:3.8842 train_time:101207ms step_avg:154.04ms
step:668/3125 train_loss:3.7274 train_time:101362ms step_avg:154.05ms
step:669/3125 train_loss:3.7377 train_time:101514ms step_avg:154.04ms
step:670/3125 train_loss:3.5909 train_time:101666ms step_avg:154.04ms
step:671/3125 train_loss:3.7044 train_time:101820ms step_avg:154.04ms
step:672/3125 train_loss:3.6638 train_time:101971ms step_avg:154.03ms
step:673/3125 train_loss:3.6839 train_time:102124ms step_avg:154.03ms
step:674/3125 train_loss:3.9602 train_time:102276ms step_avg:154.03ms
step:675/3125 train_loss:3.7417 train_time:102428ms step_avg:154.03ms
step:676/3125 train_loss:3.8181 train_time:102581ms step_avg:154.03ms
step:677/3125 train_loss:3.6018 train_time:102733ms step_avg:154.02ms
step:678/3125 train_loss:3.7063 train_time:102887ms step_avg:154.02ms
step:679/3125 train_loss:3.6612 train_time:103041ms step_avg:154.02ms
step:680/3125 train_loss:3.7918 train_time:103194ms step_avg:154.02ms
step:681/3125 train_loss:3.6911 train_time:103347ms step_avg:154.02ms
step:682/3125 train_loss:3.7244 train_time:103499ms step_avg:154.02ms
step:683/3125 train_loss:3.8003 train_time:103653ms step_avg:154.02ms
step:684/3125 train_loss:3.8416 train_time:103806ms step_avg:154.01ms
step:685/3125 train_loss:3.7386 train_time:103958ms step_avg:154.01ms
step:686/3125 train_loss:3.8061 train_time:104110ms step_avg:154.01ms
step:687/3125 train_loss:3.7424 train_time:104263ms step_avg:154.01ms
step:688/3125 train_loss:3.7890 train_time:104416ms step_avg:154.01ms
step:689/3125 train_loss:3.3770 train_time:104568ms step_avg:154.00ms
step:690/3125 train_loss:3.5260 train_time:104722ms step_avg:154.00ms
step:691/3125 train_loss:3.6605 train_time:104874ms step_avg:154.00ms
step:692/3125 train_loss:3.5387 train_time:105028ms step_avg:154.00ms
step:693/3125 train_loss:3.7551 train_time:105182ms step_avg:154.00ms
step:694/3125 train_loss:3.7667 train_time:105333ms step_avg:154.00ms
step:695/3125 train_loss:3.6543 train_time:105487ms step_avg:154.00ms
step:696/3125 train_loss:3.6527 train_time:105641ms step_avg:153.99ms
step:697/3125 train_loss:3.9646 train_time:105792ms step_avg:153.99ms
step:698/3125 train_loss:3.7085 train_time:105946ms step_avg:153.99ms
step:699/3125 train_loss:3.7498 train_time:106099ms step_avg:153.99ms
step:700/3125 train_loss:3.9094 train_time:106251ms step_avg:153.99ms
step:701/3125 train_loss:3.6868 train_time:106405ms step_avg:153.99ms
step:702/3125 train_loss:3.6544 train_time:106558ms step_avg:153.99ms
step:703/3125 train_loss:3.6307 train_time:106711ms step_avg:153.98ms
step:704/3125 train_loss:3.5933 train_time:106863ms step_avg:153.98ms
step:705/3125 train_loss:3.6716 train_time:107016ms step_avg:153.98ms
step:706/3125 train_loss:3.6716 train_time:107168ms step_avg:153.98ms
step:707/3125 train_loss:3.6878 train_time:107323ms step_avg:153.98ms
step:708/3125 train_loss:3.7521 train_time:107473ms step_avg:153.97ms
step:709/3125 train_loss:3.7034 train_time:107627ms step_avg:153.97ms
step:710/3125 train_loss:3.6909 train_time:107780ms step_avg:153.97ms
step:711/3125 train_loss:3.6513 train_time:107934ms step_avg:153.97ms
step:712/3125 train_loss:3.6913 train_time:108088ms step_avg:153.97ms
step:713/3125 train_loss:3.7558 train_time:108240ms step_avg:153.97ms
step:714/3125 train_loss:3.7636 train_time:108393ms step_avg:153.97ms
step:715/3125 train_loss:3.6741 train_time:108546ms step_avg:153.97ms
step:716/3125 train_loss:3.6772 train_time:108700ms step_avg:153.97ms
step:717/3125 train_loss:3.6925 train_time:108852ms step_avg:153.96ms
step:718/3125 train_loss:3.8416 train_time:109006ms step_avg:153.96ms
step:719/3125 train_loss:3.7013 train_time:109158ms step_avg:153.96ms
step:720/3125 train_loss:3.7778 train_time:109311ms step_avg:153.96ms
step:721/3125 train_loss:3.9474 train_time:109463ms step_avg:153.96ms
step:722/3125 train_loss:3.5674 train_time:109616ms step_avg:153.95ms
step:723/3125 train_loss:3.8351 train_time:109768ms step_avg:153.95ms
step:724/3125 train_loss:3.8848 train_time:109921ms step_avg:153.95ms
step:725/3125 train_loss:3.6734 train_time:110074ms step_avg:153.95ms
step:726/3125 train_loss:3.7537 train_time:110229ms step_avg:153.95ms
step:727/3125 train_loss:3.6506 train_time:110382ms step_avg:153.95ms
step:728/3125 train_loss:3.6758 train_time:110533ms step_avg:153.95ms
step:729/3125 train_loss:3.8426 train_time:110686ms step_avg:153.94ms
step:730/3125 train_loss:3.7877 train_time:110839ms step_avg:153.94ms
step:731/3125 train_loss:3.7777 train_time:110991ms step_avg:153.94ms
step:732/3125 train_loss:3.6766 train_time:111144ms step_avg:153.94ms
step:733/3125 train_loss:3.7031 train_time:111297ms step_avg:153.94ms
step:734/3125 train_loss:3.9361 train_time:111449ms step_avg:153.94ms
step:735/3125 train_loss:3.6720 train_time:111604ms step_avg:153.94ms
step:736/3125 train_loss:3.7274 train_time:111756ms step_avg:153.93ms
step:737/3125 train_loss:3.8473 train_time:111908ms step_avg:153.93ms
step:738/3125 train_loss:3.7707 train_time:112060ms step_avg:153.93ms
step:739/3125 train_loss:3.7116 train_time:112213ms step_avg:153.93ms
step:740/3125 train_loss:3.6025 train_time:112366ms step_avg:153.93ms
step:741/3125 train_loss:4.2440 train_time:112519ms step_avg:153.92ms
step:742/3125 train_loss:3.6005 train_time:112672ms step_avg:153.92ms
step:743/3125 train_loss:3.6773 train_time:112826ms step_avg:153.92ms
step:744/3125 train_loss:3.6981 train_time:112978ms step_avg:153.92ms
step:745/3125 train_loss:3.7549 train_time:113129ms step_avg:153.92ms
step:746/3125 train_loss:3.7222 train_time:113283ms step_avg:153.92ms
step:747/3125 train_loss:3.7047 train_time:113436ms step_avg:153.92ms
step:748/3125 train_loss:3.7401 train_time:113590ms step_avg:153.92ms
step:749/3125 train_loss:3.6764 train_time:113742ms step_avg:153.91ms
step:750/3125 train_loss:3.6693 train_time:113896ms step_avg:153.91ms
step:750/3125 val_loss:3.6792 train_time:113945ms step_avg:153.98ms
step:751/3125 train_loss:3.7064 train_time:114054ms step_avg:153.92ms
step:752/3125 train_loss:3.6709 train_time:114208ms step_avg:153.92ms
step:753/3125 train_loss:3.7069 train_time:114359ms step_avg:153.92ms
step:754/3125 train_loss:3.7256 train_time:114509ms step_avg:153.91ms
step:755/3125 train_loss:3.6925 train_time:114660ms step_avg:153.91ms
step:756/3125 train_loss:3.7735 train_time:114926ms step_avg:154.06ms
step:757/3125 train_loss:3.5974 train_time:115085ms step_avg:154.06ms
step:758/3125 train_loss:3.8315 train_time:115236ms step_avg:154.06ms
step:759/3125 train_loss:3.7555 train_time:115386ms step_avg:154.05ms
step:760/3125 train_loss:3.6972 train_time:115669ms step_avg:154.22ms
step:761/3125 train_loss:3.7995 train_time:115819ms step_avg:154.22ms
step:762/3125 train_loss:3.5134 train_time:115969ms step_avg:154.21ms
step:763/3125 train_loss:3.6593 train_time:116120ms step_avg:154.21ms
step:764/3125 train_loss:3.7749 train_time:116271ms step_avg:154.21ms
step:765/3125 train_loss:3.4315 train_time:116422ms step_avg:154.20ms
step:766/3125 train_loss:3.8492 train_time:116578ms step_avg:154.20ms
step:767/3125 train_loss:3.6922 train_time:116736ms step_avg:154.21ms
step:768/3125 train_loss:3.6693 train_time:116888ms step_avg:154.21ms
step:769/3125 train_loss:3.6853 train_time:117040ms step_avg:154.20ms
step:770/3125 train_loss:3.7076 train_time:117192ms step_avg:154.20ms
step:771/3125 train_loss:3.7619 train_time:117343ms step_avg:154.20ms
step:772/3125 train_loss:3.9863 train_time:117496ms step_avg:154.19ms
step:773/3125 train_loss:3.5699 train_time:117651ms step_avg:154.19ms
step:774/3125 train_loss:3.7524 train_time:117805ms step_avg:154.19ms
step:775/3125 train_loss:3.7461 train_time:117959ms step_avg:154.19ms
step:776/3125 train_loss:3.7140 train_time:118111ms step_avg:154.19ms
step:777/3125 train_loss:3.5130 train_time:118263ms step_avg:154.19ms
step:778/3125 train_loss:3.5208 train_time:118417ms step_avg:154.19ms
step:779/3125 train_loss:3.5877 train_time:118569ms step_avg:154.19ms
step:780/3125 train_loss:3.6791 train_time:118723ms step_avg:154.19ms
step:781/3125 train_loss:3.7083 train_time:118877ms step_avg:154.19ms
step:782/3125 train_loss:3.7754 train_time:119029ms step_avg:154.18ms
step:783/3125 train_loss:3.6899 train_time:119182ms step_avg:154.18ms
step:784/3125 train_loss:3.6747 train_time:119334ms step_avg:154.18ms
step:785/3125 train_loss:3.6918 train_time:119485ms step_avg:154.17ms
step:786/3125 train_loss:3.6638 train_time:119639ms step_avg:154.17ms
step:787/3125 train_loss:3.5657 train_time:119793ms step_avg:154.17ms
step:788/3125 train_loss:3.8567 train_time:119944ms step_avg:154.17ms
step:789/3125 train_loss:3.6141 train_time:120096ms step_avg:154.17ms
step:790/3125 train_loss:3.6646 train_time:120249ms step_avg:154.17ms
step:791/3125 train_loss:3.7382 train_time:120400ms step_avg:154.16ms
step:792/3125 train_loss:3.8668 train_time:120553ms step_avg:154.16ms
step:793/3125 train_loss:3.8760 train_time:120707ms step_avg:154.16ms
step:794/3125 train_loss:3.5865 train_time:120861ms step_avg:154.16ms
step:795/3125 train_loss:3.7090 train_time:121014ms step_avg:154.16ms
step:796/3125 train_loss:3.7676 train_time:121166ms step_avg:154.16ms
step:797/3125 train_loss:3.8667 train_time:121320ms step_avg:154.15ms
step:798/3125 train_loss:3.6252 train_time:121473ms step_avg:154.15ms
step:799/3125 train_loss:3.7660 train_time:121625ms step_avg:154.15ms
step:800/3125 train_loss:3.6634 train_time:121779ms step_avg:154.15ms
step:801/3125 train_loss:3.6440 train_time:121933ms step_avg:154.15ms
step:802/3125 train_loss:3.7346 train_time:122085ms step_avg:154.15ms
step:803/3125 train_loss:3.6025 train_time:122238ms step_avg:154.15ms
step:804/3125 train_loss:3.6409 train_time:122391ms step_avg:154.14ms
step:805/3125 train_loss:3.7421 train_time:122542ms step_avg:154.14ms
step:806/3125 train_loss:3.6416 train_time:122695ms step_avg:154.14ms
step:807/3125 train_loss:3.6598 train_time:122848ms step_avg:154.14ms
step:808/3125 train_loss:3.7484 train_time:123002ms step_avg:154.14ms
step:809/3125 train_loss:3.6701 train_time:123156ms step_avg:154.14ms
step:810/3125 train_loss:3.5945 train_time:123308ms step_avg:154.13ms
step:811/3125 train_loss:3.6722 train_time:123460ms step_avg:154.13ms
step:812/3125 train_loss:3.7050 train_time:123613ms step_avg:154.13ms
step:813/3125 train_loss:3.7011 train_time:123765ms step_avg:154.13ms
step:814/3125 train_loss:3.7380 train_time:123919ms step_avg:154.13ms
step:815/3125 train_loss:3.6798 train_time:124072ms step_avg:154.13ms
step:816/3125 train_loss:3.6707 train_time:124226ms step_avg:154.13ms
step:817/3125 train_loss:3.7757 train_time:124379ms step_avg:154.12ms
step:818/3125 train_loss:3.8668 train_time:124532ms step_avg:154.12ms
step:819/3125 train_loss:3.6292 train_time:124684ms step_avg:154.12ms
step:820/3125 train_loss:3.8276 train_time:124837ms step_avg:154.12ms
step:821/3125 train_loss:3.6122 train_time:124989ms step_avg:154.12ms
step:822/3125 train_loss:3.6581 train_time:125142ms step_avg:154.12ms
step:823/3125 train_loss:3.7823 train_time:125296ms step_avg:154.12ms
step:824/3125 train_loss:3.6903 train_time:125451ms step_avg:154.12ms
step:825/3125 train_loss:3.6219 train_time:125602ms step_avg:154.11ms
step:826/3125 train_loss:3.7197 train_time:125758ms step_avg:154.12ms
step:827/3125 train_loss:3.6157 train_time:125910ms step_avg:154.11ms
step:828/3125 train_loss:3.8404 train_time:126062ms step_avg:154.11ms
step:829/3125 train_loss:3.7277 train_time:126218ms step_avg:154.11ms
step:830/3125 train_loss:3.7763 train_time:126370ms step_avg:154.11ms
step:831/3125 train_loss:3.6468 train_time:126523ms step_avg:154.11ms
step:832/3125 train_loss:3.6999 train_time:126677ms step_avg:154.11ms
step:833/3125 train_loss:3.6256 train_time:126830ms step_avg:154.11ms
step:834/3125 train_loss:3.7538 train_time:126982ms step_avg:154.10ms
step:835/3125 train_loss:3.5902 train_time:127135ms step_avg:154.10ms
step:836/3125 train_loss:3.5716 train_time:127287ms step_avg:154.10ms
step:837/3125 train_loss:3.8224 train_time:127441ms step_avg:154.10ms
step:838/3125 train_loss:3.5237 train_time:127595ms step_avg:154.10ms
step:839/3125 train_loss:3.6988 train_time:127747ms step_avg:154.10ms
step:840/3125 train_loss:3.5352 train_time:127900ms step_avg:154.10ms
step:841/3125 train_loss:3.5831 train_time:128055ms step_avg:154.10ms
step:842/3125 train_loss:3.6678 train_time:128206ms step_avg:154.09ms
step:843/3125 train_loss:3.6893 train_time:128359ms step_avg:154.09ms
step:844/3125 train_loss:3.6818 train_time:128511ms step_avg:154.09ms
step:845/3125 train_loss:3.5421 train_time:128663ms step_avg:154.09ms
step:846/3125 train_loss:3.7761 train_time:128816ms step_avg:154.09ms
step:847/3125 train_loss:3.6400 train_time:128968ms step_avg:154.08ms
step:848/3125 train_loss:3.5989 train_time:129122ms step_avg:154.08ms
step:849/3125 train_loss:3.7366 train_time:129275ms step_avg:154.08ms
step:850/3125 train_loss:3.6041 train_time:129428ms step_avg:154.08ms
step:851/3125 train_loss:3.5584 train_time:129582ms step_avg:154.08ms
step:852/3125 train_loss:3.8469 train_time:129736ms step_avg:154.08ms
step:853/3125 train_loss:3.5573 train_time:129888ms step_avg:154.08ms
step:854/3125 train_loss:3.6728 train_time:130041ms step_avg:154.08ms
step:855/3125 train_loss:3.7505 train_time:130195ms step_avg:154.08ms
step:856/3125 train_loss:3.6258 train_time:130347ms step_avg:154.07ms
step:857/3125 train_loss:3.6615 train_time:130501ms step_avg:154.07ms
step:858/3125 train_loss:3.7154 train_time:130656ms step_avg:154.08ms
step:859/3125 train_loss:3.5997 train_time:130807ms step_avg:154.07ms
step:860/3125 train_loss:3.6782 train_time:130961ms step_avg:154.07ms
step:861/3125 train_loss:3.6965 train_time:131114ms step_avg:154.07ms
step:862/3125 train_loss:3.7420 train_time:131266ms step_avg:154.07ms
step:863/3125 train_loss:3.7059 train_time:131421ms step_avg:154.07ms
step:864/3125 train_loss:3.6796 train_time:131575ms step_avg:154.07ms
step:865/3125 train_loss:3.5004 train_time:131728ms step_avg:154.07ms
step:866/3125 train_loss:3.6953 train_time:131881ms step_avg:154.07ms
step:867/3125 train_loss:3.9777 train_time:132034ms step_avg:154.07ms
step:868/3125 train_loss:3.5615 train_time:132186ms step_avg:154.06ms
step:869/3125 train_loss:3.7458 train_time:132339ms step_avg:154.06ms
step:870/3125 train_loss:3.7249 train_time:132493ms step_avg:154.06ms
step:871/3125 train_loss:3.5549 train_time:132646ms step_avg:154.06ms
step:872/3125 train_loss:3.5430 train_time:132800ms step_avg:154.06ms
step:873/3125 train_loss:3.7732 train_time:132954ms step_avg:154.06ms
step:874/3125 train_loss:3.5630 train_time:133106ms step_avg:154.06ms
step:875/3125 train_loss:3.2997 train_time:133259ms step_avg:154.06ms
step:875/3125 val_loss:3.6332 train_time:133308ms step_avg:154.11ms
step:876/3125 train_loss:3.7541 train_time:133414ms step_avg:154.06ms
step:877/3125 train_loss:3.5558 train_time:133569ms step_avg:154.06ms
step:878/3125 train_loss:3.7327 train_time:133720ms step_avg:154.06ms
step:879/3125 train_loss:3.5902 train_time:133872ms step_avg:154.05ms
step:880/3125 train_loss:3.7643 train_time:134026ms step_avg:154.05ms
step:881/3125 train_loss:3.4306 train_time:134173ms step_avg:154.05ms
step:882/3125 train_loss:3.5982 train_time:134329ms step_avg:154.05ms
step:883/3125 train_loss:3.7932 train_time:134485ms step_avg:154.05ms
step:884/3125 train_loss:3.9504 train_time:134639ms step_avg:154.05ms
step:885/3125 train_loss:3.6749 train_time:134791ms step_avg:154.05ms
step:886/3125 train_loss:3.5925 train_time:134944ms step_avg:154.05ms
step:887/3125 train_loss:3.6796 train_time:135093ms step_avg:154.04ms
step:888/3125 train_loss:4.1947 train_time:135247ms step_avg:154.04ms
step:889/3125 train_loss:3.9439 train_time:135400ms step_avg:154.04ms
step:890/3125 train_loss:3.6243 train_time:135554ms step_avg:154.04ms
step:891/3125 train_loss:3.6439 train_time:135707ms step_avg:154.04ms
step:892/3125 train_loss:3.4703 train_time:135860ms step_avg:154.04ms
step:893/3125 train_loss:3.8215 train_time:136013ms step_avg:154.04ms
step:894/3125 train_loss:3.5353 train_time:136166ms step_avg:154.03ms
step:895/3125 train_loss:3.7860 train_time:136318ms step_avg:154.03ms
step:896/3125 train_loss:3.7998 train_time:136472ms step_avg:154.03ms
step:897/3125 train_loss:3.6025 train_time:136626ms step_avg:154.03ms
step:898/3125 train_loss:3.6490 train_time:136778ms step_avg:154.03ms
step:899/3125 train_loss:3.6962 train_time:136930ms step_avg:154.03ms
step:900/3125 train_loss:3.5881 train_time:137082ms step_avg:154.02ms
step:901/3125 train_loss:3.5240 train_time:137235ms step_avg:154.02ms
step:902/3125 train_loss:3.7398 train_time:137388ms step_avg:154.02ms
step:903/3125 train_loss:3.7426 train_time:137541ms step_avg:154.02ms
step:904/3125 train_loss:3.6464 train_time:137695ms step_avg:154.02ms
step:905/3125 train_loss:3.6111 train_time:137849ms step_avg:154.02ms
step:906/3125 train_loss:3.5984 train_time:138002ms step_avg:154.02ms
step:907/3125 train_loss:3.8289 train_time:138153ms step_avg:154.02ms
step:908/3125 train_loss:3.6239 train_time:138307ms step_avg:154.02ms
step:909/3125 train_loss:3.6604 train_time:138458ms step_avg:154.01ms
step:910/3125 train_loss:3.5675 train_time:138612ms step_avg:154.01ms
step:911/3125 train_loss:3.6569 train_time:138766ms step_avg:154.01ms
step:912/3125 train_loss:3.7321 train_time:138919ms step_avg:154.01ms
step:913/3125 train_loss:3.7209 train_time:139072ms step_avg:154.01ms
step:914/3125 train_loss:3.5934 train_time:139226ms step_avg:154.01ms
step:915/3125 train_loss:3.8476 train_time:139377ms step_avg:154.01ms
step:916/3125 train_loss:3.6432 train_time:139532ms step_avg:154.01ms
step:917/3125 train_loss:3.7348 train_time:139687ms step_avg:154.01ms
step:918/3125 train_loss:3.7080 train_time:139838ms step_avg:154.01ms
step:919/3125 train_loss:4.9384 train_time:139991ms step_avg:154.01ms
step:920/3125 train_loss:3.6173 train_time:140145ms step_avg:154.01ms
step:921/3125 train_loss:3.6860 train_time:140297ms step_avg:154.00ms
step:922/3125 train_loss:3.6479 train_time:140450ms step_avg:154.00ms
step:923/3125 train_loss:3.6959 train_time:140602ms step_avg:154.00ms
step:924/3125 train_loss:3.7077 train_time:140754ms step_avg:154.00ms
step:925/3125 train_loss:3.7908 train_time:140908ms step_avg:154.00ms
step:926/3125 train_loss:3.7695 train_time:141060ms step_avg:154.00ms
step:927/3125 train_loss:3.6621 train_time:141214ms step_avg:154.00ms
step:928/3125 train_loss:3.6576 train_time:141368ms step_avg:154.00ms
step:929/3125 train_loss:3.8848 train_time:141520ms step_avg:153.99ms
step:930/3125 train_loss:3.7180 train_time:141672ms step_avg:153.99ms
step:931/3125 train_loss:3.5147 train_time:141825ms step_avg:153.99ms
step:932/3125 train_loss:3.6058 train_time:141976ms step_avg:153.99ms
step:933/3125 train_loss:3.7777 train_time:142130ms step_avg:153.99ms
step:934/3125 train_loss:3.5078 train_time:142283ms step_avg:153.99ms
step:935/3125 train_loss:3.6861 train_time:142436ms step_avg:153.98ms
step:936/3125 train_loss:3.5553 train_time:142589ms step_avg:153.98ms
step:937/3125 train_loss:3.6209 train_time:142741ms step_avg:153.98ms
step:938/3125 train_loss:3.7262 train_time:142895ms step_avg:153.98ms
step:939/3125 train_loss:3.6487 train_time:143049ms step_avg:153.98ms
step:940/3125 train_loss:3.8069 train_time:143201ms step_avg:153.98ms
step:941/3125 train_loss:3.5891 train_time:143354ms step_avg:153.98ms
step:942/3125 train_loss:3.6546 train_time:143508ms step_avg:153.98ms
step:943/3125 train_loss:3.4584 train_time:143659ms step_avg:153.98ms
step:944/3125 train_loss:3.8120 train_time:143813ms step_avg:153.98ms
step:945/3125 train_loss:3.5155 train_time:144085ms step_avg:154.10ms
step:946/3125 train_loss:3.5354 train_time:144243ms step_avg:154.11ms
step:947/3125 train_loss:5.1750 train_time:144394ms step_avg:154.10ms
step:948/3125 train_loss:3.7166 train_time:144546ms step_avg:154.10ms
step:949/3125 train_loss:3.6043 train_time:144695ms step_avg:154.10ms
step:950/3125 train_loss:3.5007 train_time:145006ms step_avg:154.26ms
step:951/3125 train_loss:3.5608 train_time:145167ms step_avg:154.27ms
step:952/3125 train_loss:3.5147 train_time:145318ms step_avg:154.27ms
step:953/3125 train_loss:3.5831 train_time:145471ms step_avg:154.26ms
step:954/3125 train_loss:3.6637 train_time:145621ms step_avg:154.26ms
step:955/3125 train_loss:3.5509 train_time:145771ms step_avg:154.26ms
step:956/3125 train_loss:3.5855 train_time:145925ms step_avg:154.25ms
step:957/3125 train_loss:3.5517 train_time:146082ms step_avg:154.26ms
step:958/3125 train_loss:3.6136 train_time:146235ms step_avg:154.26ms
step:959/3125 train_loss:3.6043 train_time:146387ms step_avg:154.25ms
step:960/3125 train_loss:3.6199 train_time:146537ms step_avg:154.25ms
step:961/3125 train_loss:3.5041 train_time:146692ms step_avg:154.25ms
step:962/3125 train_loss:3.7616 train_time:146844ms step_avg:154.25ms
step:963/3125 train_loss:3.7113 train_time:146997ms step_avg:154.25ms
step:964/3125 train_loss:3.6192 train_time:147153ms step_avg:154.25ms
step:965/3125 train_loss:3.5641 train_time:147305ms step_avg:154.25ms
step:966/3125 train_loss:3.5937 train_time:147456ms step_avg:154.24ms
step:967/3125 train_loss:3.8152 train_time:147610ms step_avg:154.24ms
step:968/3125 train_loss:3.6451 train_time:147761ms step_avg:154.24ms
step:969/3125 train_loss:3.6267 train_time:147914ms step_avg:154.24ms
step:970/3125 train_loss:3.6903 train_time:148068ms step_avg:154.24ms
step:971/3125 train_loss:3.4993 train_time:148222ms step_avg:154.24ms
step:972/3125 train_loss:3.6529 train_time:148375ms step_avg:154.24ms
step:973/3125 train_loss:3.6161 train_time:148529ms step_avg:154.24ms
step:974/3125 train_loss:3.6486 train_time:148681ms step_avg:154.23ms
step:975/3125 train_loss:3.7185 train_time:148833ms step_avg:154.23ms
step:976/3125 train_loss:3.5979 train_time:148986ms step_avg:154.23ms
step:977/3125 train_loss:3.7940 train_time:149138ms step_avg:154.23ms
step:978/3125 train_loss:3.6801 train_time:149293ms step_avg:154.23ms
step:979/3125 train_loss:3.5017 train_time:149447ms step_avg:154.23ms
step:980/3125 train_loss:3.7949 train_time:149598ms step_avg:154.22ms
step:981/3125 train_loss:3.5236 train_time:149752ms step_avg:154.22ms
step:982/3125 train_loss:3.6932 train_time:149905ms step_avg:154.22ms
step:983/3125 train_loss:3.6702 train_time:150056ms step_avg:154.22ms
step:984/3125 train_loss:3.6657 train_time:150212ms step_avg:154.22ms
step:985/3125 train_loss:3.6169 train_time:150367ms step_avg:154.22ms
step:986/3125 train_loss:3.7015 train_time:150520ms step_avg:154.22ms
step:987/3125 train_loss:3.5262 train_time:150672ms step_avg:154.22ms
step:988/3125 train_loss:3.5991 train_time:150826ms step_avg:154.22ms
step:989/3125 train_loss:3.6107 train_time:150977ms step_avg:154.22ms
step:990/3125 train_loss:3.5398 train_time:151130ms step_avg:154.21ms
step:991/3125 train_loss:3.7649 train_time:151283ms step_avg:154.21ms
step:992/3125 train_loss:3.5749 train_time:151438ms step_avg:154.21ms
step:993/3125 train_loss:3.5491 train_time:151593ms step_avg:154.21ms
step:994/3125 train_loss:3.6245 train_time:151746ms step_avg:154.21ms
step:995/3125 train_loss:3.7062 train_time:151897ms step_avg:154.21ms
step:996/3125 train_loss:3.6621 train_time:152050ms step_avg:154.21ms
step:997/3125 train_loss:3.5641 train_time:152202ms step_avg:154.21ms
step:998/3125 train_loss:3.9074 train_time:152354ms step_avg:154.20ms
step:999/3125 train_loss:3.5812 train_time:152508ms step_avg:154.20ms
step:1000/3125 train_loss:3.6968 train_time:152661ms step_avg:154.20ms
step:1000/3125 val_loss:3.5932 train_time:152711ms step_avg:154.25ms
step:1001/3125 train_loss:3.5672 train_time:152824ms step_avg:154.21ms
step:1002/3125 train_loss:3.6181 train_time:152981ms step_avg:154.21ms
step:1003/3125 train_loss:3.5009 train_time:153132ms step_avg:154.21ms
step:1004/3125 train_loss:3.6881 train_time:153283ms step_avg:154.21ms
step:1005/3125 train_loss:3.7345 train_time:153433ms step_avg:154.20ms
step:1006/3125 train_loss:3.5108 train_time:153584ms step_avg:154.20ms
step:1007/3125 train_loss:3.5950 train_time:153739ms step_avg:154.20ms
step:1008/3125 train_loss:3.5617 train_time:153894ms step_avg:154.20ms
step:1009/3125 train_loss:3.6814 train_time:154048ms step_avg:154.20ms
step:1010/3125 train_loss:3.7871 train_time:154201ms step_avg:154.20ms
step:1011/3125 train_loss:3.6804 train_time:154353ms step_avg:154.20ms
step:1012/3125 train_loss:3.6446 train_time:154505ms step_avg:154.20ms
step:1013/3125 train_loss:3.5098 train_time:154656ms step_avg:154.19ms
step:1014/3125 train_loss:3.6491 train_time:154808ms step_avg:154.19ms
step:1015/3125 train_loss:3.7508 train_time:154963ms step_avg:154.19ms
step:1016/3125 train_loss:3.4631 train_time:155118ms step_avg:154.19ms
step:1017/3125 train_loss:3.5572 train_time:155269ms step_avg:154.19ms
step:1018/3125 train_loss:3.5462 train_time:155422ms step_avg:154.19ms
step:1019/3125 train_loss:3.5084 train_time:155574ms step_avg:154.19ms
step:1020/3125 train_loss:3.6494 train_time:155726ms step_avg:154.18ms
step:1021/3125 train_loss:3.5515 train_time:155881ms step_avg:154.18ms
step:1022/3125 train_loss:3.4862 train_time:156033ms step_avg:154.18ms
step:1023/3125 train_loss:3.5988 train_time:156185ms step_avg:154.18ms
step:1024/3125 train_loss:3.6247 train_time:156339ms step_avg:154.18ms
step:1025/3125 train_loss:3.6031 train_time:156490ms step_avg:154.18ms
step:1026/3125 train_loss:3.6052 train_time:156645ms step_avg:154.18ms
step:1027/3125 train_loss:3.7723 train_time:156798ms step_avg:154.18ms
step:1028/3125 train_loss:3.4550 train_time:156950ms step_avg:154.17ms
step:1029/3125 train_loss:3.5242 train_time:157104ms step_avg:154.17ms
step:1030/3125 train_loss:3.4678 train_time:157257ms step_avg:154.17ms
step:1031/3125 train_loss:3.6478 train_time:157408ms step_avg:154.17ms
step:1032/3125 train_loss:3.6210 train_time:157561ms step_avg:154.17ms
step:1033/3125 train_loss:3.8138 train_time:157713ms step_avg:154.17ms
step:1034/3125 train_loss:3.6225 train_time:157867ms step_avg:154.17ms
step:1035/3125 train_loss:3.5488 train_time:158019ms step_avg:154.16ms
step:1036/3125 train_loss:3.5639 train_time:158173ms step_avg:154.17ms
step:1037/3125 train_loss:3.6219 train_time:158327ms step_avg:154.16ms
step:1038/3125 train_loss:3.9360 train_time:158480ms step_avg:154.16ms
step:1039/3125 train_loss:3.7436 train_time:158631ms step_avg:154.16ms
step:1040/3125 train_loss:3.6414 train_time:158785ms step_avg:154.16ms
step:1041/3125 train_loss:3.5375 train_time:158939ms step_avg:154.16ms
step:1042/3125 train_loss:3.6120 train_time:159091ms step_avg:154.16ms
step:1043/3125 train_loss:3.6522 train_time:159245ms step_avg:154.16ms
step:1044/3125 train_loss:3.5805 train_time:159397ms step_avg:154.16ms
step:1045/3125 train_loss:3.5870 train_time:159549ms step_avg:154.15ms
step:1046/3125 train_loss:3.6644 train_time:159703ms step_avg:154.15ms
step:1047/3125 train_loss:3.5672 train_time:159855ms step_avg:154.15ms
step:1048/3125 train_loss:3.7756 train_time:160008ms step_avg:154.15ms
step:1049/3125 train_loss:3.6327 train_time:160161ms step_avg:154.15ms
step:1050/3125 train_loss:3.5463 train_time:160314ms step_avg:154.15ms
step:1051/3125 train_loss:3.5194 train_time:160468ms step_avg:154.15ms
step:1052/3125 train_loss:3.6418 train_time:160621ms step_avg:154.15ms
step:1053/3125 train_loss:3.5141 train_time:160775ms step_avg:154.15ms
step:1054/3125 train_loss:3.8376 train_time:160927ms step_avg:154.14ms
step:1055/3125 train_loss:3.6737 train_time:161081ms step_avg:154.14ms
step:1056/3125 train_loss:3.5304 train_time:161234ms step_avg:154.14ms
step:1057/3125 train_loss:3.6360 train_time:161386ms step_avg:154.14ms
step:1058/3125 train_loss:3.7066 train_time:161539ms step_avg:154.14ms
step:1059/3125 train_loss:3.4304 train_time:161692ms step_avg:154.14ms
step:1060/3125 train_loss:3.5453 train_time:161846ms step_avg:154.14ms
step:1061/3125 train_loss:3.5804 train_time:162000ms step_avg:154.14ms
step:1062/3125 train_loss:3.5470 train_time:162152ms step_avg:154.14ms
step:1063/3125 train_loss:3.5230 train_time:162304ms step_avg:154.14ms
step:1064/3125 train_loss:3.6136 train_time:162456ms step_avg:154.13ms
step:1065/3125 train_loss:3.5179 train_time:162609ms step_avg:154.13ms
step:1066/3125 train_loss:3.5053 train_time:162763ms step_avg:154.13ms
step:1067/3125 train_loss:3.5338 train_time:162916ms step_avg:154.13ms
step:1068/3125 train_loss:3.4394 train_time:163068ms step_avg:154.13ms
step:1069/3125 train_loss:3.5625 train_time:163221ms step_avg:154.13ms
step:1070/3125 train_loss:3.4345 train_time:163374ms step_avg:154.13ms
step:1071/3125 train_loss:3.6877 train_time:163525ms step_avg:154.12ms
step:1072/3125 train_loss:3.6399 train_time:163680ms step_avg:154.12ms
step:1073/3125 train_loss:3.5821 train_time:163833ms step_avg:154.12ms
step:1074/3125 train_loss:3.6564 train_time:163984ms step_avg:154.12ms
step:1075/3125 train_loss:3.5907 train_time:164138ms step_avg:154.12ms
step:1076/3125 train_loss:3.5337 train_time:164290ms step_avg:154.12ms
step:1077/3125 train_loss:3.9278 train_time:164444ms step_avg:154.12ms
step:1078/3125 train_loss:3.5998 train_time:164597ms step_avg:154.12ms
step:1079/3125 train_loss:3.2872 train_time:164750ms step_avg:154.12ms
step:1080/3125 train_loss:3.6649 train_time:164903ms step_avg:154.11ms
step:1081/3125 train_loss:3.5870 train_time:165055ms step_avg:154.11ms
step:1082/3125 train_loss:3.6491 train_time:165211ms step_avg:154.11ms
step:1083/3125 train_loss:3.7448 train_time:165363ms step_avg:154.11ms
step:1084/3125 train_loss:3.6440 train_time:165517ms step_avg:154.11ms
step:1085/3125 train_loss:3.6132 train_time:165668ms step_avg:154.11ms
step:1086/3125 train_loss:3.5777 train_time:165822ms step_avg:154.11ms
step:1087/3125 train_loss:3.7720 train_time:165975ms step_avg:154.11ms
step:1088/3125 train_loss:3.6616 train_time:166126ms step_avg:154.11ms
step:1089/3125 train_loss:3.4970 train_time:166280ms step_avg:154.11ms
step:1090/3125 train_loss:3.5205 train_time:166431ms step_avg:154.10ms
step:1091/3125 train_loss:3.6299 train_time:166585ms step_avg:154.10ms
step:1092/3125 train_loss:3.4362 train_time:166740ms step_avg:154.10ms
step:1093/3125 train_loss:3.6333 train_time:166891ms step_avg:154.10ms
step:1094/3125 train_loss:3.7643 train_time:167044ms step_avg:154.10ms
step:1095/3125 train_loss:3.5972 train_time:167198ms step_avg:154.10ms
step:1096/3125 train_loss:3.5525 train_time:167349ms step_avg:154.10ms
step:1097/3125 train_loss:3.5763 train_time:167502ms step_avg:154.10ms
step:1098/3125 train_loss:3.6223 train_time:167656ms step_avg:154.10ms
step:1099/3125 train_loss:3.7032 train_time:167808ms step_avg:154.09ms
step:1100/3125 train_loss:3.6550 train_time:167962ms step_avg:154.09ms
step:1101/3125 train_loss:3.5826 train_time:168114ms step_avg:154.09ms
step:1102/3125 train_loss:3.4434 train_time:168267ms step_avg:154.09ms
step:1103/3125 train_loss:3.5031 train_time:168420ms step_avg:154.09ms
step:1104/3125 train_loss:3.5982 train_time:168572ms step_avg:154.09ms
step:1105/3125 train_loss:3.4697 train_time:168725ms step_avg:154.09ms
step:1106/3125 train_loss:4.2234 train_time:168880ms step_avg:154.09ms
step:1107/3125 train_loss:3.3714 train_time:169032ms step_avg:154.09ms
step:1108/3125 train_loss:3.7115 train_time:169186ms step_avg:154.09ms
step:1109/3125 train_loss:3.4997 train_time:169339ms step_avg:154.08ms
step:1110/3125 train_loss:3.6463 train_time:169490ms step_avg:154.08ms
step:1111/3125 train_loss:3.5740 train_time:169645ms step_avg:154.08ms
step:1112/3125 train_loss:3.6232 train_time:169797ms step_avg:154.08ms
step:1113/3125 train_loss:3.7124 train_time:169951ms step_avg:154.08ms
step:1114/3125 train_loss:3.5748 train_time:170105ms step_avg:154.08ms
step:1115/3125 train_loss:3.5108 train_time:170258ms step_avg:154.08ms
step:1116/3125 train_loss:3.4103 train_time:170409ms step_avg:154.08ms
step:1117/3125 train_loss:3.5828 train_time:170563ms step_avg:154.08ms
step:1118/3125 train_loss:3.7344 train_time:170715ms step_avg:154.08ms
step:1119/3125 train_loss:3.7752 train_time:170867ms step_avg:154.07ms
step:1120/3125 train_loss:3.6101 train_time:171021ms step_avg:154.07ms
step:1121/3125 train_loss:3.6385 train_time:171173ms step_avg:154.07ms
step:1122/3125 train_loss:3.5397 train_time:171327ms step_avg:154.07ms
step:1123/3125 train_loss:3.5987 train_time:171481ms step_avg:154.07ms
step:1124/3125 train_loss:3.7386 train_time:171632ms step_avg:154.07ms
step:1125/3125 train_loss:3.5058 train_time:171786ms step_avg:154.07ms
step:1125/3125 val_loss:3.5657 train_time:171837ms step_avg:154.11ms
step:1126/3125 train_loss:3.3991 train_time:171944ms step_avg:154.07ms
step:1127/3125 train_loss:3.6235 train_time:172098ms step_avg:154.07ms
step:1128/3125 train_loss:3.8437 train_time:172250ms step_avg:154.07ms
step:1129/3125 train_loss:3.3804 train_time:172401ms step_avg:154.07ms
step:1130/3125 train_loss:3.7048 train_time:172552ms step_avg:154.06ms
step:1131/3125 train_loss:3.5338 train_time:172704ms step_avg:154.06ms
step:1132/3125 train_loss:3.5648 train_time:172858ms step_avg:154.06ms
step:1133/3125 train_loss:3.5144 train_time:173016ms step_avg:154.07ms
step:1134/3125 train_loss:3.6756 train_time:173289ms step_avg:154.17ms
step:1135/3125 train_loss:3.6116 train_time:173448ms step_avg:154.18ms
step:1136/3125 train_loss:3.6627 train_time:173598ms step_avg:154.17ms
step:1137/3125 train_loss:3.7047 train_time:173750ms step_avg:154.17ms
step:1138/3125 train_loss:3.6089 train_time:173899ms step_avg:154.17ms
step:1139/3125 train_loss:3.5067 train_time:174050ms step_avg:154.16ms
step:1140/3125 train_loss:3.8181 train_time:174345ms step_avg:154.29ms
step:1141/3125 train_loss:3.6197 train_time:174494ms step_avg:154.28ms
step:1142/3125 train_loss:3.7273 train_time:174644ms step_avg:154.28ms
step:1143/3125 train_loss:3.6015 train_time:174795ms step_avg:154.28ms
step:1144/3125 train_loss:3.5174 train_time:174946ms step_avg:154.27ms
step:1145/3125 train_loss:3.6185 train_time:175096ms step_avg:154.27ms
step:1146/3125 train_loss:3.7370 train_time:175254ms step_avg:154.27ms
step:1147/3125 train_loss:3.7154 train_time:175410ms step_avg:154.27ms
step:1148/3125 train_loss:3.6267 train_time:175561ms step_avg:154.27ms
step:1149/3125 train_loss:3.6551 train_time:175714ms step_avg:154.27ms
step:1150/3125 train_loss:3.5023 train_time:175865ms step_avg:154.27ms
step:1151/3125 train_loss:3.5258 train_time:176016ms step_avg:154.26ms
step:1152/3125 train_loss:3.4851 train_time:176168ms step_avg:154.26ms
step:1153/3125 train_loss:3.6331 train_time:176322ms step_avg:154.26ms
step:1154/3125 train_loss:3.6066 train_time:176478ms step_avg:154.26ms
step:1155/3125 train_loss:3.6697 train_time:176632ms step_avg:154.26ms
step:1156/3125 train_loss:3.5156 train_time:176783ms step_avg:154.26ms
step:1157/3125 train_loss:3.6910 train_time:176935ms step_avg:154.26ms
step:1158/3125 train_loss:3.6452 train_time:177085ms step_avg:154.26ms
step:1159/3125 train_loss:3.4576 train_time:177236ms step_avg:154.25ms
step:1160/3125 train_loss:3.4998 train_time:177390ms step_avg:154.25ms
step:1161/3125 train_loss:3.4881 train_time:177543ms step_avg:154.25ms
step:1162/3125 train_loss:3.2993 train_time:177695ms step_avg:154.25ms
step:1163/3125 train_loss:3.5969 train_time:177848ms step_avg:154.25ms
step:1164/3125 train_loss:3.5697 train_time:177999ms step_avg:154.25ms
step:1165/3125 train_loss:3.4335 train_time:178151ms step_avg:154.24ms
step:1166/3125 train_loss:3.4262 train_time:178304ms step_avg:154.24ms
step:1167/3125 train_loss:3.5358 train_time:178458ms step_avg:154.24ms
step:1168/3125 train_loss:3.5510 train_time:178613ms step_avg:154.24ms
step:1169/3125 train_loss:3.8671 train_time:178764ms step_avg:154.24ms
step:1170/3125 train_loss:3.5506 train_time:178916ms step_avg:154.24ms
step:1171/3125 train_loss:3.5608 train_time:179069ms step_avg:154.24ms
step:1172/3125 train_loss:3.4776 train_time:179220ms step_avg:154.23ms
step:1173/3125 train_loss:3.5663 train_time:179374ms step_avg:154.23ms
step:1174/3125 train_loss:3.6972 train_time:179527ms step_avg:154.23ms
step:1175/3125 train_loss:3.5430 train_time:179679ms step_avg:154.23ms
step:1176/3125 train_loss:3.5556 train_time:179833ms step_avg:154.23ms
step:1177/3125 train_loss:3.6061 train_time:179985ms step_avg:154.23ms
step:1178/3125 train_loss:3.5938 train_time:180136ms step_avg:154.23ms
step:1179/3125 train_loss:3.6562 train_time:180290ms step_avg:154.23ms
step:1180/3125 train_loss:3.5581 train_time:180442ms step_avg:154.22ms
step:1181/3125 train_loss:3.5623 train_time:180596ms step_avg:154.22ms
step:1182/3125 train_loss:3.5060 train_time:180750ms step_avg:154.22ms
step:1183/3125 train_loss:3.5683 train_time:180902ms step_avg:154.22ms
step:1184/3125 train_loss:3.4939 train_time:181055ms step_avg:154.22ms
step:1185/3125 train_loss:3.6575 train_time:181208ms step_avg:154.22ms
step:1186/3125 train_loss:3.7226 train_time:181360ms step_avg:154.22ms
step:1187/3125 train_loss:3.5184 train_time:181513ms step_avg:154.22ms
step:1188/3125 train_loss:3.5760 train_time:181665ms step_avg:154.21ms
step:1189/3125 train_loss:3.5980 train_time:181817ms step_avg:154.21ms
step:1190/3125 train_loss:3.4394 train_time:181970ms step_avg:154.21ms
step:1191/3125 train_loss:3.6128 train_time:182122ms step_avg:154.21ms
step:1192/3125 train_loss:3.7608 train_time:182275ms step_avg:154.21ms
step:1193/3125 train_loss:3.5507 train_time:182426ms step_avg:154.21ms
step:1194/3125 train_loss:3.4429 train_time:182579ms step_avg:154.21ms
step:1195/3125 train_loss:3.7311 train_time:182732ms step_avg:154.20ms
step:1196/3125 train_loss:3.5403 train_time:182885ms step_avg:154.20ms
step:1197/3125 train_loss:3.5481 train_time:183036ms step_avg:154.20ms
step:1198/3125 train_loss:3.4462 train_time:183189ms step_avg:154.20ms
step:1199/3125 train_loss:3.4570 train_time:183343ms step_avg:154.20ms
step:1200/3125 train_loss:3.5046 train_time:183496ms step_avg:154.20ms
step:1201/3125 train_loss:3.5935 train_time:183649ms step_avg:154.20ms
step:1202/3125 train_loss:3.6627 train_time:183801ms step_avg:154.20ms
step:1203/3125 train_loss:3.7353 train_time:183953ms step_avg:154.19ms
step:1204/3125 train_loss:3.5768 train_time:184105ms step_avg:154.19ms
step:1205/3125 train_loss:3.5025 train_time:184258ms step_avg:154.19ms
step:1206/3125 train_loss:3.5873 train_time:184412ms step_avg:154.19ms
step:1207/3125 train_loss:3.6417 train_time:184565ms step_avg:154.19ms
step:1208/3125 train_loss:3.6849 train_time:184716ms step_avg:154.19ms
step:1209/3125 train_loss:3.5670 train_time:184869ms step_avg:154.19ms
step:1210/3125 train_loss:3.4240 train_time:185021ms step_avg:154.18ms
step:1211/3125 train_loss:3.4688 train_time:185175ms step_avg:154.18ms
step:1212/3125 train_loss:3.5664 train_time:185328ms step_avg:154.18ms
step:1213/3125 train_loss:3.5857 train_time:185481ms step_avg:154.18ms
step:1214/3125 train_loss:3.6158 train_time:185635ms step_avg:154.18ms
step:1215/3125 train_loss:3.4885 train_time:185787ms step_avg:154.18ms
step:1216/3125 train_loss:3.5645 train_time:185938ms step_avg:154.18ms
step:1217/3125 train_loss:3.5124 train_time:186091ms step_avg:154.18ms
step:1218/3125 train_loss:3.4953 train_time:186244ms step_avg:154.18ms
step:1219/3125 train_loss:3.5922 train_time:186396ms step_avg:154.17ms
step:1220/3125 train_loss:3.4444 train_time:186549ms step_avg:154.17ms
step:1221/3125 train_loss:3.6628 train_time:186702ms step_avg:154.17ms
step:1222/3125 train_loss:3.6878 train_time:186856ms step_avg:154.17ms
step:1223/3125 train_loss:3.6132 train_time:187008ms step_avg:154.17ms
step:1224/3125 train_loss:3.4641 train_time:187160ms step_avg:154.17ms
step:1225/3125 train_loss:3.4522 train_time:187314ms step_avg:154.17ms
step:1226/3125 train_loss:3.5348 train_time:187467ms step_avg:154.17ms
step:1227/3125 train_loss:3.5164 train_time:187619ms step_avg:154.16ms
step:1228/3125 train_loss:3.4660 train_time:187772ms step_avg:154.16ms
step:1229/3125 train_loss:3.6293 train_time:187925ms step_avg:154.16ms
step:1230/3125 train_loss:3.5497 train_time:188079ms step_avg:154.16ms
step:1231/3125 train_loss:3.5995 train_time:188233ms step_avg:154.16ms
step:1232/3125 train_loss:3.7619 train_time:188385ms step_avg:154.16ms
step:1233/3125 train_loss:3.6612 train_time:188538ms step_avg:154.16ms
step:1234/3125 train_loss:3.6021 train_time:188692ms step_avg:154.16ms
step:1235/3125 train_loss:3.7495 train_time:188843ms step_avg:154.16ms
step:1236/3125 train_loss:3.5094 train_time:188997ms step_avg:154.16ms
step:1237/3125 train_loss:3.4799 train_time:189151ms step_avg:154.16ms
step:1238/3125 train_loss:3.4337 train_time:189301ms step_avg:154.15ms
step:1239/3125 train_loss:3.5013 train_time:189455ms step_avg:154.15ms
step:1240/3125 train_loss:3.5098 train_time:189608ms step_avg:154.15ms
step:1241/3125 train_loss:3.5584 train_time:189760ms step_avg:154.15ms
step:1242/3125 train_loss:3.6063 train_time:189913ms step_avg:154.15ms
step:1243/3125 train_loss:3.4844 train_time:190066ms step_avg:154.15ms
step:1244/3125 train_loss:3.5767 train_time:190217ms step_avg:154.15ms
step:1245/3125 train_loss:3.5887 train_time:190371ms step_avg:154.15ms
step:1246/3125 train_loss:3.5935 train_time:190524ms step_avg:154.15ms
step:1247/3125 train_loss:3.4211 train_time:190677ms step_avg:154.15ms
step:1248/3125 train_loss:3.5611 train_time:190832ms step_avg:154.15ms
step:1249/3125 train_loss:3.6178 train_time:190984ms step_avg:154.14ms
step:1250/3125 train_loss:3.5847 train_time:191138ms step_avg:154.14ms
step:1250/3125 val_loss:3.5384 train_time:191188ms step_avg:154.18ms
step:1251/3125 train_loss:3.4851 train_time:191294ms step_avg:154.14ms
step:1252/3125 train_loss:3.6853 train_time:191445ms step_avg:154.14ms
step:1253/3125 train_loss:3.5518 train_time:191596ms step_avg:154.14ms
step:1254/3125 train_loss:3.4877 train_time:191748ms step_avg:154.14ms
step:1255/3125 train_loss:3.6157 train_time:191897ms step_avg:154.13ms
step:1256/3125 train_loss:3.6865 train_time:192049ms step_avg:154.13ms
step:1257/3125 train_loss:3.4952 train_time:192207ms step_avg:154.14ms
step:1258/3125 train_loss:3.5305 train_time:192364ms step_avg:154.14ms
step:1259/3125 train_loss:3.5586 train_time:192515ms step_avg:154.14ms
step:1260/3125 train_loss:3.5201 train_time:192668ms step_avg:154.13ms
step:1261/3125 train_loss:3.3815 train_time:192818ms step_avg:154.13ms
step:1262/3125 train_loss:3.4854 train_time:192970ms step_avg:154.13ms
step:1263/3125 train_loss:3.5518 train_time:193123ms step_avg:154.13ms
step:1264/3125 train_loss:3.4025 train_time:193279ms step_avg:154.13ms
step:1265/3125 train_loss:3.6207 train_time:193434ms step_avg:154.13ms
step:1266/3125 train_loss:3.6005 train_time:193587ms step_avg:154.13ms
step:1267/3125 train_loss:3.6079 train_time:193738ms step_avg:154.13ms
step:1268/3125 train_loss:3.5550 train_time:193891ms step_avg:154.13ms
step:1269/3125 train_loss:3.5806 train_time:194042ms step_avg:154.12ms
step:1270/3125 train_loss:3.4380 train_time:194195ms step_avg:154.12ms
step:1271/3125 train_loss:3.2916 train_time:194348ms step_avg:154.12ms
step:1272/3125 train_loss:3.5709 train_time:194503ms step_avg:154.12ms
step:1273/3125 train_loss:3.5293 train_time:194656ms step_avg:154.12ms
step:1274/3125 train_loss:3.5861 train_time:194809ms step_avg:154.12ms
step:1275/3125 train_loss:3.5358 train_time:194960ms step_avg:154.12ms
step:1276/3125 train_loss:3.6230 train_time:195113ms step_avg:154.12ms
step:1277/3125 train_loss:3.6503 train_time:195267ms step_avg:154.12ms
step:1278/3125 train_loss:3.6020 train_time:195420ms step_avg:154.12ms
step:1279/3125 train_loss:3.6053 train_time:195575ms step_avg:154.12ms
step:1280/3125 train_loss:3.4404 train_time:195728ms step_avg:154.12ms
step:1281/3125 train_loss:3.5515 train_time:195880ms step_avg:154.12ms
step:1282/3125 train_loss:3.6143 train_time:196033ms step_avg:154.11ms
step:1283/3125 train_loss:3.6463 train_time:196186ms step_avg:154.11ms
step:1284/3125 train_loss:3.5375 train_time:196338ms step_avg:154.11ms
step:1285/3125 train_loss:3.5556 train_time:196492ms step_avg:154.11ms
step:1286/3125 train_loss:3.5418 train_time:196645ms step_avg:154.11ms
step:1287/3125 train_loss:3.5225 train_time:196797ms step_avg:154.11ms
step:1288/3125 train_loss:3.6627 train_time:196950ms step_avg:154.11ms
step:1289/3125 train_loss:3.4930 train_time:197102ms step_avg:154.11ms
step:1290/3125 train_loss:3.5744 train_time:197256ms step_avg:154.11ms
step:1291/3125 train_loss:3.6476 train_time:197410ms step_avg:154.11ms
step:1292/3125 train_loss:3.5733 train_time:197562ms step_avg:154.10ms
step:1293/3125 train_loss:3.6727 train_time:197716ms step_avg:154.10ms
step:1294/3125 train_loss:3.6912 train_time:197869ms step_avg:154.10ms
step:1295/3125 train_loss:3.6691 train_time:198019ms step_avg:154.10ms
step:1296/3125 train_loss:3.4715 train_time:198176ms step_avg:154.10ms
step:1297/3125 train_loss:3.5361 train_time:198328ms step_avg:154.10ms
step:1298/3125 train_loss:3.4447 train_time:198480ms step_avg:154.10ms
step:1299/3125 train_loss:3.5111 train_time:198633ms step_avg:154.10ms
step:1300/3125 train_loss:3.5889 train_time:198785ms step_avg:154.10ms
step:1301/3125 train_loss:3.5890 train_time:198937ms step_avg:154.09ms
step:1302/3125 train_loss:3.5894 train_time:199092ms step_avg:154.10ms
step:1303/3125 train_loss:3.7548 train_time:199244ms step_avg:154.09ms
step:1304/3125 train_loss:3.5205 train_time:199396ms step_avg:154.09ms
step:1305/3125 train_loss:3.7205 train_time:199549ms step_avg:154.09ms
step:1306/3125 train_loss:3.4519 train_time:199700ms step_avg:154.09ms
step:1307/3125 train_loss:3.6489 train_time:199853ms step_avg:154.09ms
step:1308/3125 train_loss:3.6466 train_time:200007ms step_avg:154.09ms
step:1309/3125 train_loss:3.5049 train_time:200159ms step_avg:154.09ms
step:1310/3125 train_loss:3.4891 train_time:200312ms step_avg:154.09ms
step:1311/3125 train_loss:3.5205 train_time:200464ms step_avg:154.08ms
step:1312/3125 train_loss:3.4767 train_time:200616ms step_avg:154.08ms
step:1313/3125 train_loss:3.5953 train_time:200770ms step_avg:154.08ms
step:1314/3125 train_loss:3.5348 train_time:200922ms step_avg:154.08ms
step:1315/3125 train_loss:3.2574 train_time:201076ms step_avg:154.08ms
step:1316/3125 train_loss:3.4840 train_time:201229ms step_avg:154.08ms
step:1317/3125 train_loss:3.5662 train_time:201381ms step_avg:154.08ms
step:1318/3125 train_loss:3.5973 train_time:201535ms step_avg:154.08ms
step:1319/3125 train_loss:3.4800 train_time:201689ms step_avg:154.08ms
step:1320/3125 train_loss:3.6085 train_time:201842ms step_avg:154.08ms
step:1321/3125 train_loss:3.6646 train_time:201995ms step_avg:154.08ms
step:1322/3125 train_loss:3.5535 train_time:202148ms step_avg:154.08ms
step:1323/3125 train_loss:3.4960 train_time:202489ms step_avg:154.22ms
step:1324/3125 train_loss:3.5270 train_time:202644ms step_avg:154.22ms
step:1325/3125 train_loss:3.6258 train_time:202795ms step_avg:154.22ms
step:1326/3125 train_loss:3.6809 train_time:202946ms step_avg:154.21ms
step:1327/3125 train_loss:3.4334 train_time:203096ms step_avg:154.21ms
step:1328/3125 train_loss:3.3591 train_time:203248ms step_avg:154.21ms
step:1329/3125 train_loss:3.6666 train_time:203401ms step_avg:154.21ms
step:1330/3125 train_loss:3.5024 train_time:203694ms step_avg:154.31ms
step:1331/3125 train_loss:3.6329 train_time:203843ms step_avg:154.31ms
step:1332/3125 train_loss:3.5349 train_time:203994ms step_avg:154.31ms
step:1333/3125 train_loss:3.9555 train_time:204144ms step_avg:154.30ms
step:1334/3125 train_loss:3.6425 train_time:204295ms step_avg:154.30ms
step:1335/3125 train_loss:3.5548 train_time:204446ms step_avg:154.30ms
step:1336/3125 train_loss:3.4962 train_time:204600ms step_avg:154.30ms
step:1337/3125 train_loss:3.4855 train_time:204758ms step_avg:154.30ms
step:1338/3125 train_loss:3.7496 train_time:204913ms step_avg:154.30ms
step:1339/3125 train_loss:3.6897 train_time:205063ms step_avg:154.30ms
step:1340/3125 train_loss:3.5278 train_time:205215ms step_avg:154.30ms
step:1341/3125 train_loss:3.4866 train_time:205366ms step_avg:154.29ms
step:1342/3125 train_loss:3.7893 train_time:205517ms step_avg:154.29ms
step:1343/3125 train_loss:3.5569 train_time:205674ms step_avg:154.29ms
step:1344/3125 train_loss:3.5534 train_time:205828ms step_avg:154.29ms
step:1345/3125 train_loss:3.6130 train_time:205981ms step_avg:154.29ms
step:1346/3125 train_loss:3.5868 train_time:206134ms step_avg:154.29ms
step:1347/3125 train_loss:3.4895 train_time:206284ms step_avg:154.29ms
step:1348/3125 train_loss:3.4397 train_time:206435ms step_avg:154.29ms
step:1349/3125 train_loss:3.5380 train_time:206588ms step_avg:154.29ms
step:1350/3125 train_loss:3.4583 train_time:206742ms step_avg:154.28ms
step:1351/3125 train_loss:3.5897 train_time:206895ms step_avg:154.28ms
step:1352/3125 train_loss:3.4442 train_time:207048ms step_avg:154.28ms
step:1353/3125 train_loss:3.5049 train_time:207199ms step_avg:154.28ms
step:1354/3125 train_loss:3.6120 train_time:207352ms step_avg:154.28ms
step:1355/3125 train_loss:3.4497 train_time:207505ms step_avg:154.28ms
step:1356/3125 train_loss:3.3817 train_time:207658ms step_avg:154.28ms
step:1357/3125 train_loss:3.7199 train_time:207813ms step_avg:154.28ms
step:1358/3125 train_loss:3.6448 train_time:207965ms step_avg:154.28ms
step:1359/3125 train_loss:3.3740 train_time:208116ms step_avg:154.27ms
step:1360/3125 train_loss:3.6449 train_time:208270ms step_avg:154.27ms
step:1361/3125 train_loss:3.5363 train_time:208422ms step_avg:154.27ms
step:1362/3125 train_loss:3.3921 train_time:208576ms step_avg:154.27ms
step:1363/3125 train_loss:3.5786 train_time:208730ms step_avg:154.27ms
step:1364/3125 train_loss:3.4691 train_time:208882ms step_avg:154.27ms
step:1365/3125 train_loss:3.4851 train_time:209035ms step_avg:154.27ms
step:1366/3125 train_loss:3.5172 train_time:209188ms step_avg:154.27ms
step:1367/3125 train_loss:3.6180 train_time:209340ms step_avg:154.27ms
step:1368/3125 train_loss:3.6014 train_time:209494ms step_avg:154.27ms
step:1369/3125 train_loss:3.5514 train_time:209647ms step_avg:154.27ms
step:1370/3125 train_loss:3.4725 train_time:209801ms step_avg:154.27ms
step:1371/3125 train_loss:3.7894 train_time:209954ms step_avg:154.26ms
step:1372/3125 train_loss:3.5207 train_time:210108ms step_avg:154.26ms
step:1373/3125 train_loss:3.5622 train_time:210260ms step_avg:154.26ms
step:1374/3125 train_loss:3.5630 train_time:210414ms step_avg:154.26ms
step:1375/3125 train_loss:3.3568 train_time:210566ms step_avg:154.26ms
step:1375/3125 val_loss:3.5183 train_time:210615ms step_avg:154.30ms
step:1376/3125 train_loss:3.7586 train_time:210720ms step_avg:154.26ms
step:1377/3125 train_loss:3.5387 train_time:210874ms step_avg:154.26ms
step:1378/3125 train_loss:3.6788 train_time:211025ms step_avg:154.26ms
step:1379/3125 train_loss:3.7248 train_time:211176ms step_avg:154.26ms
step:1380/3125 train_loss:3.3792 train_time:211327ms step_avg:154.25ms
step:1381/3125 train_loss:3.5174 train_time:211477ms step_avg:154.25ms
step:1382/3125 train_loss:3.9818 train_time:211634ms step_avg:154.25ms
step:1383/3125 train_loss:3.4374 train_time:211789ms step_avg:154.25ms
step:1384/3125 train_loss:3.5924 train_time:211940ms step_avg:154.25ms
step:1385/3125 train_loss:3.6717 train_time:212094ms step_avg:154.25ms
step:1386/3125 train_loss:3.5839 train_time:212245ms step_avg:154.25ms
step:1387/3125 train_loss:3.5675 train_time:212395ms step_avg:154.25ms
step:1388/3125 train_loss:3.4040 train_time:212548ms step_avg:154.24ms
step:1389/3125 train_loss:3.5534 train_time:212702ms step_avg:154.24ms
step:1390/3125 train_loss:3.5197 train_time:212856ms step_avg:154.24ms
step:1391/3125 train_loss:3.7783 train_time:213009ms step_avg:154.24ms
step:1392/3125 train_loss:3.4939 train_time:213160ms step_avg:154.24ms
step:1393/3125 train_loss:3.4841 train_time:213313ms step_avg:154.24ms
step:1394/3125 train_loss:3.4513 train_time:213464ms step_avg:154.24ms
step:1395/3125 train_loss:3.7304 train_time:213616ms step_avg:154.24ms
step:1396/3125 train_loss:3.6246 train_time:213770ms step_avg:154.24ms
step:1397/3125 train_loss:3.6293 train_time:213924ms step_avg:154.23ms
step:1398/3125 train_loss:3.5009 train_time:214077ms step_avg:154.23ms
step:1399/3125 train_loss:3.4805 train_time:214230ms step_avg:154.23ms
step:1400/3125 train_loss:3.5339 train_time:214381ms step_avg:154.23ms
step:1401/3125 train_loss:3.5102 train_time:214535ms step_avg:154.23ms
step:1402/3125 train_loss:3.5375 train_time:214687ms step_avg:154.23ms
step:1403/3125 train_loss:3.5032 train_time:214839ms step_avg:154.23ms
step:1404/3125 train_loss:3.7308 train_time:214994ms step_avg:154.23ms
step:1405/3125 train_loss:3.4733 train_time:215148ms step_avg:154.23ms
step:1406/3125 train_loss:3.5212 train_time:215299ms step_avg:154.23ms
step:1407/3125 train_loss:3.5174 train_time:215453ms step_avg:154.23ms
step:1408/3125 train_loss:3.3856 train_time:215606ms step_avg:154.22ms
step:1409/3125 train_loss:3.5044 train_time:215757ms step_avg:154.22ms
step:1410/3125 train_loss:3.4879 train_time:215911ms step_avg:154.22ms
step:1411/3125 train_loss:3.4878 train_time:216063ms step_avg:154.22ms
step:1412/3125 train_loss:3.5734 train_time:216216ms step_avg:154.22ms
step:1413/3125 train_loss:3.5143 train_time:216369ms step_avg:154.22ms
step:1414/3125 train_loss:3.5540 train_time:216521ms step_avg:154.22ms
step:1415/3125 train_loss:3.5494 train_time:216674ms step_avg:154.22ms
step:1416/3125 train_loss:3.6283 train_time:216827ms step_avg:154.22ms
step:1417/3125 train_loss:3.4285 train_time:216979ms step_avg:154.21ms
step:1418/3125 train_loss:3.4896 train_time:217132ms step_avg:154.21ms
step:1419/3125 train_loss:3.5832 train_time:217286ms step_avg:154.21ms
step:1420/3125 train_loss:3.6043 train_time:217437ms step_avg:154.21ms
step:1421/3125 train_loss:3.5956 train_time:217590ms step_avg:154.21ms
step:1422/3125 train_loss:3.5775 train_time:217743ms step_avg:154.21ms
step:1423/3125 train_loss:3.5594 train_time:217896ms step_avg:154.21ms
step:1424/3125 train_loss:3.5424 train_time:218049ms step_avg:154.21ms
step:1425/3125 train_loss:3.5465 train_time:218200ms step_avg:154.21ms
step:1426/3125 train_loss:3.4212 train_time:218354ms step_avg:154.20ms
step:1427/3125 train_loss:3.5288 train_time:218507ms step_avg:154.20ms
step:1428/3125 train_loss:3.4739 train_time:218658ms step_avg:154.20ms
step:1429/3125 train_loss:3.5877 train_time:218812ms step_avg:154.20ms
step:1430/3125 train_loss:3.5448 train_time:218965ms step_avg:154.20ms
step:1431/3125 train_loss:3.4810 train_time:219116ms step_avg:154.20ms
step:1432/3125 train_loss:3.5234 train_time:219270ms step_avg:154.20ms
step:1433/3125 train_loss:3.5581 train_time:219422ms step_avg:154.20ms
step:1434/3125 train_loss:3.4222 train_time:219576ms step_avg:154.20ms
step:1435/3125 train_loss:3.5324 train_time:219729ms step_avg:154.20ms
step:1436/3125 train_loss:3.3552 train_time:219880ms step_avg:154.19ms
step:1437/3125 train_loss:3.4208 train_time:220034ms step_avg:154.19ms
step:1438/3125 train_loss:3.6175 train_time:220186ms step_avg:154.19ms
step:1439/3125 train_loss:3.5769 train_time:220338ms step_avg:154.19ms
step:1440/3125 train_loss:3.5229 train_time:220492ms step_avg:154.19ms
step:1441/3125 train_loss:3.3806 train_time:220644ms step_avg:154.19ms
step:1442/3125 train_loss:3.5431 train_time:220796ms step_avg:154.19ms
step:1443/3125 train_loss:3.6111 train_time:220950ms step_avg:154.19ms
step:1444/3125 train_loss:3.6899 train_time:221104ms step_avg:154.19ms
step:1445/3125 train_loss:3.6491 train_time:221257ms step_avg:154.19ms
step:1446/3125 train_loss:3.5394 train_time:221412ms step_avg:154.19ms
step:1447/3125 train_loss:3.4109 train_time:221562ms step_avg:154.18ms
step:1448/3125 train_loss:3.4922 train_time:221716ms step_avg:154.18ms
step:1449/3125 train_loss:3.5047 train_time:221868ms step_avg:154.18ms
step:1450/3125 train_loss:3.6236 train_time:222019ms step_avg:154.18ms
step:1451/3125 train_loss:3.6066 train_time:222174ms step_avg:154.18ms
step:1452/3125 train_loss:3.4272 train_time:222327ms step_avg:154.18ms
step:1453/3125 train_loss:3.5430 train_time:222480ms step_avg:154.18ms
step:1454/3125 train_loss:3.4618 train_time:222634ms step_avg:154.18ms
step:1455/3125 train_loss:3.4882 train_time:222788ms step_avg:154.18ms
step:1456/3125 train_loss:3.5410 train_time:222940ms step_avg:154.18ms
step:1457/3125 train_loss:3.4744 train_time:223093ms step_avg:154.18ms
step:1458/3125 train_loss:3.3660 train_time:223246ms step_avg:154.18ms
step:1459/3125 train_loss:3.6099 train_time:223397ms step_avg:154.17ms
step:1460/3125 train_loss:3.4715 train_time:223551ms step_avg:154.17ms
step:1461/3125 train_loss:3.5273 train_time:223701ms step_avg:154.17ms
step:1462/3125 train_loss:3.6546 train_time:223855ms step_avg:154.17ms
step:1463/3125 train_loss:3.4760 train_time:224009ms step_avg:154.17ms
step:1464/3125 train_loss:3.6690 train_time:224161ms step_avg:154.17ms
step:1465/3125 train_loss:3.5593 train_time:224315ms step_avg:154.17ms
step:1466/3125 train_loss:3.5670 train_time:224468ms step_avg:154.17ms
step:1467/3125 train_loss:3.4866 train_time:224620ms step_avg:154.17ms
step:1468/3125 train_loss:3.6350 train_time:224774ms step_avg:154.17ms
step:1469/3125 train_loss:3.5021 train_time:224927ms step_avg:154.17ms
step:1470/3125 train_loss:3.4821 train_time:225079ms step_avg:154.16ms
step:1471/3125 train_loss:3.5290 train_time:225233ms step_avg:154.16ms
step:1472/3125 train_loss:3.4536 train_time:225385ms step_avg:154.16ms
step:1473/3125 train_loss:3.5412 train_time:225537ms step_avg:154.16ms
step:1474/3125 train_loss:3.6381 train_time:225690ms step_avg:154.16ms
step:1475/3125 train_loss:3.5122 train_time:225843ms step_avg:154.16ms
step:1476/3125 train_loss:3.3495 train_time:225996ms step_avg:154.16ms
step:1477/3125 train_loss:3.4656 train_time:226148ms step_avg:154.16ms
step:1478/3125 train_loss:3.4425 train_time:226301ms step_avg:154.16ms
step:1479/3125 train_loss:3.5165 train_time:226454ms step_avg:154.16ms
step:1480/3125 train_loss:3.6034 train_time:226608ms step_avg:154.16ms
step:1481/3125 train_loss:3.4776 train_time:226760ms step_avg:154.15ms
step:1482/3125 train_loss:3.6602 train_time:226913ms step_avg:154.15ms
step:1483/3125 train_loss:3.5801 train_time:227066ms step_avg:154.15ms
step:1484/3125 train_loss:3.4814 train_time:227218ms step_avg:154.15ms
step:1485/3125 train_loss:3.4731 train_time:227372ms step_avg:154.15ms
step:1486/3125 train_loss:3.4728 train_time:227525ms step_avg:154.15ms
step:1487/3125 train_loss:3.4470 train_time:227678ms step_avg:154.15ms
step:1488/3125 train_loss:3.5390 train_time:227832ms step_avg:154.15ms
step:1489/3125 train_loss:3.4397 train_time:227984ms step_avg:154.15ms
step:1490/3125 train_loss:3.5319 train_time:228136ms step_avg:154.15ms
step:1491/3125 train_loss:3.4726 train_time:228288ms step_avg:154.14ms
step:1492/3125 train_loss:3.3870 train_time:228440ms step_avg:154.14ms
step:1493/3125 train_loss:3.4703 train_time:228594ms step_avg:154.14ms
step:1494/3125 train_loss:3.6395 train_time:228749ms step_avg:154.14ms
step:1495/3125 train_loss:3.4942 train_time:228900ms step_avg:154.14ms
step:1496/3125 train_loss:3.2556 train_time:229055ms step_avg:154.14ms
step:1497/3125 train_loss:3.5578 train_time:229208ms step_avg:154.14ms
step:1498/3125 train_loss:3.5157 train_time:229359ms step_avg:154.14ms
step:1499/3125 train_loss:3.5689 train_time:229512ms step_avg:154.14ms
step:1500/3125 train_loss:3.5212 train_time:229663ms step_avg:154.14ms
step:1500/3125 val_loss:3.5052 train_time:229713ms step_avg:154.17ms
step:1501/3125 train_loss:3.5012 train_time:229821ms step_avg:154.14ms
step:1502/3125 train_loss:3.2957 train_time:229977ms step_avg:154.14ms
step:1503/3125 train_loss:3.5698 train_time:230129ms step_avg:154.14ms
step:1504/3125 train_loss:3.4461 train_time:230279ms step_avg:154.14ms
step:1505/3125 train_loss:3.4541 train_time:230430ms step_avg:154.13ms
step:1506/3125 train_loss:3.4071 train_time:230580ms step_avg:154.13ms
step:1507/3125 train_loss:3.4966 train_time:230736ms step_avg:154.13ms
step:1508/3125 train_loss:3.4167 train_time:230891ms step_avg:154.13ms
step:1509/3125 train_loss:3.7289 train_time:231043ms step_avg:154.13ms
step:1510/3125 train_loss:3.4700 train_time:231195ms step_avg:154.13ms
step:1511/3125 train_loss:3.4712 train_time:231347ms step_avg:154.13ms
step:1512/3125 train_loss:3.5976 train_time:231637ms step_avg:154.22ms
step:1513/3125 train_loss:3.6322 train_time:231794ms step_avg:154.22ms
step:1514/3125 train_loss:3.4869 train_time:231946ms step_avg:154.22ms
step:1515/3125 train_loss:3.3281 train_time:232096ms step_avg:154.22ms
step:1516/3125 train_loss:3.4483 train_time:232247ms step_avg:154.21ms
step:1517/3125 train_loss:3.4604 train_time:232398ms step_avg:154.21ms
step:1518/3125 train_loss:3.5303 train_time:232553ms step_avg:154.21ms
step:1519/3125 train_loss:3.4245 train_time:232710ms step_avg:154.21ms
step:1520/3125 train_loss:3.7034 train_time:232997ms step_avg:154.30ms
step:1521/3125 train_loss:3.3715 train_time:233149ms step_avg:154.30ms
step:1522/3125 train_loss:3.4321 train_time:233300ms step_avg:154.30ms
step:1523/3125 train_loss:3.5825 train_time:233452ms step_avg:154.30ms
step:1524/3125 train_loss:3.4417 train_time:233601ms step_avg:154.29ms
step:1525/3125 train_loss:3.5389 train_time:233754ms step_avg:154.29ms
step:1526/3125 train_loss:3.5255 train_time:233910ms step_avg:154.29ms
step:1527/3125 train_loss:3.4914 train_time:234066ms step_avg:154.30ms
step:1528/3125 train_loss:3.4949 train_time:234219ms step_avg:154.29ms
step:1529/3125 train_loss:3.6439 train_time:234372ms step_avg:154.29ms
step:1530/3125 train_loss:3.6135 train_time:234521ms step_avg:154.29ms
step:1531/3125 train_loss:3.4450 train_time:234672ms step_avg:154.29ms
step:1532/3125 train_loss:3.4062 train_time:234824ms step_avg:154.29ms
step:1533/3125 train_loss:3.5531 train_time:234980ms step_avg:154.29ms
step:1534/3125 train_loss:3.5098 train_time:235134ms step_avg:154.29ms
step:1535/3125 train_loss:3.4946 train_time:235287ms step_avg:154.29ms
step:1536/3125 train_loss:3.5027 train_time:235439ms step_avg:154.28ms
step:1537/3125 train_loss:3.4353 train_time:235591ms step_avg:154.28ms
step:1538/3125 train_loss:3.4865 train_time:235742ms step_avg:154.28ms
step:1539/3125 train_loss:3.6608 train_time:235896ms step_avg:154.28ms
step:1540/3125 train_loss:3.5984 train_time:236050ms step_avg:154.28ms
step:1541/3125 train_loss:3.5037 train_time:236206ms step_avg:154.28ms
step:1542/3125 train_loss:3.4577 train_time:236359ms step_avg:154.28ms
step:1543/3125 train_loss:3.4595 train_time:236512ms step_avg:154.28ms
step:1544/3125 train_loss:3.4162 train_time:236662ms step_avg:154.28ms
step:1545/3125 train_loss:3.5057 train_time:236816ms step_avg:154.28ms
step:1546/3125 train_loss:3.4764 train_time:236968ms step_avg:154.28ms
step:1547/3125 train_loss:3.4583 train_time:237122ms step_avg:154.28ms
step:1548/3125 train_loss:3.4185 train_time:237276ms step_avg:154.28ms
step:1549/3125 train_loss:3.4531 train_time:237429ms step_avg:154.27ms
step:1550/3125 train_loss:3.5696 train_time:237581ms step_avg:154.27ms
step:1551/3125 train_loss:3.4929 train_time:237734ms step_avg:154.27ms
step:1552/3125 train_loss:3.4295 train_time:237889ms step_avg:154.27ms
step:1553/3125 train_loss:3.4290 train_time:238040ms step_avg:154.27ms
step:1554/3125 train_loss:3.4212 train_time:238193ms step_avg:154.27ms
step:1555/3125 train_loss:3.5424 train_time:238345ms step_avg:154.27ms
step:1556/3125 train_loss:3.5523 train_time:238498ms step_avg:154.27ms
step:1557/3125 train_loss:3.4838 train_time:238651ms step_avg:154.27ms
step:1558/3125 train_loss:3.5376 train_time:238803ms step_avg:154.27ms
step:1559/3125 train_loss:3.4566 train_time:238958ms step_avg:154.27ms
step:1560/3125 train_loss:3.3708 train_time:239110ms step_avg:154.26ms
step:1561/3125 train_loss:3.6189 train_time:239262ms step_avg:154.26ms
step:1562/3125 train_loss:3.4387 train_time:239415ms step_avg:154.26ms
step:1563/3125 train_loss:3.4236 train_time:239567ms step_avg:154.26ms
step:1564/3125 train_loss:3.5412 train_time:239720ms step_avg:154.26ms
step:1565/3125 train_loss:3.3759 train_time:239874ms step_avg:154.26ms
step:1566/3125 train_loss:3.4248 train_time:240026ms step_avg:154.26ms
step:1567/3125 train_loss:3.5786 train_time:240177ms step_avg:154.26ms
step:1568/3125 train_loss:3.4527 train_time:240330ms step_avg:154.26ms
step:1569/3125 train_loss:3.4437 train_time:240482ms step_avg:154.25ms
step:1570/3125 train_loss:3.5366 train_time:240637ms step_avg:154.25ms
step:1571/3125 train_loss:3.5534 train_time:240789ms step_avg:154.25ms
step:1572/3125 train_loss:3.3751 train_time:240940ms step_avg:154.25ms
step:1573/3125 train_loss:3.4071 train_time:241092ms step_avg:154.25ms
step:1574/3125 train_loss:3.5208 train_time:241245ms step_avg:154.25ms
step:1575/3125 train_loss:3.3963 train_time:241398ms step_avg:154.25ms
step:1576/3125 train_loss:3.5401 train_time:241553ms step_avg:154.25ms
step:1577/3125 train_loss:3.4477 train_time:241706ms step_avg:154.25ms
step:1578/3125 train_loss:3.4991 train_time:241858ms step_avg:154.25ms
step:1579/3125 train_loss:3.4742 train_time:242012ms step_avg:154.25ms
step:1580/3125 train_loss:3.4406 train_time:242163ms step_avg:154.24ms
step:1581/3125 train_loss:3.4167 train_time:242317ms step_avg:154.24ms
step:1582/3125 train_loss:3.6600 train_time:242471ms step_avg:154.24ms
step:1583/3125 train_loss:3.4339 train_time:242624ms step_avg:154.24ms
step:1584/3125 train_loss:3.5883 train_time:242777ms step_avg:154.24ms
step:1585/3125 train_loss:3.4168 train_time:242930ms step_avg:154.24ms
step:1586/3125 train_loss:3.5761 train_time:243082ms step_avg:154.24ms
step:1587/3125 train_loss:3.3583 train_time:243234ms step_avg:154.24ms
step:1588/3125 train_loss:3.5545 train_time:243387ms step_avg:154.24ms
step:1589/3125 train_loss:3.4687 train_time:243540ms step_avg:154.24ms
step:1590/3125 train_loss:3.6166 train_time:243693ms step_avg:154.24ms
step:1591/3125 train_loss:3.4416 train_time:243845ms step_avg:154.23ms
step:1592/3125 train_loss:3.4610 train_time:243998ms step_avg:154.23ms
step:1593/3125 train_loss:3.5288 train_time:244152ms step_avg:154.23ms
step:1594/3125 train_loss:3.4994 train_time:244303ms step_avg:154.23ms
step:1595/3125 train_loss:3.4746 train_time:244455ms step_avg:154.23ms
step:1596/3125 train_loss:3.6169 train_time:244607ms step_avg:154.23ms
step:1597/3125 train_loss:3.3454 train_time:244759ms step_avg:154.23ms
step:1598/3125 train_loss:3.5129 train_time:244913ms step_avg:154.23ms
step:1599/3125 train_loss:3.5536 train_time:245064ms step_avg:154.23ms
step:1600/3125 train_loss:3.5956 train_time:245218ms step_avg:154.23ms
step:1601/3125 train_loss:3.4505 train_time:245371ms step_avg:154.22ms
step:1602/3125 train_loss:3.7409 train_time:245523ms step_avg:154.22ms
step:1603/3125 train_loss:3.6250 train_time:245679ms step_avg:154.22ms
step:1604/3125 train_loss:3.4138 train_time:245833ms step_avg:154.22ms
step:1605/3125 train_loss:3.4437 train_time:245984ms step_avg:154.22ms
step:1606/3125 train_loss:3.3298 train_time:246137ms step_avg:154.22ms
step:1607/3125 train_loss:3.6617 train_time:246291ms step_avg:154.22ms
step:1608/3125 train_loss:3.4601 train_time:246443ms step_avg:154.22ms
step:1609/3125 train_loss:3.4834 train_time:246595ms step_avg:154.22ms
step:1610/3125 train_loss:3.4325 train_time:246749ms step_avg:154.22ms
step:1611/3125 train_loss:4.0423 train_time:246901ms step_avg:154.22ms
step:1612/3125 train_loss:3.6645 train_time:247056ms step_avg:154.22ms
step:1613/3125 train_loss:3.5741 train_time:247209ms step_avg:154.22ms
step:1614/3125 train_loss:3.4446 train_time:247360ms step_avg:154.21ms
step:1615/3125 train_loss:3.4875 train_time:247514ms step_avg:154.21ms
step:1616/3125 train_loss:3.4810 train_time:247667ms step_avg:154.21ms
step:1617/3125 train_loss:3.4471 train_time:247821ms step_avg:154.21ms
step:1618/3125 train_loss:3.5252 train_time:247974ms step_avg:154.21ms
step:1619/3125 train_loss:3.4740 train_time:248126ms step_avg:154.21ms
step:1620/3125 train_loss:3.3622 train_time:248278ms step_avg:154.21ms
step:1621/3125 train_loss:3.6320 train_time:248430ms step_avg:154.21ms
step:1622/3125 train_loss:3.5516 train_time:248581ms step_avg:154.21ms
step:1623/3125 train_loss:3.3338 train_time:248735ms step_avg:154.21ms
step:1624/3125 train_loss:3.4535 train_time:248888ms step_avg:154.21ms
step:1625/3125 train_loss:3.4134 train_time:249040ms step_avg:154.20ms
step:1625/3125 val_loss:3.4839 train_time:249091ms step_avg:154.24ms
step:1626/3125 train_loss:3.4941 train_time:249201ms step_avg:154.21ms
step:1627/3125 train_loss:3.4504 train_time:249354ms step_avg:154.21ms
step:1628/3125 train_loss:3.4143 train_time:249503ms step_avg:154.20ms
step:1629/3125 train_loss:3.5229 train_time:249655ms step_avg:154.20ms
step:1630/3125 train_loss:3.4202 train_time:249804ms step_avg:154.20ms
step:1631/3125 train_loss:3.4781 train_time:249957ms step_avg:154.20ms
step:1632/3125 train_loss:3.3658 train_time:250113ms step_avg:154.20ms
step:1633/3125 train_loss:3.3300 train_time:250269ms step_avg:154.20ms
step:1634/3125 train_loss:3.4866 train_time:250422ms step_avg:154.20ms
step:1635/3125 train_loss:3.4757 train_time:250575ms step_avg:154.20ms
step:1636/3125 train_loss:3.4177 train_time:250728ms step_avg:154.20ms
step:1637/3125 train_loss:3.5046 train_time:250878ms step_avg:154.20ms
step:1638/3125 train_loss:3.5484 train_time:251029ms step_avg:154.19ms
step:1639/3125 train_loss:3.5873 train_time:251183ms step_avg:154.19ms
step:1640/3125 train_loss:3.7456 train_time:251338ms step_avg:154.20ms
step:1641/3125 train_loss:3.5680 train_time:251491ms step_avg:154.19ms
step:1642/3125 train_loss:3.4854 train_time:251644ms step_avg:154.19ms
step:1643/3125 train_loss:3.5715 train_time:251797ms step_avg:154.19ms
step:1644/3125 train_loss:3.4691 train_time:251947ms step_avg:154.19ms
step:1645/3125 train_loss:3.4840 train_time:252101ms step_avg:154.19ms
step:1646/3125 train_loss:3.4823 train_time:252255ms step_avg:154.19ms
step:1647/3125 train_loss:3.2509 train_time:252407ms step_avg:154.19ms
step:1648/3125 train_loss:3.5196 train_time:252561ms step_avg:154.19ms
step:1649/3125 train_loss:3.3887 train_time:252714ms step_avg:154.19ms
step:1650/3125 train_loss:3.4644 train_time:252865ms step_avg:154.19ms
step:1651/3125 train_loss:3.4358 train_time:253018ms step_avg:154.19ms
step:1652/3125 train_loss:3.5130 train_time:253171ms step_avg:154.18ms
step:1653/3125 train_loss:3.4426 train_time:253323ms step_avg:154.18ms
step:1654/3125 train_loss:3.5641 train_time:253478ms step_avg:154.18ms
step:1655/3125 train_loss:3.5526 train_time:253630ms step_avg:154.18ms
step:1656/3125 train_loss:3.3759 train_time:253781ms step_avg:154.18ms
step:1657/3125 train_loss:3.5468 train_time:253934ms step_avg:154.18ms
step:1658/3125 train_loss:3.4290 train_time:254085ms step_avg:154.18ms
step:1659/3125 train_loss:3.4102 train_time:254238ms step_avg:154.18ms
step:1660/3125 train_loss:3.5022 train_time:254392ms step_avg:154.18ms
step:1661/3125 train_loss:3.5196 train_time:254545ms step_avg:154.18ms
step:1662/3125 train_loss:3.4299 train_time:254698ms step_avg:154.18ms
step:1663/3125 train_loss:3.5244 train_time:254849ms step_avg:154.17ms
step:1664/3125 train_loss:3.5277 train_time:255001ms step_avg:154.17ms
step:1665/3125 train_loss:3.5613 train_time:255155ms step_avg:154.17ms
step:1666/3125 train_loss:3.5321 train_time:255306ms step_avg:154.17ms
step:1667/3125 train_loss:3.6777 train_time:255460ms step_avg:154.17ms
step:1668/3125 train_loss:3.3875 train_time:255614ms step_avg:154.17ms
step:1669/3125 train_loss:3.4658 train_time:255767ms step_avg:154.17ms
step:1670/3125 train_loss:3.3886 train_time:255922ms step_avg:154.17ms
step:1671/3125 train_loss:3.3983 train_time:256073ms step_avg:154.17ms
step:1672/3125 train_loss:3.5493 train_time:256226ms step_avg:154.17ms
step:1673/3125 train_loss:3.7358 train_time:256379ms step_avg:154.17ms
step:1674/3125 train_loss:3.4484 train_time:256531ms step_avg:154.17ms
step:1675/3125 train_loss:3.4401 train_time:256684ms step_avg:154.16ms
step:1676/3125 train_loss:3.3284 train_time:256838ms step_avg:154.16ms
step:1677/3125 train_loss:3.5327 train_time:256990ms step_avg:154.16ms
step:1678/3125 train_loss:3.4439 train_time:257143ms step_avg:154.16ms
step:1679/3125 train_loss:3.4757 train_time:257296ms step_avg:154.16ms
step:1680/3125 train_loss:3.4609 train_time:257448ms step_avg:154.16ms
step:1681/3125 train_loss:3.2730 train_time:257601ms step_avg:154.16ms
step:1682/3125 train_loss:3.4659 train_time:257755ms step_avg:154.16ms
step:1683/3125 train_loss:3.4810 train_time:257907ms step_avg:154.16ms
step:1684/3125 train_loss:3.5137 train_time:258062ms step_avg:154.16ms
step:1685/3125 train_loss:3.5147 train_time:258215ms step_avg:154.16ms
step:1686/3125 train_loss:3.4240 train_time:258367ms step_avg:154.16ms
step:1687/3125 train_loss:3.5356 train_time:258520ms step_avg:154.16ms
step:1688/3125 train_loss:3.4153 train_time:258673ms step_avg:154.16ms
step:1689/3125 train_loss:3.4987 train_time:258826ms step_avg:154.15ms
step:1690/3125 train_loss:3.4121 train_time:258980ms step_avg:154.15ms
step:1691/3125 train_loss:3.3140 train_time:259133ms step_avg:154.15ms
step:1692/3125 train_loss:3.4695 train_time:259285ms step_avg:154.15ms
step:1693/3125 train_loss:3.4608 train_time:259438ms step_avg:154.15ms
step:1694/3125 train_loss:3.3808 train_time:259591ms step_avg:154.15ms
step:1695/3125 train_loss:3.8191 train_time:259744ms step_avg:154.15ms
step:1696/3125 train_loss:3.5367 train_time:259899ms step_avg:154.15ms
step:1697/3125 train_loss:3.5210 train_time:260051ms step_avg:154.15ms
step:1698/3125 train_loss:3.4227 train_time:260202ms step_avg:154.15ms
step:1699/3125 train_loss:3.3360 train_time:260355ms step_avg:154.15ms
step:1700/3125 train_loss:3.4225 train_time:260507ms step_avg:154.15ms
step:1701/3125 train_loss:3.4192 train_time:260800ms step_avg:154.23ms
step:1702/3125 train_loss:3.4983 train_time:260959ms step_avg:154.23ms
step:1703/3125 train_loss:3.4198 train_time:261109ms step_avg:154.23ms
step:1704/3125 train_loss:3.6241 train_time:261260ms step_avg:154.23ms
step:1705/3125 train_loss:3.3826 train_time:261410ms step_avg:154.22ms
step:1706/3125 train_loss:3.6114 train_time:261561ms step_avg:154.22ms
step:1707/3125 train_loss:3.4494 train_time:261716ms step_avg:154.22ms
step:1708/3125 train_loss:3.2423 train_time:261874ms step_avg:154.23ms
step:1709/3125 train_loss:3.5653 train_time:262027ms step_avg:154.22ms
step:1710/3125 train_loss:3.4748 train_time:262315ms step_avg:154.30ms
step:1711/3125 train_loss:3.4557 train_time:262464ms step_avg:154.30ms
step:1712/3125 train_loss:3.4633 train_time:262615ms step_avg:154.30ms
step:1713/3125 train_loss:3.4953 train_time:262765ms step_avg:154.30ms
step:1714/3125 train_loss:3.5225 train_time:262916ms step_avg:154.29ms
step:1715/3125 train_loss:3.4434 train_time:263066ms step_avg:154.29ms
step:1716/3125 train_loss:3.4536 train_time:263225ms step_avg:154.29ms
step:1717/3125 train_loss:3.2871 train_time:263382ms step_avg:154.30ms
step:1718/3125 train_loss:3.4287 train_time:263534ms step_avg:154.29ms
step:1719/3125 train_loss:3.4476 train_time:263686ms step_avg:154.29ms
step:1720/3125 train_loss:3.3958 train_time:263838ms step_avg:154.29ms
step:1721/3125 train_loss:3.5502 train_time:263989ms step_avg:154.29ms
step:1722/3125 train_loss:3.3532 train_time:264142ms step_avg:154.29ms
step:1723/3125 train_loss:3.4973 train_time:264299ms step_avg:154.29ms
step:1724/3125 train_loss:3.5844 train_time:264451ms step_avg:154.29ms
step:1725/3125 train_loss:3.4340 train_time:264603ms step_avg:154.29ms
step:1726/3125 train_loss:3.6601 train_time:264757ms step_avg:154.29ms
step:1727/3125 train_loss:3.4486 train_time:264906ms step_avg:154.28ms
step:1728/3125 train_loss:3.5104 train_time:265058ms step_avg:154.28ms
step:1729/3125 train_loss:3.4757 train_time:265210ms step_avg:154.28ms
step:1730/3125 train_loss:3.4861 train_time:265365ms step_avg:154.28ms
step:1731/3125 train_loss:3.8470 train_time:265520ms step_avg:154.28ms
step:1732/3125 train_loss:3.4737 train_time:265674ms step_avg:154.28ms
step:1733/3125 train_loss:3.5998 train_time:265826ms step_avg:154.28ms
step:1734/3125 train_loss:3.3873 train_time:265979ms step_avg:154.28ms
step:1735/3125 train_loss:3.4213 train_time:266131ms step_avg:154.28ms
step:1736/3125 train_loss:3.4466 train_time:266284ms step_avg:154.28ms
step:1737/3125 train_loss:3.4276 train_time:266437ms step_avg:154.28ms
step:1738/3125 train_loss:3.5650 train_time:266590ms step_avg:154.28ms
step:1739/3125 train_loss:3.4264 train_time:266743ms step_avg:154.28ms
step:1740/3125 train_loss:3.4881 train_time:266896ms step_avg:154.28ms
step:1741/3125 train_loss:3.5498 train_time:267047ms step_avg:154.27ms
step:1742/3125 train_loss:3.3473 train_time:267200ms step_avg:154.27ms
step:1743/3125 train_loss:3.2370 train_time:267354ms step_avg:154.27ms
step:1744/3125 train_loss:3.1988 train_time:267505ms step_avg:154.27ms
step:1745/3125 train_loss:3.4668 train_time:267661ms step_avg:154.27ms
step:1746/3125 train_loss:3.4775 train_time:267814ms step_avg:154.27ms
step:1747/3125 train_loss:3.4510 train_time:267965ms step_avg:154.27ms
step:1748/3125 train_loss:3.4658 train_time:268119ms step_avg:154.27ms
step:1749/3125 train_loss:3.7038 train_time:268270ms step_avg:154.27ms
step:1750/3125 train_loss:3.4073 train_time:268423ms step_avg:154.27ms
step:1750/3125 val_loss:3.4638 train_time:268475ms step_avg:154.30ms
step:1751/3125 train_loss:3.4807 train_time:268582ms step_avg:154.27ms
step:1752/3125 train_loss:3.4715 train_time:268736ms step_avg:154.27ms
step:1753/3125 train_loss:3.1119 train_time:268887ms step_avg:154.27ms
step:1754/3125 train_loss:3.2321 train_time:269037ms step_avg:154.26ms
step:1755/3125 train_loss:3.3159 train_time:269188ms step_avg:154.26ms
step:1756/3125 train_loss:3.2776 train_time:269338ms step_avg:154.26ms
step:1757/3125 train_loss:3.4372 train_time:269494ms step_avg:154.26ms
step:1758/3125 train_loss:3.3231 train_time:269651ms step_avg:154.26ms
step:1759/3125 train_loss:3.3119 train_time:269805ms step_avg:154.26ms
step:1760/3125 train_loss:4.3771 train_time:269957ms step_avg:154.26ms
step:1761/3125 train_loss:3.4498 train_time:270109ms step_avg:154.26ms
step:1762/3125 train_loss:3.4867 train_time:270260ms step_avg:154.26ms
step:1763/3125 train_loss:3.4788 train_time:270412ms step_avg:154.26ms
step:1764/3125 train_loss:3.5011 train_time:270569ms step_avg:154.26ms
step:1765/3125 train_loss:3.4240 train_time:270725ms step_avg:154.26ms
step:1766/3125 train_loss:3.4570 train_time:270879ms step_avg:154.26ms
step:1767/3125 train_loss:3.4665 train_time:271031ms step_avg:154.26ms
step:1768/3125 train_loss:3.7190 train_time:271181ms step_avg:154.26ms
step:1769/3125 train_loss:3.4494 train_time:271335ms step_avg:154.26ms
step:1770/3125 train_loss:3.5099 train_time:271489ms step_avg:154.25ms
step:1771/3125 train_loss:3.9164 train_time:271641ms step_avg:154.25ms
step:1772/3125 train_loss:3.4461 train_time:271796ms step_avg:154.25ms
step:1773/3125 train_loss:3.3578 train_time:271949ms step_avg:154.25ms
step:1774/3125 train_loss:3.6045 train_time:272101ms step_avg:154.25ms
step:1775/3125 train_loss:3.3629 train_time:272254ms step_avg:154.25ms
step:1776/3125 train_loss:3.5136 train_time:272406ms step_avg:154.25ms
step:1777/3125 train_loss:3.5620 train_time:272559ms step_avg:154.25ms
step:1778/3125 train_loss:3.6533 train_time:272713ms step_avg:154.25ms
step:1779/3125 train_loss:3.4557 train_time:272866ms step_avg:154.25ms
step:1780/3125 train_loss:3.7581 train_time:273020ms step_avg:154.25ms
step:1781/3125 train_loss:3.5281 train_time:273173ms step_avg:154.25ms
step:1782/3125 train_loss:3.5402 train_time:273325ms step_avg:154.25ms
step:1783/3125 train_loss:3.3305 train_time:273478ms step_avg:154.25ms
step:1784/3125 train_loss:3.4158 train_time:273631ms step_avg:154.25ms
step:1785/3125 train_loss:3.5596 train_time:273783ms step_avg:154.24ms
step:1786/3125 train_loss:3.4455 train_time:273938ms step_avg:154.24ms
step:1787/3125 train_loss:3.6122 train_time:274091ms step_avg:154.24ms
step:1788/3125 train_loss:3.4240 train_time:274244ms step_avg:154.24ms
step:1789/3125 train_loss:3.4032 train_time:274396ms step_avg:154.24ms
step:1790/3125 train_loss:3.5445 train_time:274548ms step_avg:154.24ms
step:1791/3125 train_loss:3.4520 train_time:274700ms step_avg:154.24ms
step:1792/3125 train_loss:3.3967 train_time:274855ms step_avg:154.24ms
step:1793/3125 train_loss:3.5331 train_time:275008ms step_avg:154.24ms
step:1794/3125 train_loss:3.4048 train_time:275162ms step_avg:154.24ms
step:1795/3125 train_loss:3.3929 train_time:275315ms step_avg:154.24ms
step:1796/3125 train_loss:3.4514 train_time:275468ms step_avg:154.24ms
step:1797/3125 train_loss:3.4131 train_time:275619ms step_avg:154.24ms
step:1798/3125 train_loss:3.5522 train_time:275771ms step_avg:154.23ms
step:1799/3125 train_loss:3.4362 train_time:275924ms step_avg:154.23ms
step:1800/3125 train_loss:3.5192 train_time:276080ms step_avg:154.23ms
step:1801/3125 train_loss:3.4460 train_time:276233ms step_avg:154.23ms
step:1802/3125 train_loss:3.4858 train_time:276385ms step_avg:154.23ms
step:1803/3125 train_loss:3.3953 train_time:276538ms step_avg:154.23ms
step:1804/3125 train_loss:3.3242 train_time:276692ms step_avg:154.23ms
step:1805/3125 train_loss:3.5689 train_time:276843ms step_avg:154.23ms
step:1806/3125 train_loss:3.4961 train_time:276998ms step_avg:154.23ms
step:1807/3125 train_loss:3.5064 train_time:277150ms step_avg:154.23ms
step:1808/3125 train_loss:3.6118 train_time:277303ms step_avg:154.23ms
step:1809/3125 train_loss:3.4112 train_time:277457ms step_avg:154.23ms
step:1810/3125 train_loss:3.5116 train_time:277609ms step_avg:154.23ms
step:1811/3125 train_loss:3.6427 train_time:277762ms step_avg:154.23ms
step:1812/3125 train_loss:3.5007 train_time:277917ms step_avg:154.23ms
step:1813/3125 train_loss:3.5434 train_time:278070ms step_avg:154.23ms
step:1814/3125 train_loss:3.5653 train_time:278221ms step_avg:154.22ms
step:1815/3125 train_loss:3.5133 train_time:278375ms step_avg:154.22ms
step:1816/3125 train_loss:3.5439 train_time:278528ms step_avg:154.22ms
step:1817/3125 train_loss:3.4993 train_time:278681ms step_avg:154.22ms
step:1818/3125 train_loss:3.5545 train_time:278836ms step_avg:154.22ms
step:1819/3125 train_loss:3.4759 train_time:278987ms step_avg:154.22ms
step:1820/3125 train_loss:3.4693 train_time:279140ms step_avg:154.22ms
step:1821/3125 train_loss:3.4235 train_time:279294ms step_avg:154.22ms
step:1822/3125 train_loss:3.3987 train_time:279445ms step_avg:154.22ms
step:1823/3125 train_loss:3.3315 train_time:279599ms step_avg:154.22ms
step:1824/3125 train_loss:3.4816 train_time:279752ms step_avg:154.22ms
step:1825/3125 train_loss:3.6012 train_time:279906ms step_avg:154.22ms
step:1826/3125 train_loss:3.5534 train_time:280059ms step_avg:154.22ms
step:1827/3125 train_loss:3.5378 train_time:280213ms step_avg:154.22ms
step:1828/3125 train_loss:3.4104 train_time:280364ms step_avg:154.22ms
step:1829/3125 train_loss:3.4278 train_time:280518ms step_avg:154.22ms
step:1830/3125 train_loss:3.5689 train_time:280671ms step_avg:154.22ms
step:1831/3125 train_loss:3.3397 train_time:280825ms step_avg:154.21ms
step:1832/3125 train_loss:3.4948 train_time:280978ms step_avg:154.21ms
step:1833/3125 train_loss:3.3702 train_time:281131ms step_avg:154.21ms
step:1834/3125 train_loss:3.6919 train_time:281283ms step_avg:154.21ms
step:1835/3125 train_loss:3.5221 train_time:281438ms step_avg:154.21ms
step:1836/3125 train_loss:3.5051 train_time:281591ms step_avg:154.21ms
step:1837/3125 train_loss:3.6278 train_time:281744ms step_avg:154.21ms
step:1838/3125 train_loss:3.4931 train_time:281898ms step_avg:154.21ms
step:1839/3125 train_loss:3.3725 train_time:282050ms step_avg:154.21ms
step:1840/3125 train_loss:3.4881 train_time:282202ms step_avg:154.21ms
step:1841/3125 train_loss:3.3716 train_time:282356ms step_avg:154.21ms
step:1842/3125 train_loss:3.4877 train_time:282509ms step_avg:154.21ms
step:1843/3125 train_loss:3.5441 train_time:282661ms step_avg:154.21ms
step:1844/3125 train_loss:3.2944 train_time:282814ms step_avg:154.21ms
step:1845/3125 train_loss:3.4121 train_time:282967ms step_avg:154.21ms
step:1846/3125 train_loss:3.4769 train_time:283119ms step_avg:154.20ms
step:1847/3125 train_loss:3.4148 train_time:283272ms step_avg:154.20ms
step:1848/3125 train_loss:3.3165 train_time:283425ms step_avg:154.20ms
step:1849/3125 train_loss:3.5834 train_time:283577ms step_avg:154.20ms
step:1850/3125 train_loss:3.3545 train_time:283733ms step_avg:154.20ms
step:1851/3125 train_loss:3.4352 train_time:283884ms step_avg:154.20ms
step:1852/3125 train_loss:3.3976 train_time:284038ms step_avg:154.20ms
step:1853/3125 train_loss:3.5867 train_time:284191ms step_avg:154.20ms
step:1854/3125 train_loss:3.5675 train_time:284344ms step_avg:154.20ms
step:1855/3125 train_loss:3.4394 train_time:284497ms step_avg:154.20ms
step:1856/3125 train_loss:3.3943 train_time:284650ms step_avg:154.20ms
step:1857/3125 train_loss:3.4212 train_time:284802ms step_avg:154.20ms
step:1858/3125 train_loss:3.6670 train_time:284956ms step_avg:154.20ms
step:1859/3125 train_loss:3.5109 train_time:285108ms step_avg:154.20ms
step:1860/3125 train_loss:3.4525 train_time:285261ms step_avg:154.19ms
step:1861/3125 train_loss:3.4898 train_time:285414ms step_avg:154.19ms
step:1862/3125 train_loss:3.3828 train_time:285567ms step_avg:154.19ms
step:1863/3125 train_loss:3.3827 train_time:285719ms step_avg:154.19ms
step:1864/3125 train_loss:3.4482 train_time:285871ms step_avg:154.19ms
step:1865/3125 train_loss:3.4942 train_time:286023ms step_avg:154.19ms
step:1866/3125 train_loss:3.2522 train_time:286179ms step_avg:154.19ms
step:1867/3125 train_loss:3.3876 train_time:286334ms step_avg:154.19ms
step:1868/3125 train_loss:3.3406 train_time:286487ms step_avg:154.19ms
step:1869/3125 train_loss:3.3459 train_time:286639ms step_avg:154.19ms
step:1870/3125 train_loss:3.5039 train_time:286790ms step_avg:154.19ms
step:1871/3125 train_loss:3.4863 train_time:286943ms step_avg:154.19ms
step:1872/3125 train_loss:3.4334 train_time:287097ms step_avg:154.19ms
step:1873/3125 train_loss:3.4434 train_time:287251ms step_avg:154.19ms
step:1874/3125 train_loss:3.3755 train_time:287402ms step_avg:154.19ms
step:1875/3125 train_loss:3.4711 train_time:287555ms step_avg:154.19ms
step:1875/3125 val_loss:3.4498 train_time:287604ms step_avg:154.21ms
step:1876/3125 train_loss:3.4754 train_time:287710ms step_avg:154.19ms
step:1877/3125 train_loss:3.4000 train_time:287863ms step_avg:154.18ms
step:1878/3125 train_loss:3.4519 train_time:288014ms step_avg:154.18ms
step:1879/3125 train_loss:3.5523 train_time:288166ms step_avg:154.18ms
step:1880/3125 train_loss:3.4309 train_time:288316ms step_avg:154.18ms
step:1881/3125 train_loss:3.4889 train_time:288467ms step_avg:154.18ms
step:1882/3125 train_loss:3.4053 train_time:288624ms step_avg:154.18ms
step:1883/3125 train_loss:3.4748 train_time:288779ms step_avg:154.18ms
step:1884/3125 train_loss:3.4719 train_time:288932ms step_avg:154.18ms
step:1885/3125 train_loss:3.2262 train_time:289086ms step_avg:154.18ms
step:1886/3125 train_loss:3.6231 train_time:289237ms step_avg:154.18ms
step:1887/3125 train_loss:3.3619 train_time:289389ms step_avg:154.18ms
step:1888/3125 train_loss:3.3737 train_time:289540ms step_avg:154.17ms
step:1889/3125 train_loss:3.4525 train_time:289693ms step_avg:154.17ms
step:1890/3125 train_loss:3.4935 train_time:289981ms step_avg:154.25ms
step:1891/3125 train_loss:3.3141 train_time:290144ms step_avg:154.25ms
step:1892/3125 train_loss:3.5926 train_time:290293ms step_avg:154.25ms
step:1893/3125 train_loss:3.3420 train_time:290444ms step_avg:154.25ms
step:1894/3125 train_loss:3.4820 train_time:290594ms step_avg:154.24ms
step:1895/3125 train_loss:3.5101 train_time:290746ms step_avg:154.24ms
step:1896/3125 train_loss:3.3154 train_time:290900ms step_avg:154.24ms
step:1897/3125 train_loss:3.4825 train_time:291059ms step_avg:154.24ms
step:1898/3125 train_loss:3.4457 train_time:291211ms step_avg:154.24ms
step:1899/3125 train_loss:3.5182 train_time:291362ms step_avg:154.24ms
step:1900/3125 train_loss:3.3018 train_time:291652ms step_avg:154.31ms
step:1901/3125 train_loss:3.5375 train_time:291803ms step_avg:154.31ms
step:1902/3125 train_loss:3.4292 train_time:291953ms step_avg:154.31ms
step:1903/3125 train_loss:3.5965 train_time:292105ms step_avg:154.31ms
step:1904/3125 train_loss:3.3875 train_time:292254ms step_avg:154.31ms
step:1905/3125 train_loss:3.6679 train_time:292405ms step_avg:154.30ms
step:1906/3125 train_loss:3.4073 train_time:292561ms step_avg:154.30ms
step:1907/3125 train_loss:3.3964 train_time:292721ms step_avg:154.31ms
step:1908/3125 train_loss:3.4699 train_time:292872ms step_avg:154.31ms
step:1909/3125 train_loss:3.3496 train_time:293025ms step_avg:154.30ms
step:1910/3125 train_loss:3.4192 train_time:293176ms step_avg:154.30ms
step:1911/3125 train_loss:3.5138 train_time:293327ms step_avg:154.30ms
step:1912/3125 train_loss:3.4412 train_time:293479ms step_avg:154.30ms
step:1913/3125 train_loss:3.3186 train_time:293635ms step_avg:154.30ms
step:1914/3125 train_loss:3.1833 train_time:293791ms step_avg:154.30ms
step:1915/3125 train_loss:3.3869 train_time:293944ms step_avg:154.30ms
step:1916/3125 train_loss:3.6068 train_time:294095ms step_avg:154.30ms
step:1917/3125 train_loss:3.6078 train_time:294249ms step_avg:154.30ms
step:1918/3125 train_loss:3.5573 train_time:294401ms step_avg:154.30ms
step:1919/3125 train_loss:3.3836 train_time:294553ms step_avg:154.30ms
step:1920/3125 train_loss:3.6403 train_time:294707ms step_avg:154.30ms
step:1921/3125 train_loss:3.4536 train_time:294860ms step_avg:154.30ms
step:1922/3125 train_loss:3.3883 train_time:295012ms step_avg:154.29ms
step:1923/3125 train_loss:3.5654 train_time:295165ms step_avg:154.29ms
step:1924/3125 train_loss:3.5255 train_time:295317ms step_avg:154.29ms
step:1925/3125 train_loss:3.3678 train_time:295469ms step_avg:154.29ms
step:1926/3125 train_loss:3.3956 train_time:295622ms step_avg:154.29ms
step:1927/3125 train_loss:3.3136 train_time:295774ms step_avg:154.29ms
step:1928/3125 train_loss:3.4182 train_time:295929ms step_avg:154.29ms
step:1929/3125 train_loss:3.2694 train_time:296081ms step_avg:154.29ms
step:1930/3125 train_loss:3.3925 train_time:296234ms step_avg:154.29ms
step:1931/3125 train_loss:3.5276 train_time:296387ms step_avg:154.29ms
step:1932/3125 train_loss:3.3971 train_time:296539ms step_avg:154.29ms
step:1933/3125 train_loss:3.5395 train_time:296691ms step_avg:154.29ms
step:1934/3125 train_loss:3.4009 train_time:296844ms step_avg:154.28ms
step:1935/3125 train_loss:3.4487 train_time:296995ms step_avg:154.28ms
step:1936/3125 train_loss:3.4872 train_time:297148ms step_avg:154.28ms
step:1937/3125 train_loss:3.4480 train_time:297300ms step_avg:154.28ms
step:1938/3125 train_loss:3.4742 train_time:297452ms step_avg:154.28ms
step:1939/3125 train_loss:3.3989 train_time:297607ms step_avg:154.28ms
step:1940/3125 train_loss:3.4934 train_time:297759ms step_avg:154.28ms
step:1941/3125 train_loss:3.5237 train_time:297912ms step_avg:154.28ms
step:1942/3125 train_loss:3.3675 train_time:298065ms step_avg:154.28ms
step:1943/3125 train_loss:3.4035 train_time:298217ms step_avg:154.28ms
step:1944/3125 train_loss:3.4612 train_time:298370ms step_avg:154.28ms
step:1945/3125 train_loss:3.3150 train_time:298522ms step_avg:154.28ms
step:1946/3125 train_loss:3.5828 train_time:298675ms step_avg:154.27ms
step:1947/3125 train_loss:3.4529 train_time:298829ms step_avg:154.27ms
step:1948/3125 train_loss:3.4295 train_time:298982ms step_avg:154.27ms
step:1949/3125 train_loss:3.4322 train_time:299135ms step_avg:154.27ms
step:1950/3125 train_loss:3.3188 train_time:299289ms step_avg:154.27ms
step:1951/3125 train_loss:3.4369 train_time:299441ms step_avg:154.27ms
step:1952/3125 train_loss:3.2922 train_time:299593ms step_avg:154.27ms
step:1953/3125 train_loss:3.4939 train_time:299746ms step_avg:154.27ms
step:1954/3125 train_loss:3.4880 train_time:299899ms step_avg:154.27ms
step:1955/3125 train_loss:3.4415 train_time:300052ms step_avg:154.27ms
step:1956/3125 train_loss:3.3251 train_time:300204ms step_avg:154.27ms
step:1957/3125 train_loss:3.4211 train_time:300357ms step_avg:154.27ms
step:1958/3125 train_loss:3.6016 train_time:300510ms step_avg:154.27ms
step:1959/3125 train_loss:3.5177 train_time:300663ms step_avg:154.27ms
step:1960/3125 train_loss:3.5425 train_time:300815ms step_avg:154.26ms
step:1961/3125 train_loss:3.3433 train_time:300969ms step_avg:154.26ms
step:1962/3125 train_loss:3.4750 train_time:301122ms step_avg:154.26ms
step:1963/3125 train_loss:3.5047 train_time:301274ms step_avg:154.26ms
step:1964/3125 train_loss:3.4546 train_time:301428ms step_avg:154.26ms
step:1965/3125 train_loss:3.3680 train_time:301581ms step_avg:154.26ms
step:1966/3125 train_loss:3.7777 train_time:301733ms step_avg:154.26ms
step:1967/3125 train_loss:3.3837 train_time:301887ms step_avg:154.26ms
step:1968/3125 train_loss:3.4258 train_time:302040ms step_avg:154.26ms
step:1969/3125 train_loss:3.4813 train_time:302192ms step_avg:154.26ms
step:1970/3125 train_loss:3.4221 train_time:302346ms step_avg:154.26ms
step:1971/3125 train_loss:3.3196 train_time:302498ms step_avg:154.26ms
step:1972/3125 train_loss:3.2978 train_time:302650ms step_avg:154.26ms
step:1973/3125 train_loss:3.4236 train_time:302802ms step_avg:154.25ms
step:1974/3125 train_loss:3.3925 train_time:302955ms step_avg:154.25ms
step:1975/3125 train_loss:3.3721 train_time:303109ms step_avg:154.25ms
step:1976/3125 train_loss:3.5294 train_time:303262ms step_avg:154.25ms
step:1977/3125 train_loss:3.4011 train_time:303414ms step_avg:154.25ms
step:1978/3125 train_loss:3.7625 train_time:303568ms step_avg:154.25ms
step:1979/3125 train_loss:3.4416 train_time:303720ms step_avg:154.25ms
step:1980/3125 train_loss:3.4430 train_time:303871ms step_avg:154.25ms
step:1981/3125 train_loss:3.4524 train_time:304025ms step_avg:154.25ms
step:1982/3125 train_loss:3.4819 train_time:304177ms step_avg:154.25ms
step:1983/3125 train_loss:3.4014 train_time:304330ms step_avg:154.25ms
step:1984/3125 train_loss:3.3629 train_time:304483ms step_avg:154.25ms
step:1985/3125 train_loss:3.4245 train_time:304635ms step_avg:154.25ms
step:1986/3125 train_loss:3.4867 train_time:304788ms step_avg:154.25ms
step:1987/3125 train_loss:3.4606 train_time:304940ms step_avg:154.24ms
step:1988/3125 train_loss:3.4319 train_time:305092ms step_avg:154.24ms
step:1989/3125 train_loss:3.5157 train_time:305245ms step_avg:154.24ms
step:1990/3125 train_loss:3.5444 train_time:305398ms step_avg:154.24ms
step:1991/3125 train_loss:3.3295 train_time:305550ms step_avg:154.24ms
step:1992/3125 train_loss:3.3202 train_time:305704ms step_avg:154.24ms
step:1993/3125 train_loss:3.5072 train_time:305856ms step_avg:154.24ms
step:1994/3125 train_loss:3.3278 train_time:306009ms step_avg:154.24ms
step:1995/3125 train_loss:3.4131 train_time:306162ms step_avg:154.24ms
step:1996/3125 train_loss:3.4940 train_time:306314ms step_avg:154.24ms
step:1997/3125 train_loss:3.3565 train_time:306468ms step_avg:154.24ms
step:1998/3125 train_loss:3.4635 train_time:306620ms step_avg:154.24ms
step:1999/3125 train_loss:3.4617 train_time:306772ms step_avg:154.23ms
step:2000/3125 train_loss:3.3847 train_time:306925ms step_avg:154.23ms
step:2000/3125 val_loss:3.4366 train_time:306974ms step_avg:154.26ms
step:2001/3125 train_loss:3.5266 train_time:307080ms step_avg:154.23ms
step:2002/3125 train_loss:3.4654 train_time:307236ms step_avg:154.23ms
step:2003/3125 train_loss:3.5598 train_time:307388ms step_avg:154.23ms
step:2004/3125 train_loss:3.4770 train_time:307540ms step_avg:154.23ms
step:2005/3125 train_loss:3.4869 train_time:307690ms step_avg:154.23ms
step:2006/3125 train_loss:3.3729 train_time:307840ms step_avg:154.23ms
step:2007/3125 train_loss:3.4004 train_time:307995ms step_avg:154.23ms
step:2008/3125 train_loss:3.4516 train_time:308150ms step_avg:154.23ms
step:2009/3125 train_loss:3.4890 train_time:308305ms step_avg:154.23ms
step:2010/3125 train_loss:3.3909 train_time:308456ms step_avg:154.23ms
step:2011/3125 train_loss:3.4736 train_time:308610ms step_avg:154.23ms
step:2012/3125 train_loss:3.4519 train_time:308762ms step_avg:154.23ms
step:2013/3125 train_loss:3.4486 train_time:308913ms step_avg:154.23ms
step:2014/3125 train_loss:3.3634 train_time:309068ms step_avg:154.23ms
step:2015/3125 train_loss:3.4106 train_time:309221ms step_avg:154.22ms
step:2016/3125 train_loss:3.4309 train_time:309373ms step_avg:154.22ms
step:2017/3125 train_loss:3.5577 train_time:309526ms step_avg:154.22ms
step:2018/3125 train_loss:3.4155 train_time:309679ms step_avg:154.22ms
step:2019/3125 train_loss:3.5558 train_time:309831ms step_avg:154.22ms
step:2020/3125 train_loss:3.5749 train_time:309984ms step_avg:154.22ms
step:2021/3125 train_loss:3.2796 train_time:310136ms step_avg:154.22ms
step:2022/3125 train_loss:3.5084 train_time:310290ms step_avg:154.22ms
step:2023/3125 train_loss:3.4397 train_time:310442ms step_avg:154.22ms
step:2024/3125 train_loss:3.5299 train_time:310594ms step_avg:154.22ms
step:2025/3125 train_loss:3.5778 train_time:310748ms step_avg:154.22ms
step:2026/3125 train_loss:3.3587 train_time:310901ms step_avg:154.22ms
step:2027/3125 train_loss:3.3948 train_time:311054ms step_avg:154.22ms
step:2028/3125 train_loss:3.3102 train_time:311208ms step_avg:154.22ms
step:2029/3125 train_loss:3.4135 train_time:311360ms step_avg:154.22ms
step:2030/3125 train_loss:3.3378 train_time:311511ms step_avg:154.21ms
step:2031/3125 train_loss:3.4307 train_time:311666ms step_avg:154.21ms
step:2032/3125 train_loss:3.4220 train_time:311818ms step_avg:154.21ms
step:2033/3125 train_loss:3.4371 train_time:311970ms step_avg:154.21ms
step:2034/3125 train_loss:3.3283 train_time:312123ms step_avg:154.21ms
step:2035/3125 train_loss:3.4967 train_time:312275ms step_avg:154.21ms
step:2036/3125 train_loss:3.4943 train_time:312430ms step_avg:154.21ms
step:2037/3125 train_loss:3.4810 train_time:312582ms step_avg:154.21ms
step:2038/3125 train_loss:3.3547 train_time:312738ms step_avg:154.21ms
step:2039/3125 train_loss:3.6136 train_time:312890ms step_avg:154.21ms
step:2040/3125 train_loss:3.4503 train_time:313043ms step_avg:154.21ms
step:2041/3125 train_loss:3.4697 train_time:313195ms step_avg:154.21ms
step:2042/3125 train_loss:3.4191 train_time:313349ms step_avg:154.21ms
step:2043/3125 train_loss:3.3156 train_time:313501ms step_avg:154.21ms
step:2044/3125 train_loss:3.4361 train_time:313653ms step_avg:154.21ms
step:2045/3125 train_loss:3.4303 train_time:313807ms step_avg:154.21ms
step:2046/3125 train_loss:3.2980 train_time:313961ms step_avg:154.20ms
step:2047/3125 train_loss:3.3733 train_time:314112ms step_avg:154.20ms
step:2048/3125 train_loss:3.4531 train_time:314267ms step_avg:154.20ms
step:2049/3125 train_loss:3.4077 train_time:314419ms step_avg:154.20ms
step:2050/3125 train_loss:3.4533 train_time:314572ms step_avg:154.20ms
step:2051/3125 train_loss:3.5961 train_time:314727ms step_avg:154.20ms
step:2052/3125 train_loss:3.4664 train_time:314878ms step_avg:154.20ms
step:2053/3125 train_loss:3.4092 train_time:315030ms step_avg:154.20ms
step:2054/3125 train_loss:3.3944 train_time:315182ms step_avg:154.20ms
step:2055/3125 train_loss:3.2628 train_time:315336ms step_avg:154.20ms
step:2056/3125 train_loss:3.3765 train_time:315490ms step_avg:154.20ms
step:2057/3125 train_loss:3.5483 train_time:315644ms step_avg:154.20ms
step:2058/3125 train_loss:3.5748 train_time:315797ms step_avg:154.20ms
step:2059/3125 train_loss:3.4320 train_time:315950ms step_avg:154.20ms
step:2060/3125 train_loss:3.4748 train_time:316103ms step_avg:154.20ms
step:2061/3125 train_loss:3.4586 train_time:316255ms step_avg:154.20ms
step:2062/3125 train_loss:3.4130 train_time:316410ms step_avg:154.20ms
step:2063/3125 train_loss:3.3291 train_time:316564ms step_avg:154.20ms
step:2064/3125 train_loss:3.6334 train_time:316715ms step_avg:154.19ms
step:2065/3125 train_loss:3.4960 train_time:316871ms step_avg:154.19ms
step:2066/3125 train_loss:3.4444 train_time:317022ms step_avg:154.19ms
step:2067/3125 train_loss:3.4881 train_time:317173ms step_avg:154.19ms
step:2068/3125 train_loss:3.3937 train_time:317327ms step_avg:154.19ms
step:2069/3125 train_loss:3.4422 train_time:317480ms step_avg:154.19ms
step:2070/3125 train_loss:3.5788 train_time:317634ms step_avg:154.19ms
step:2071/3125 train_loss:3.5840 train_time:317789ms step_avg:154.19ms
step:2072/3125 train_loss:3.4280 train_time:317942ms step_avg:154.19ms
step:2073/3125 train_loss:3.4661 train_time:318092ms step_avg:154.19ms
step:2074/3125 train_loss:3.3521 train_time:318247ms step_avg:154.19ms
step:2075/3125 train_loss:3.8820 train_time:318399ms step_avg:154.19ms
step:2076/3125 train_loss:3.3103 train_time:318552ms step_avg:154.19ms
step:2077/3125 train_loss:3.4725 train_time:318706ms step_avg:154.19ms
step:2078/3125 train_loss:3.3655 train_time:318859ms step_avg:154.19ms
step:2079/3125 train_loss:3.3431 train_time:319195ms step_avg:154.28ms
step:2080/3125 train_loss:3.4334 train_time:319351ms step_avg:154.28ms
step:2081/3125 train_loss:3.6809 train_time:319502ms step_avg:154.27ms
step:2082/3125 train_loss:3.3103 train_time:319651ms step_avg:154.27ms
step:2083/3125 train_loss:3.6540 train_time:319802ms step_avg:154.27ms
step:2084/3125 train_loss:3.3581 train_time:319952ms step_avg:154.27ms
step:2085/3125 train_loss:3.3435 train_time:320108ms step_avg:154.27ms
step:2086/3125 train_loss:3.5870 train_time:320267ms step_avg:154.27ms
step:2087/3125 train_loss:3.5094 train_time:320419ms step_avg:154.27ms
step:2088/3125 train_loss:3.4984 train_time:320570ms step_avg:154.27ms
step:2089/3125 train_loss:3.5594 train_time:320721ms step_avg:154.27ms
step:2090/3125 train_loss:3.4831 train_time:321028ms step_avg:154.34ms
step:2091/3125 train_loss:3.4707 train_time:321190ms step_avg:154.34ms
step:2092/3125 train_loss:3.4202 train_time:321341ms step_avg:154.34ms
step:2093/3125 train_loss:3.4914 train_time:321491ms step_avg:154.34ms
step:2094/3125 train_loss:3.4064 train_time:321644ms step_avg:154.34ms
step:2095/3125 train_loss:3.1882 train_time:321794ms step_avg:154.34ms
step:2096/3125 train_loss:3.4158 train_time:321948ms step_avg:154.34ms
step:2097/3125 train_loss:3.5883 train_time:322106ms step_avg:154.34ms
step:2098/3125 train_loss:3.4108 train_time:322258ms step_avg:154.34ms
step:2099/3125 train_loss:3.3069 train_time:322409ms step_avg:154.34ms
step:2100/3125 train_loss:3.4045 train_time:322561ms step_avg:154.34ms
step:2101/3125 train_loss:3.3595 train_time:322711ms step_avg:154.33ms
step:2102/3125 train_loss:3.5060 train_time:322865ms step_avg:154.33ms
step:2103/3125 train_loss:3.3406 train_time:323019ms step_avg:154.33ms
step:2104/3125 train_loss:3.3065 train_time:323173ms step_avg:154.33ms
step:2105/3125 train_loss:3.5658 train_time:323328ms step_avg:154.33ms
step:2106/3125 train_loss:3.2971 train_time:323481ms step_avg:154.33ms
step:2107/3125 train_loss:3.7030 train_time:323633ms step_avg:154.33ms
step:2108/3125 train_loss:3.5344 train_time:323785ms step_avg:154.33ms
step:2109/3125 train_loss:3.4317 train_time:323939ms step_avg:154.33ms
step:2110/3125 train_loss:3.4597 train_time:324094ms step_avg:154.33ms
step:2111/3125 train_loss:3.2772 train_time:324248ms step_avg:154.33ms
step:2112/3125 train_loss:3.7544 train_time:324401ms step_avg:154.33ms
step:2113/3125 train_loss:3.4490 train_time:324553ms step_avg:154.33ms
step:2114/3125 train_loss:3.3837 train_time:324707ms step_avg:154.33ms
step:2115/3125 train_loss:3.4953 train_time:324860ms step_avg:154.33ms
step:2116/3125 train_loss:3.4483 train_time:325012ms step_avg:154.33ms
step:2117/3125 train_loss:3.4468 train_time:325164ms step_avg:154.33ms
step:2118/3125 train_loss:3.4971 train_time:325318ms step_avg:154.33ms
step:2119/3125 train_loss:3.3480 train_time:325470ms step_avg:154.32ms
step:2120/3125 train_loss:3.4141 train_time:325623ms step_avg:154.32ms
step:2121/3125 train_loss:3.1084 train_time:325773ms step_avg:154.32ms
step:2122/3125 train_loss:3.3103 train_time:325926ms step_avg:154.32ms
step:2123/3125 train_loss:3.4831 train_time:326080ms step_avg:154.32ms
step:2124/3125 train_loss:3.3913 train_time:326233ms step_avg:154.32ms
step:2125/3125 train_loss:3.5579 train_time:326388ms step_avg:154.32ms
step:2125/3125 val_loss:3.4263 train_time:326437ms step_avg:154.34ms
step:2126/3125 train_loss:3.4139 train_time:326543ms step_avg:154.32ms
step:2127/3125 train_loss:3.5223 train_time:326699ms step_avg:154.32ms
step:2128/3125 train_loss:3.5037 train_time:326853ms step_avg:154.32ms
step:2129/3125 train_loss:3.3572 train_time:327004ms step_avg:154.32ms
step:2130/3125 train_loss:3.3561 train_time:327154ms step_avg:154.32ms
step:2131/3125 train_loss:3.3828 train_time:327305ms step_avg:154.32ms
step:2132/3125 train_loss:3.5321 train_time:327459ms step_avg:154.32ms
step:2133/3125 train_loss:3.4133 train_time:327616ms step_avg:154.32ms
step:2134/3125 train_loss:3.3133 train_time:327769ms step_avg:154.32ms
step:2135/3125 train_loss:3.3807 train_time:327921ms step_avg:154.32ms
step:2136/3125 train_loss:3.5013 train_time:328075ms step_avg:154.32ms
step:2137/3125 train_loss:3.5213 train_time:328227ms step_avg:154.31ms
step:2138/3125 train_loss:3.4604 train_time:328379ms step_avg:154.31ms
step:2139/3125 train_loss:3.4567 train_time:328532ms step_avg:154.31ms
step:2140/3125 train_loss:3.4430 train_time:328685ms step_avg:154.31ms
step:2141/3125 train_loss:3.5223 train_time:328837ms step_avg:154.31ms
step:2142/3125 train_loss:3.8156 train_time:328991ms step_avg:154.31ms
step:2143/3125 train_loss:3.3556 train_time:329143ms step_avg:154.31ms
step:2144/3125 train_loss:3.3867 train_time:329296ms step_avg:154.31ms
step:2145/3125 train_loss:3.4219 train_time:329450ms step_avg:154.31ms
step:2146/3125 train_loss:3.5576 train_time:329601ms step_avg:154.31ms
step:2147/3125 train_loss:3.4818 train_time:329754ms step_avg:154.31ms
step:2148/3125 train_loss:3.8986 train_time:329907ms step_avg:154.31ms
step:2149/3125 train_loss:3.4151 train_time:330058ms step_avg:154.30ms
step:2150/3125 train_loss:3.3757 train_time:330212ms step_avg:154.30ms
step:2151/3125 train_loss:3.4535 train_time:330364ms step_avg:154.30ms
step:2152/3125 train_loss:3.4820 train_time:330518ms step_avg:154.30ms
step:2153/3125 train_loss:3.4308 train_time:330672ms step_avg:154.30ms
step:2154/3125 train_loss:3.3711 train_time:330824ms step_avg:154.30ms
step:2155/3125 train_loss:3.5819 train_time:330978ms step_avg:154.30ms
step:2156/3125 train_loss:3.2021 train_time:331131ms step_avg:154.30ms
step:2157/3125 train_loss:3.3607 train_time:331283ms step_avg:154.30ms
step:2158/3125 train_loss:3.4968 train_time:331435ms step_avg:154.30ms
step:2159/3125 train_loss:3.4390 train_time:331588ms step_avg:154.30ms
step:2160/3125 train_loss:3.5956 train_time:331740ms step_avg:154.30ms
step:2161/3125 train_loss:3.5026 train_time:331894ms step_avg:154.30ms
step:2162/3125 train_loss:3.4294 train_time:332047ms step_avg:154.30ms
step:2163/3125 train_loss:3.4070 train_time:332199ms step_avg:154.30ms
step:2164/3125 train_loss:3.4006 train_time:332352ms step_avg:154.30ms
step:2165/3125 train_loss:3.4872 train_time:332505ms step_avg:154.29ms
step:2166/3125 train_loss:3.5095 train_time:332657ms step_avg:154.29ms
step:2167/3125 train_loss:3.4365 train_time:332810ms step_avg:154.29ms
step:2168/3125 train_loss:3.3389 train_time:332962ms step_avg:154.29ms
step:2169/3125 train_loss:3.4213 train_time:333116ms step_avg:154.29ms
step:2170/3125 train_loss:3.4566 train_time:333270ms step_avg:154.29ms
step:2171/3125 train_loss:3.5808 train_time:333422ms step_avg:154.29ms
step:2172/3125 train_loss:3.3722 train_time:333574ms step_avg:154.29ms
step:2173/3125 train_loss:3.3629 train_time:333727ms step_avg:154.29ms
step:2174/3125 train_loss:3.3768 train_time:333879ms step_avg:154.29ms
step:2175/3125 train_loss:3.4234 train_time:334032ms step_avg:154.29ms
step:2176/3125 train_loss:3.3881 train_time:334185ms step_avg:154.29ms
step:2177/3125 train_loss:3.3619 train_time:334336ms step_avg:154.29ms
step:2178/3125 train_loss:3.5817 train_time:334490ms step_avg:154.28ms
step:2179/3125 train_loss:3.4061 train_time:334641ms step_avg:154.28ms
step:2180/3125 train_loss:3.4206 train_time:334795ms step_avg:154.28ms
step:2181/3125 train_loss:3.4675 train_time:334948ms step_avg:154.28ms
step:2182/3125 train_loss:3.4535 train_time:335101ms step_avg:154.28ms
step:2183/3125 train_loss:3.4137 train_time:335254ms step_avg:154.28ms
step:2184/3125 train_loss:3.3149 train_time:335406ms step_avg:154.28ms
step:2185/3125 train_loss:3.4968 train_time:335558ms step_avg:154.28ms
step:2186/3125 train_loss:3.6602 train_time:335712ms step_avg:154.28ms
step:2187/3125 train_loss:3.2994 train_time:335864ms step_avg:154.28ms
step:2188/3125 train_loss:3.3518 train_time:336017ms step_avg:154.28ms
step:2189/3125 train_loss:3.1897 train_time:336170ms step_avg:154.28ms
step:2190/3125 train_loss:3.3436 train_time:336323ms step_avg:154.28ms
step:2191/3125 train_loss:3.4928 train_time:336475ms step_avg:154.28ms
step:2192/3125 train_loss:3.4208 train_time:336628ms step_avg:154.28ms
step:2193/3125 train_loss:3.6551 train_time:336779ms step_avg:154.27ms
step:2194/3125 train_loss:3.4279 train_time:336933ms step_avg:154.27ms
step:2195/3125 train_loss:3.4843 train_time:337087ms step_avg:154.27ms
step:2196/3125 train_loss:3.4282 train_time:337238ms step_avg:154.27ms
step:2197/3125 train_loss:3.3566 train_time:337392ms step_avg:154.27ms
step:2198/3125 train_loss:3.4274 train_time:337545ms step_avg:154.27ms
step:2199/3125 train_loss:3.3744 train_time:337697ms step_avg:154.27ms
step:2200/3125 train_loss:3.3714 train_time:337851ms step_avg:154.27ms
step:2201/3125 train_loss:3.4284 train_time:338004ms step_avg:154.27ms
step:2202/3125 train_loss:3.4116 train_time:338157ms step_avg:154.27ms
step:2203/3125 train_loss:3.3912 train_time:338311ms step_avg:154.27ms
step:2204/3125 train_loss:3.8935 train_time:338464ms step_avg:154.27ms
step:2205/3125 train_loss:3.3077 train_time:338617ms step_avg:154.27ms
step:2206/3125 train_loss:3.4276 train_time:338770ms step_avg:154.27ms
step:2207/3125 train_loss:3.4469 train_time:338923ms step_avg:154.27ms
step:2208/3125 train_loss:3.4561 train_time:339076ms step_avg:154.27ms
step:2209/3125 train_loss:3.3577 train_time:339230ms step_avg:154.27ms
step:2210/3125 train_loss:3.4282 train_time:339381ms step_avg:154.26ms
step:2211/3125 train_loss:3.4409 train_time:339536ms step_avg:154.26ms
step:2212/3125 train_loss:3.4338 train_time:339690ms step_avg:154.26ms
step:2213/3125 train_loss:3.4621 train_time:339842ms step_avg:154.26ms
step:2214/3125 train_loss:3.3235 train_time:339995ms step_avg:154.26ms
step:2215/3125 train_loss:3.3853 train_time:340147ms step_avg:154.26ms
step:2216/3125 train_loss:3.5273 train_time:340300ms step_avg:154.26ms
step:2217/3125 train_loss:3.4727 train_time:340453ms step_avg:154.26ms
step:2218/3125 train_loss:3.4357 train_time:340607ms step_avg:154.26ms
step:2219/3125 train_loss:3.4477 train_time:340758ms step_avg:154.26ms
step:2220/3125 train_loss:3.3550 train_time:340913ms step_avg:154.26ms
step:2221/3125 train_loss:3.6098 train_time:341067ms step_avg:154.26ms
step:2222/3125 train_loss:3.4977 train_time:341219ms step_avg:154.26ms
step:2223/3125 train_loss:3.5202 train_time:341372ms step_avg:154.26ms
step:2224/3125 train_loss:3.4123 train_time:341527ms step_avg:154.26ms
step:2225/3125 train_loss:3.5368 train_time:341679ms step_avg:154.26ms
step:2226/3125 train_loss:3.2822 train_time:341833ms step_avg:154.26ms
step:2227/3125 train_loss:3.5567 train_time:341986ms step_avg:154.26ms
step:2228/3125 train_loss:3.4917 train_time:342139ms step_avg:154.26ms
step:2229/3125 train_loss:3.2958 train_time:342294ms step_avg:154.26ms
step:2230/3125 train_loss:3.6363 train_time:342447ms step_avg:154.26ms
step:2231/3125 train_loss:3.3277 train_time:342600ms step_avg:154.25ms
step:2232/3125 train_loss:3.7981 train_time:342753ms step_avg:154.25ms
step:2233/3125 train_loss:3.4820 train_time:342907ms step_avg:154.25ms
step:2234/3125 train_loss:3.4305 train_time:343058ms step_avg:154.25ms
step:2235/3125 train_loss:3.4581 train_time:343212ms step_avg:154.25ms
step:2236/3125 train_loss:3.2447 train_time:343364ms step_avg:154.25ms
step:2237/3125 train_loss:3.2455 train_time:343517ms step_avg:154.25ms
step:2238/3125 train_loss:3.4681 train_time:343670ms step_avg:154.25ms
step:2239/3125 train_loss:3.5679 train_time:343824ms step_avg:154.25ms
step:2240/3125 train_loss:3.2854 train_time:343975ms step_avg:154.25ms
step:2241/3125 train_loss:3.3497 train_time:344128ms step_avg:154.25ms
step:2242/3125 train_loss:3.5373 train_time:344280ms step_avg:154.25ms
step:2243/3125 train_loss:3.5017 train_time:344434ms step_avg:154.25ms
step:2244/3125 train_loss:3.3580 train_time:344588ms step_avg:154.25ms
step:2245/3125 train_loss:3.4318 train_time:344739ms step_avg:154.25ms
step:2246/3125 train_loss:3.4530 train_time:344894ms step_avg:154.25ms
step:2247/3125 train_loss:3.2810 train_time:345046ms step_avg:154.24ms
step:2248/3125 train_loss:3.2998 train_time:345199ms step_avg:154.24ms
step:2249/3125 train_loss:3.5698 train_time:345352ms step_avg:154.24ms
step:2250/3125 train_loss:3.2799 train_time:345505ms step_avg:154.24ms
step:2250/3125 val_loss:3.4129 train_time:345554ms step_avg:154.27ms
step:2251/3125 train_loss:3.2943 train_time:345663ms step_avg:154.25ms
step:2252/3125 train_loss:3.3631 train_time:345816ms step_avg:154.24ms
step:2253/3125 train_loss:3.3373 train_time:345968ms step_avg:154.24ms
step:2254/3125 train_loss:3.3908 train_time:346119ms step_avg:154.24ms
step:2255/3125 train_loss:3.4471 train_time:346270ms step_avg:154.24ms
step:2256/3125 train_loss:3.3134 train_time:346420ms step_avg:154.24ms
step:2257/3125 train_loss:3.6060 train_time:346575ms step_avg:154.24ms
step:2258/3125 train_loss:3.4814 train_time:346731ms step_avg:154.24ms
step:2259/3125 train_loss:3.8014 train_time:346885ms step_avg:154.24ms
step:2260/3125 train_loss:3.4804 train_time:347037ms step_avg:154.24ms
step:2261/3125 train_loss:3.5360 train_time:347189ms step_avg:154.24ms
step:2262/3125 train_loss:3.4396 train_time:347339ms step_avg:154.24ms
step:2263/3125 train_loss:3.4456 train_time:347492ms step_avg:154.24ms
step:2264/3125 train_loss:3.2045 train_time:347646ms step_avg:154.24ms
step:2265/3125 train_loss:3.3252 train_time:347800ms step_avg:154.23ms
step:2266/3125 train_loss:3.5413 train_time:347953ms step_avg:154.23ms
step:2267/3125 train_loss:3.2744 train_time:348106ms step_avg:154.23ms
step:2268/3125 train_loss:3.3474 train_time:348399ms step_avg:154.30ms
step:2269/3125 train_loss:3.3316 train_time:348557ms step_avg:154.30ms
step:2270/3125 train_loss:3.2874 train_time:348709ms step_avg:154.30ms
step:2271/3125 train_loss:3.6944 train_time:348859ms step_avg:154.29ms
step:2272/3125 train_loss:3.3432 train_time:349010ms step_avg:154.29ms
step:2273/3125 train_loss:3.3545 train_time:349160ms step_avg:154.29ms
step:2274/3125 train_loss:3.4363 train_time:349316ms step_avg:154.29ms
step:2275/3125 train_loss:3.3830 train_time:349476ms step_avg:154.29ms
step:2276/3125 train_loss:3.3999 train_time:349630ms step_avg:154.29ms
step:2277/3125 train_loss:3.2780 train_time:349782ms step_avg:154.29ms
step:2278/3125 train_loss:3.3844 train_time:349933ms step_avg:154.29ms
step:2279/3125 train_loss:3.5104 train_time:350085ms step_avg:154.29ms
step:2280/3125 train_loss:3.3105 train_time:350373ms step_avg:154.35ms
step:2281/3125 train_loss:3.3747 train_time:350521ms step_avg:154.35ms
step:2282/3125 train_loss:3.3845 train_time:350672ms step_avg:154.35ms
step:2283/3125 train_loss:3.5262 train_time:350822ms step_avg:154.34ms
step:2284/3125 train_loss:3.4024 train_time:350972ms step_avg:154.34ms
step:2285/3125 train_loss:3.4203 train_time:351122ms step_avg:154.34ms
step:2286/3125 train_loss:3.4183 train_time:351279ms step_avg:154.34ms
step:2287/3125 train_loss:3.4201 train_time:351436ms step_avg:154.34ms
step:2288/3125 train_loss:3.3708 train_time:351591ms step_avg:154.34ms
step:2289/3125 train_loss:3.5100 train_time:351742ms step_avg:154.34ms
step:2290/3125 train_loss:3.4806 train_time:351893ms step_avg:154.34ms
step:2291/3125 train_loss:3.3667 train_time:352045ms step_avg:154.34ms
step:2292/3125 train_loss:3.7030 train_time:352197ms step_avg:154.34ms
step:2293/3125 train_loss:3.3604 train_time:352352ms step_avg:154.34ms
step:2294/3125 train_loss:3.3106 train_time:352506ms step_avg:154.34ms
step:2295/3125 train_loss:3.4950 train_time:352657ms step_avg:154.34ms
step:2296/3125 train_loss:3.4335 train_time:352811ms step_avg:154.34ms
step:2297/3125 train_loss:3.4381 train_time:352963ms step_avg:154.33ms
step:2298/3125 train_loss:3.7925 train_time:353114ms step_avg:154.33ms
step:2299/3125 train_loss:3.3106 train_time:353268ms step_avg:154.33ms
step:2300/3125 train_loss:3.3037 train_time:353420ms step_avg:154.33ms
step:2301/3125 train_loss:3.6440 train_time:353574ms step_avg:154.33ms
step:2302/3125 train_loss:3.3732 train_time:353729ms step_avg:154.33ms
step:2303/3125 train_loss:3.3847 train_time:353882ms step_avg:154.33ms
step:2304/3125 train_loss:3.3732 train_time:354034ms step_avg:154.33ms
step:2305/3125 train_loss:3.3112 train_time:354187ms step_avg:154.33ms
step:2306/3125 train_loss:3.4655 train_time:354339ms step_avg:154.33ms
step:2307/3125 train_loss:3.3364 train_time:354492ms step_avg:154.33ms
step:2308/3125 train_loss:3.3484 train_time:354646ms step_avg:154.33ms
step:2309/3125 train_loss:3.4691 train_time:354799ms step_avg:154.33ms
step:2310/3125 train_loss:3.4429 train_time:354952ms step_avg:154.33ms
step:2311/3125 train_loss:3.3089 train_time:355103ms step_avg:154.33ms
step:2312/3125 train_loss:3.4240 train_time:355256ms step_avg:154.32ms
step:2313/3125 train_loss:3.5514 train_time:355408ms step_avg:154.32ms
step:2314/3125 train_loss:3.3622 train_time:355588ms step_avg:154.34ms
step:2315/3125 train_loss:3.2945 train_time:355713ms step_avg:154.32ms
step:2316/3125 train_loss:3.3853 train_time:355867ms step_avg:154.32ms
step:2317/3125 train_loss:3.2691 train_time:356019ms step_avg:154.32ms
step:2318/3125 train_loss:3.3659 train_time:356172ms step_avg:154.32ms
step:2319/3125 train_loss:3.3890 train_time:356326ms step_avg:154.32ms
step:2320/3125 train_loss:3.2450 train_time:356478ms step_avg:154.32ms
step:2321/3125 train_loss:3.3774 train_time:356632ms step_avg:154.32ms
step:2322/3125 train_loss:3.4253 train_time:356786ms step_avg:154.32ms
step:2323/3125 train_loss:3.3428 train_time:356937ms step_avg:154.32ms
step:2324/3125 train_loss:3.3924 train_time:357089ms step_avg:154.32ms
step:2325/3125 train_loss:3.3072 train_time:357241ms step_avg:154.32ms
step:2326/3125 train_loss:3.4503 train_time:357393ms step_avg:154.31ms
step:2327/3125 train_loss:3.4538 train_time:357547ms step_avg:154.31ms
step:2328/3125 train_loss:3.2334 train_time:357698ms step_avg:154.31ms
step:2329/3125 train_loss:3.3381 train_time:357853ms step_avg:154.31ms
step:2330/3125 train_loss:3.3672 train_time:358007ms step_avg:154.31ms
step:2331/3125 train_loss:3.3415 train_time:358159ms step_avg:154.31ms
step:2332/3125 train_loss:3.5227 train_time:358311ms step_avg:154.31ms
step:2333/3125 train_loss:3.3990 train_time:358464ms step_avg:154.31ms
step:2334/3125 train_loss:3.3762 train_time:358616ms step_avg:154.31ms
step:2335/3125 train_loss:3.4620 train_time:358770ms step_avg:154.31ms
step:2336/3125 train_loss:3.2995 train_time:358924ms step_avg:154.31ms
step:2337/3125 train_loss:3.4552 train_time:359075ms step_avg:154.31ms
step:2338/3125 train_loss:3.4137 train_time:359228ms step_avg:154.31ms
step:2339/3125 train_loss:3.3562 train_time:359379ms step_avg:154.31ms
step:2340/3125 train_loss:3.4341 train_time:359531ms step_avg:154.31ms
step:2341/3125 train_loss:3.4781 train_time:359686ms step_avg:154.31ms
step:2342/3125 train_loss:3.3476 train_time:359840ms step_avg:154.31ms
step:2343/3125 train_loss:3.3665 train_time:359992ms step_avg:154.30ms
step:2344/3125 train_loss:3.4321 train_time:360145ms step_avg:154.30ms
step:2345/3125 train_loss:3.3700 train_time:360297ms step_avg:154.30ms
step:2346/3125 train_loss:3.4897 train_time:360449ms step_avg:154.30ms
step:2347/3125 train_loss:3.3914 train_time:360601ms step_avg:154.30ms
step:2348/3125 train_loss:3.5013 train_time:360753ms step_avg:154.30ms
step:2349/3125 train_loss:3.4630 train_time:360906ms step_avg:154.30ms
step:2350/3125 train_loss:3.5029 train_time:361057ms step_avg:154.30ms
step:2351/3125 train_loss:3.2044 train_time:361213ms step_avg:154.30ms
step:2352/3125 train_loss:3.3128 train_time:361369ms step_avg:154.30ms
step:2353/3125 train_loss:3.3178 train_time:361520ms step_avg:154.30ms
step:2354/3125 train_loss:3.5331 train_time:361672ms step_avg:154.30ms
step:2355/3125 train_loss:3.3243 train_time:361824ms step_avg:154.30ms
step:2356/3125 train_loss:3.3228 train_time:361977ms step_avg:154.30ms
step:2357/3125 train_loss:3.4746 train_time:362131ms step_avg:154.30ms
step:2358/3125 train_loss:3.3248 train_time:362285ms step_avg:154.29ms
step:2359/3125 train_loss:3.4248 train_time:362437ms step_avg:154.29ms
step:2360/3125 train_loss:3.3263 train_time:362589ms step_avg:154.29ms
step:2361/3125 train_loss:3.3414 train_time:362740ms step_avg:154.29ms
step:2362/3125 train_loss:3.3648 train_time:362893ms step_avg:154.29ms
step:2363/3125 train_loss:3.4353 train_time:363046ms step_avg:154.29ms
step:2364/3125 train_loss:3.3861 train_time:363199ms step_avg:154.29ms
step:2365/3125 train_loss:3.8131 train_time:363351ms step_avg:154.29ms
step:2366/3125 train_loss:3.4464 train_time:363504ms step_avg:154.29ms
step:2367/3125 train_loss:3.5857 train_time:363657ms step_avg:154.29ms
step:2368/3125 train_loss:3.4043 train_time:363810ms step_avg:154.29ms
step:2369/3125 train_loss:3.4118 train_time:363962ms step_avg:154.29ms
step:2370/3125 train_loss:3.4427 train_time:364114ms step_avg:154.29ms
step:2371/3125 train_loss:3.3303 train_time:364268ms step_avg:154.29ms
step:2372/3125 train_loss:3.5616 train_time:364419ms step_avg:154.28ms
step:2373/3125 train_loss:3.4034 train_time:364573ms step_avg:154.28ms
step:2374/3125 train_loss:3.9601 train_time:364727ms step_avg:154.28ms
step:2375/3125 train_loss:3.3889 train_time:364879ms step_avg:154.28ms
step:2375/3125 val_loss:3.3914 train_time:364929ms step_avg:154.30ms
step:2376/3125 train_loss:3.2898 train_time:365037ms step_avg:154.28ms
step:2377/3125 train_loss:3.4489 train_time:365190ms step_avg:154.28ms
step:2378/3125 train_loss:3.4241 train_time:365340ms step_avg:154.28ms
step:2379/3125 train_loss:3.4357 train_time:365491ms step_avg:154.28ms
step:2380/3125 train_loss:3.4160 train_time:365642ms step_avg:154.28ms
step:2381/3125 train_loss:3.3219 train_time:365793ms step_avg:154.28ms
step:2382/3125 train_loss:3.4220 train_time:365948ms step_avg:154.28ms
step:2383/3125 train_loss:3.4323 train_time:366102ms step_avg:154.28ms
step:2384/3125 train_loss:3.3804 train_time:366256ms step_avg:154.28ms
step:2385/3125 train_loss:3.3094 train_time:366410ms step_avg:154.28ms
step:2386/3125 train_loss:3.4203 train_time:366561ms step_avg:154.28ms
step:2387/3125 train_loss:3.3700 train_time:366713ms step_avg:154.28ms
step:2388/3125 train_loss:3.3780 train_time:366865ms step_avg:154.27ms
step:2389/3125 train_loss:3.4208 train_time:367019ms step_avg:154.27ms
step:2390/3125 train_loss:3.4003 train_time:367176ms step_avg:154.28ms
step:2391/3125 train_loss:3.3928 train_time:367329ms step_avg:154.28ms
step:2392/3125 train_loss:3.2745 train_time:367481ms step_avg:154.27ms
step:2393/3125 train_loss:3.5011 train_time:367633ms step_avg:154.27ms
step:2394/3125 train_loss:3.3288 train_time:367786ms step_avg:154.27ms
step:2395/3125 train_loss:3.4333 train_time:367937ms step_avg:154.27ms
step:2396/3125 train_loss:3.5449 train_time:368092ms step_avg:154.27ms
step:2397/3125 train_loss:3.5511 train_time:368246ms step_avg:154.27ms
step:2398/3125 train_loss:3.5182 train_time:368399ms step_avg:154.27ms
step:2399/3125 train_loss:3.4728 train_time:368552ms step_avg:154.27ms
step:2400/3125 train_loss:3.3483 train_time:368704ms step_avg:154.27ms
step:2401/3125 train_loss:3.3574 train_time:368856ms step_avg:154.27ms
step:2402/3125 train_loss:3.4578 train_time:369010ms step_avg:154.27ms
step:2403/3125 train_loss:3.2934 train_time:369162ms step_avg:154.27ms
step:2404/3125 train_loss:3.4219 train_time:369316ms step_avg:154.27ms
step:2405/3125 train_loss:3.6395 train_time:369471ms step_avg:154.27ms
step:2406/3125 train_loss:3.3575 train_time:369623ms step_avg:154.27ms
step:2407/3125 train_loss:3.5161 train_time:369776ms step_avg:154.27ms
step:2408/3125 train_loss:3.3755 train_time:369929ms step_avg:154.27ms
step:2409/3125 train_loss:3.3005 train_time:370082ms step_avg:154.27ms
step:2410/3125 train_loss:3.4467 train_time:370235ms step_avg:154.26ms
step:2411/3125 train_loss:3.2285 train_time:370389ms step_avg:154.26ms
step:2412/3125 train_loss:3.6676 train_time:370541ms step_avg:154.26ms
step:2413/3125 train_loss:3.3528 train_time:370695ms step_avg:154.26ms
step:2414/3125 train_loss:3.4349 train_time:370848ms step_avg:154.26ms
step:2415/3125 train_loss:3.3450 train_time:371000ms step_avg:154.26ms
step:2416/3125 train_loss:3.4215 train_time:371153ms step_avg:154.26ms
step:2417/3125 train_loss:3.2325 train_time:371306ms step_avg:154.26ms
step:2418/3125 train_loss:3.1598 train_time:371458ms step_avg:154.26ms
step:2419/3125 train_loss:3.4633 train_time:371612ms step_avg:154.26ms
step:2420/3125 train_loss:3.3422 train_time:371765ms step_avg:154.26ms
step:2421/3125 train_loss:3.3662 train_time:371917ms step_avg:154.26ms
step:2422/3125 train_loss:3.4761 train_time:372072ms step_avg:154.26ms
step:2423/3125 train_loss:3.5105 train_time:372223ms step_avg:154.26ms
step:2424/3125 train_loss:3.3362 train_time:372377ms step_avg:154.26ms
step:2425/3125 train_loss:3.4338 train_time:372531ms step_avg:154.26ms
step:2426/3125 train_loss:3.4236 train_time:372683ms step_avg:154.26ms
step:2427/3125 train_loss:3.3525 train_time:372836ms step_avg:154.26ms
step:2428/3125 train_loss:3.2981 train_time:372989ms step_avg:154.26ms
step:2429/3125 train_loss:3.4367 train_time:373142ms step_avg:154.25ms
step:2430/3125 train_loss:3.3264 train_time:373294ms step_avg:154.25ms
step:2431/3125 train_loss:3.3869 train_time:373448ms step_avg:154.25ms
step:2432/3125 train_loss:3.4451 train_time:373600ms step_avg:154.25ms
step:2433/3125 train_loss:3.4111 train_time:373753ms step_avg:154.25ms
step:2434/3125 train_loss:3.2721 train_time:373906ms step_avg:154.25ms
step:2435/3125 train_loss:3.2437 train_time:374058ms step_avg:154.25ms
step:2436/3125 train_loss:3.4109 train_time:374212ms step_avg:154.25ms
step:2437/3125 train_loss:3.2624 train_time:374365ms step_avg:154.25ms
step:2438/3125 train_loss:3.3445 train_time:374517ms step_avg:154.25ms
step:2439/3125 train_loss:3.4348 train_time:374672ms step_avg:154.25ms
step:2440/3125 train_loss:3.3534 train_time:374824ms step_avg:154.25ms
step:2441/3125 train_loss:3.4404 train_time:374976ms step_avg:154.25ms
step:2442/3125 train_loss:3.3283 train_time:375129ms step_avg:154.25ms
step:2443/3125 train_loss:3.3782 train_time:375281ms step_avg:154.25ms
step:2444/3125 train_loss:3.2684 train_time:375434ms step_avg:154.25ms
step:2445/3125 train_loss:3.2777 train_time:375588ms step_avg:154.25ms
step:2446/3125 train_loss:3.4405 train_time:375739ms step_avg:154.24ms
step:2447/3125 train_loss:3.3103 train_time:375894ms step_avg:154.24ms
step:2448/3125 train_loss:3.3789 train_time:376047ms step_avg:154.24ms
step:2449/3125 train_loss:3.5332 train_time:376199ms step_avg:154.24ms
step:2450/3125 train_loss:3.3721 train_time:376351ms step_avg:154.24ms
step:2451/3125 train_loss:3.4402 train_time:376505ms step_avg:154.24ms
step:2452/3125 train_loss:3.3440 train_time:376657ms step_avg:154.24ms
step:2453/3125 train_loss:3.4456 train_time:376812ms step_avg:154.24ms
step:2454/3125 train_loss:3.3399 train_time:376963ms step_avg:154.24ms
step:2455/3125 train_loss:3.4617 train_time:377115ms step_avg:154.24ms
step:2456/3125 train_loss:3.4023 train_time:377269ms step_avg:154.24ms
step:2457/3125 train_loss:3.3265 train_time:377564ms step_avg:154.30ms
step:2458/3125 train_loss:3.2385 train_time:377726ms step_avg:154.30ms
step:2459/3125 train_loss:3.3795 train_time:377877ms step_avg:154.30ms
step:2460/3125 train_loss:3.9751 train_time:378028ms step_avg:154.30ms
step:2461/3125 train_loss:3.4347 train_time:378177ms step_avg:154.30ms
step:2462/3125 train_loss:3.2523 train_time:378329ms step_avg:154.29ms
step:2463/3125 train_loss:3.4546 train_time:378482ms step_avg:154.29ms
step:2464/3125 train_loss:3.3639 train_time:378642ms step_avg:154.30ms
step:2465/3125 train_loss:3.5657 train_time:378797ms step_avg:154.30ms
step:2466/3125 train_loss:3.7346 train_time:378950ms step_avg:154.30ms
step:2467/3125 train_loss:3.4801 train_time:379101ms step_avg:154.29ms
step:2468/3125 train_loss:3.3563 train_time:379253ms step_avg:154.29ms
step:2469/3125 train_loss:3.4716 train_time:379404ms step_avg:154.29ms
step:2470/3125 train_loss:3.4807 train_time:379697ms step_avg:154.35ms
step:2471/3125 train_loss:3.2810 train_time:379848ms step_avg:154.35ms
step:2472/3125 train_loss:3.3761 train_time:379998ms step_avg:154.35ms
step:2473/3125 train_loss:3.3753 train_time:380149ms step_avg:154.34ms
step:2474/3125 train_loss:3.5153 train_time:380299ms step_avg:154.34ms
step:2475/3125 train_loss:3.6492 train_time:380450ms step_avg:154.34ms
step:2476/3125 train_loss:3.2319 train_time:380607ms step_avg:154.34ms
step:2477/3125 train_loss:3.4468 train_time:380762ms step_avg:154.34ms
step:2478/3125 train_loss:3.4089 train_time:380916ms step_avg:154.34ms
step:2479/3125 train_loss:3.2426 train_time:381068ms step_avg:154.34ms
step:2480/3125 train_loss:3.2469 train_time:381219ms step_avg:154.34ms
step:2481/3125 train_loss:3.3776 train_time:381372ms step_avg:154.34ms
step:2482/3125 train_loss:3.4036 train_time:381525ms step_avg:154.34ms
step:2483/3125 train_loss:3.4166 train_time:381682ms step_avg:154.34ms
step:2484/3125 train_loss:3.3757 train_time:381836ms step_avg:154.34ms
step:2485/3125 train_loss:3.3823 train_time:381988ms step_avg:154.34ms
step:2486/3125 train_loss:3.2704 train_time:382141ms step_avg:154.34ms
step:2487/3125 train_loss:3.4696 train_time:382292ms step_avg:154.34ms
step:2488/3125 train_loss:3.4196 train_time:382444ms step_avg:154.34ms
step:2489/3125 train_loss:3.3194 train_time:382595ms step_avg:154.33ms
step:2490/3125 train_loss:3.4381 train_time:382749ms step_avg:154.33ms
step:2491/3125 train_loss:3.4854 train_time:382901ms step_avg:154.33ms
step:2492/3125 train_loss:3.5635 train_time:383054ms step_avg:154.33ms
step:2493/3125 train_loss:3.4203 train_time:383208ms step_avg:154.33ms
step:2494/3125 train_loss:3.3436 train_time:383361ms step_avg:154.33ms
step:2495/3125 train_loss:3.4645 train_time:383514ms step_avg:154.33ms
step:2496/3125 train_loss:3.4152 train_time:383667ms step_avg:154.33ms
step:2497/3125 train_loss:3.3232 train_time:383818ms step_avg:154.33ms
step:2498/3125 train_loss:3.4216 train_time:383972ms step_avg:154.33ms
step:2499/3125 train_loss:3.4747 train_time:384125ms step_avg:154.33ms
step:2500/3125 train_loss:3.5017 train_time:384278ms step_avg:154.33ms
step:2500/3125 val_loss:3.3681 train_time:384328ms step_avg:154.35ms
step:2501/3125 train_loss:3.4377 train_time:384435ms step_avg:154.33ms
step:2502/3125 train_loss:3.3926 train_time:384587ms step_avg:154.33ms
step:2503/3125 train_loss:3.4073 train_time:384738ms step_avg:154.33ms
step:2504/3125 train_loss:3.2740 train_time:384888ms step_avg:154.33ms
step:2505/3125 train_loss:3.4713 train_time:385039ms step_avg:154.32ms
step:2506/3125 train_loss:3.4249 train_time:385190ms step_avg:154.32ms
step:2507/3125 train_loss:3.3645 train_time:385348ms step_avg:154.32ms
step:2508/3125 train_loss:3.3728 train_time:385502ms step_avg:154.32ms
step:2509/3125 train_loss:3.3253 train_time:385655ms step_avg:154.32ms
step:2510/3125 train_loss:3.5140 train_time:385807ms step_avg:154.32ms
step:2511/3125 train_loss:3.3293 train_time:385958ms step_avg:154.32ms
step:2512/3125 train_loss:3.3194 train_time:386110ms step_avg:154.32ms
step:2513/3125 train_loss:3.4057 train_time:386263ms step_avg:154.32ms
step:2514/3125 train_loss:3.4287 train_time:386417ms step_avg:154.32ms
step:2515/3125 train_loss:3.3259 train_time:386573ms step_avg:154.32ms
step:2516/3125 train_loss:3.4176 train_time:386727ms step_avg:154.32ms
step:2517/3125 train_loss:3.4044 train_time:386878ms step_avg:154.32ms
step:2518/3125 train_loss:3.2879 train_time:387030ms step_avg:154.32ms
step:2519/3125 train_loss:3.3147 train_time:387182ms step_avg:154.32ms
step:2520/3125 train_loss:3.4347 train_time:387333ms step_avg:154.32ms
step:2521/3125 train_loss:3.4210 train_time:387489ms step_avg:154.32ms
step:2522/3125 train_loss:3.3135 train_time:387645ms step_avg:154.32ms
step:2523/3125 train_loss:3.2904 train_time:387796ms step_avg:154.32ms
step:2524/3125 train_loss:3.3839 train_time:387948ms step_avg:154.31ms
step:2525/3125 train_loss:3.2375 train_time:388099ms step_avg:154.31ms
step:2526/3125 train_loss:3.4541 train_time:388250ms step_avg:154.31ms
step:2527/3125 train_loss:3.3598 train_time:388404ms step_avg:154.31ms
step:2528/3125 train_loss:3.3653 train_time:388557ms step_avg:154.31ms
step:2529/3125 train_loss:3.3512 train_time:388711ms step_avg:154.31ms
step:2530/3125 train_loss:3.3673 train_time:388865ms step_avg:154.31ms
step:2531/3125 train_loss:3.4065 train_time:389018ms step_avg:154.31ms
step:2532/3125 train_loss:3.2255 train_time:389170ms step_avg:154.31ms
step:2533/3125 train_loss:3.3924 train_time:389324ms step_avg:154.31ms
step:2534/3125 train_loss:3.2861 train_time:389476ms step_avg:154.31ms
step:2535/3125 train_loss:3.3253 train_time:389630ms step_avg:154.31ms
step:2536/3125 train_loss:3.3823 train_time:389784ms step_avg:154.31ms
step:2537/3125 train_loss:3.3883 train_time:389937ms step_avg:154.31ms
step:2538/3125 train_loss:3.2191 train_time:390089ms step_avg:154.31ms
step:2539/3125 train_loss:3.5265 train_time:390243ms step_avg:154.31ms
step:2540/3125 train_loss:3.2088 train_time:390395ms step_avg:154.31ms
step:2541/3125 train_loss:3.3902 train_time:390548ms step_avg:154.31ms
step:2542/3125 train_loss:3.1643 train_time:390702ms step_avg:154.31ms
step:2543/3125 train_loss:3.5957 train_time:390854ms step_avg:154.30ms
step:2544/3125 train_loss:3.3597 train_time:391008ms step_avg:154.30ms
step:2545/3125 train_loss:3.5213 train_time:391161ms step_avg:154.30ms
step:2546/3125 train_loss:3.3546 train_time:391313ms step_avg:154.30ms
step:2547/3125 train_loss:3.3289 train_time:391468ms step_avg:154.30ms
step:2548/3125 train_loss:3.3396 train_time:391621ms step_avg:154.30ms
step:2549/3125 train_loss:3.4982 train_time:391771ms step_avg:154.30ms
step:2550/3125 train_loss:3.3554 train_time:391926ms step_avg:154.30ms
step:2551/3125 train_loss:3.3537 train_time:392080ms step_avg:154.30ms
step:2552/3125 train_loss:3.3859 train_time:392231ms step_avg:154.30ms
step:2553/3125 train_loss:3.4092 train_time:392384ms step_avg:154.30ms
step:2554/3125 train_loss:3.3136 train_time:392537ms step_avg:154.30ms
step:2555/3125 train_loss:3.4204 train_time:392689ms step_avg:154.30ms
step:2556/3125 train_loss:3.4744 train_time:392844ms step_avg:154.30ms
step:2557/3125 train_loss:3.4615 train_time:392996ms step_avg:154.30ms
step:2558/3125 train_loss:3.3067 train_time:393149ms step_avg:154.30ms
step:2559/3125 train_loss:3.3114 train_time:393302ms step_avg:154.30ms
step:2560/3125 train_loss:3.3192 train_time:393453ms step_avg:154.30ms
step:2561/3125 train_loss:3.4405 train_time:393607ms step_avg:154.30ms
step:2562/3125 train_loss:3.4740 train_time:393760ms step_avg:154.29ms
step:2563/3125 train_loss:3.3538 train_time:393912ms step_avg:154.29ms
step:2564/3125 train_loss:3.3875 train_time:394066ms step_avg:154.29ms
step:2565/3125 train_loss:3.3038 train_time:394220ms step_avg:154.29ms
step:2566/3125 train_loss:3.3157 train_time:394371ms step_avg:154.29ms
step:2567/3125 train_loss:3.3135 train_time:394526ms step_avg:154.29ms
step:2568/3125 train_loss:3.3603 train_time:394678ms step_avg:154.29ms
step:2569/3125 train_loss:3.5061 train_time:394829ms step_avg:154.29ms
step:2570/3125 train_loss:3.4039 train_time:394982ms step_avg:154.29ms
step:2571/3125 train_loss:3.4820 train_time:395134ms step_avg:154.29ms
step:2572/3125 train_loss:3.2470 train_time:395289ms step_avg:154.29ms
step:2573/3125 train_loss:3.3477 train_time:395442ms step_avg:154.29ms
step:2574/3125 train_loss:3.0047 train_time:395595ms step_avg:154.29ms
step:2575/3125 train_loss:3.2538 train_time:395748ms step_avg:154.29ms
step:2576/3125 train_loss:3.1967 train_time:395900ms step_avg:154.29ms
step:2577/3125 train_loss:3.3131 train_time:396052ms step_avg:154.29ms
step:2578/3125 train_loss:3.3600 train_time:396207ms step_avg:154.29ms
step:2579/3125 train_loss:3.2747 train_time:396361ms step_avg:154.29ms
step:2580/3125 train_loss:3.3260 train_time:396513ms step_avg:154.29ms
step:2581/3125 train_loss:3.2736 train_time:396667ms step_avg:154.29ms
step:2582/3125 train_loss:3.3822 train_time:396821ms step_avg:154.28ms
step:2583/3125 train_loss:3.2639 train_time:396973ms step_avg:154.28ms
step:2584/3125 train_loss:3.4505 train_time:397126ms step_avg:154.28ms
step:2585/3125 train_loss:3.3599 train_time:397279ms step_avg:154.28ms
step:2586/3125 train_loss:3.3756 train_time:397431ms step_avg:154.28ms
step:2587/3125 train_loss:3.4992 train_time:397583ms step_avg:154.28ms
step:2588/3125 train_loss:3.3905 train_time:397737ms step_avg:154.28ms
step:2589/3125 train_loss:3.2503 train_time:397889ms step_avg:154.28ms
step:2590/3125 train_loss:3.4125 train_time:398042ms step_avg:154.28ms
step:2591/3125 train_loss:3.3189 train_time:398194ms step_avg:154.28ms
step:2592/3125 train_loss:3.5338 train_time:398348ms step_avg:154.28ms
step:2593/3125 train_loss:3.3937 train_time:398501ms step_avg:154.28ms
step:2594/3125 train_loss:3.2165 train_time:398654ms step_avg:154.28ms
step:2595/3125 train_loss:3.2886 train_time:398808ms step_avg:154.28ms
step:2596/3125 train_loss:3.7128 train_time:398961ms step_avg:154.28ms
step:2597/3125 train_loss:3.3824 train_time:399114ms step_avg:154.28ms
step:2598/3125 train_loss:3.3684 train_time:399267ms step_avg:154.28ms
step:2599/3125 train_loss:3.2253 train_time:399421ms step_avg:154.28ms
step:2600/3125 train_loss:3.4672 train_time:399572ms step_avg:154.27ms
step:2601/3125 train_loss:3.6318 train_time:399726ms step_avg:154.27ms
step:2602/3125 train_loss:3.2151 train_time:399879ms step_avg:154.27ms
step:2603/3125 train_loss:3.3547 train_time:400032ms step_avg:154.27ms
step:2604/3125 train_loss:3.1978 train_time:400186ms step_avg:154.27ms
step:2605/3125 train_loss:3.4875 train_time:400339ms step_avg:154.27ms
step:2606/3125 train_loss:3.3501 train_time:400492ms step_avg:154.27ms
step:2607/3125 train_loss:3.2414 train_time:400646ms step_avg:154.27ms
step:2608/3125 train_loss:3.2066 train_time:400798ms step_avg:154.27ms
step:2609/3125 train_loss:3.3254 train_time:400950ms step_avg:154.27ms
step:2610/3125 train_loss:3.5016 train_time:401105ms step_avg:154.27ms
step:2611/3125 train_loss:3.3673 train_time:401257ms step_avg:154.27ms
step:2612/3125 train_loss:3.2153 train_time:401410ms step_avg:154.27ms
step:2613/3125 train_loss:3.2983 train_time:401564ms step_avg:154.27ms
step:2614/3125 train_loss:3.4090 train_time:401717ms step_avg:154.27ms
step:2615/3125 train_loss:3.3459 train_time:401870ms step_avg:154.27ms
step:2616/3125 train_loss:3.3365 train_time:402023ms step_avg:154.27ms
step:2617/3125 train_loss:3.3804 train_time:402176ms step_avg:154.27ms
step:2618/3125 train_loss:3.4100 train_time:402330ms step_avg:154.27ms
step:2619/3125 train_loss:3.2654 train_time:402482ms step_avg:154.27ms
step:2620/3125 train_loss:3.4366 train_time:402634ms step_avg:154.27ms
step:2621/3125 train_loss:3.4014 train_time:402787ms step_avg:154.27ms
step:2622/3125 train_loss:3.5264 train_time:402940ms step_avg:154.26ms
step:2623/3125 train_loss:3.4416 train_time:403091ms step_avg:154.26ms
step:2624/3125 train_loss:3.3631 train_time:403245ms step_avg:154.26ms
step:2625/3125 train_loss:3.3114 train_time:403397ms step_avg:154.26ms
step:2625/3125 val_loss:3.3460 train_time:403446ms step_avg:154.28ms
step:2626/3125 train_loss:3.3423 train_time:403552ms step_avg:154.26ms
step:2627/3125 train_loss:3.4036 train_time:403706ms step_avg:154.26ms
step:2628/3125 train_loss:3.2145 train_time:403859ms step_avg:154.26ms
step:2629/3125 train_loss:3.4877 train_time:404010ms step_avg:154.26ms
step:2630/3125 train_loss:3.3684 train_time:404160ms step_avg:154.26ms
step:2631/3125 train_loss:3.4114 train_time:404311ms step_avg:154.26ms
step:2632/3125 train_loss:3.6461 train_time:404467ms step_avg:154.26ms
step:2633/3125 train_loss:3.3924 train_time:404622ms step_avg:154.26ms
step:2634/3125 train_loss:3.3111 train_time:404774ms step_avg:154.26ms
step:2635/3125 train_loss:3.2864 train_time:404926ms step_avg:154.26ms
step:2636/3125 train_loss:3.3258 train_time:405080ms step_avg:154.26ms
step:2637/3125 train_loss:3.1150 train_time:405231ms step_avg:154.26ms
step:2638/3125 train_loss:3.4275 train_time:405383ms step_avg:154.26ms
step:2639/3125 train_loss:3.4051 train_time:405539ms step_avg:154.26ms
step:2640/3125 train_loss:3.2908 train_time:405693ms step_avg:154.26ms
step:2641/3125 train_loss:3.3783 train_time:405844ms step_avg:154.25ms
step:2642/3125 train_loss:3.4076 train_time:405998ms step_avg:154.25ms
step:2643/3125 train_loss:3.1959 train_time:406151ms step_avg:154.25ms
step:2644/3125 train_loss:3.3220 train_time:406304ms step_avg:154.25ms
step:2645/3125 train_loss:3.3945 train_time:406458ms step_avg:154.25ms
step:2646/3125 train_loss:3.3511 train_time:406749ms step_avg:154.31ms
step:2647/3125 train_loss:3.2461 train_time:406908ms step_avg:154.31ms
step:2648/3125 train_loss:3.4648 train_time:407060ms step_avg:154.31ms
step:2649/3125 train_loss:3.7189 train_time:407209ms step_avg:154.30ms
step:2650/3125 train_loss:3.3661 train_time:407360ms step_avg:154.30ms
step:2651/3125 train_loss:3.3231 train_time:407509ms step_avg:154.30ms
step:2652/3125 train_loss:3.4589 train_time:407664ms step_avg:154.30ms
step:2653/3125 train_loss:3.2947 train_time:407820ms step_avg:154.30ms
step:2654/3125 train_loss:3.2839 train_time:407973ms step_avg:154.30ms
step:2655/3125 train_loss:3.3569 train_time:408125ms step_avg:154.30ms
step:2656/3125 train_loss:3.2754 train_time:408279ms step_avg:154.30ms
step:2657/3125 train_loss:3.3073 train_time:408430ms step_avg:154.30ms
step:2658/3125 train_loss:3.2761 train_time:408581ms step_avg:154.30ms
step:2659/3125 train_loss:3.3623 train_time:408737ms step_avg:154.30ms
step:2660/3125 train_loss:3.5048 train_time:409055ms step_avg:154.36ms
step:2661/3125 train_loss:3.2967 train_time:409210ms step_avg:154.36ms
step:2662/3125 train_loss:3.4442 train_time:409361ms step_avg:154.36ms
step:2663/3125 train_loss:3.3143 train_time:409514ms step_avg:154.36ms
step:2664/3125 train_loss:3.3120 train_time:409664ms step_avg:154.36ms
step:2665/3125 train_loss:3.2434 train_time:409816ms step_avg:154.36ms
step:2666/3125 train_loss:3.2858 train_time:409971ms step_avg:154.36ms
step:2667/3125 train_loss:3.3324 train_time:410129ms step_avg:154.36ms
step:2668/3125 train_loss:3.3706 train_time:410282ms step_avg:154.36ms
step:2669/3125 train_loss:3.2780 train_time:410435ms step_avg:154.36ms
step:2670/3125 train_loss:3.3419 train_time:410587ms step_avg:154.36ms
step:2671/3125 train_loss:3.2363 train_time:410739ms step_avg:154.36ms
step:2672/3125 train_loss:3.3012 train_time:410890ms step_avg:154.35ms
step:2673/3125 train_loss:3.2850 train_time:411043ms step_avg:154.35ms
step:2674/3125 train_loss:3.3508 train_time:411198ms step_avg:154.35ms
step:2675/3125 train_loss:3.3736 train_time:411351ms step_avg:154.35ms
step:2676/3125 train_loss:3.3417 train_time:411503ms step_avg:154.35ms
step:2677/3125 train_loss:3.3313 train_time:411657ms step_avg:154.35ms
step:2678/3125 train_loss:3.3643 train_time:411809ms step_avg:154.35ms
step:2679/3125 train_loss:3.4101 train_time:411962ms step_avg:154.35ms
step:2680/3125 train_loss:3.3105 train_time:412116ms step_avg:154.35ms
step:2681/3125 train_loss:3.2363 train_time:412268ms step_avg:154.35ms
step:2682/3125 train_loss:3.2861 train_time:412421ms step_avg:154.35ms
step:2683/3125 train_loss:3.7555 train_time:412576ms step_avg:154.35ms
step:2684/3125 train_loss:3.3386 train_time:412729ms step_avg:154.35ms
step:2685/3125 train_loss:3.3731 train_time:412881ms step_avg:154.35ms
step:2686/3125 train_loss:3.4153 train_time:413034ms step_avg:154.35ms
step:2687/3125 train_loss:3.3346 train_time:413187ms step_avg:154.35ms
step:2688/3125 train_loss:3.4168 train_time:413340ms step_avg:154.35ms
step:2689/3125 train_loss:3.3488 train_time:413492ms step_avg:154.35ms
step:2690/3125 train_loss:3.3316 train_time:413644ms step_avg:154.34ms
step:2691/3125 train_loss:3.3622 train_time:413799ms step_avg:154.35ms
step:2692/3125 train_loss:3.4353 train_time:413952ms step_avg:154.34ms
step:2693/3125 train_loss:3.2257 train_time:414104ms step_avg:154.34ms
step:2694/3125 train_loss:3.6146 train_time:414258ms step_avg:154.34ms
step:2695/3125 train_loss:3.4111 train_time:414413ms step_avg:154.34ms
step:2696/3125 train_loss:3.2000 train_time:414565ms step_avg:154.34ms
step:2697/3125 train_loss:3.3932 train_time:414719ms step_avg:154.34ms
step:2698/3125 train_loss:3.3573 train_time:414873ms step_avg:154.34ms
step:2699/3125 train_loss:3.3138 train_time:415025ms step_avg:154.34ms
step:2700/3125 train_loss:3.4098 train_time:415179ms step_avg:154.34ms
step:2701/3125 train_loss:3.3889 train_time:415333ms step_avg:154.34ms
step:2702/3125 train_loss:3.2927 train_time:415485ms step_avg:154.34ms
step:2703/3125 train_loss:3.3122 train_time:415640ms step_avg:154.34ms
step:2704/3125 train_loss:3.3230 train_time:415793ms step_avg:154.34ms
step:2705/3125 train_loss:3.2919 train_time:415945ms step_avg:154.34ms
step:2706/3125 train_loss:3.4581 train_time:416099ms step_avg:154.34ms
step:2707/3125 train_loss:3.4238 train_time:416252ms step_avg:154.34ms
step:2708/3125 train_loss:3.3267 train_time:416405ms step_avg:154.34ms
step:2709/3125 train_loss:3.3325 train_time:416559ms step_avg:154.34ms
step:2710/3125 train_loss:3.4287 train_time:416712ms step_avg:154.34ms
step:2711/3125 train_loss:3.3092 train_time:416863ms step_avg:154.34ms
step:2712/3125 train_loss:3.4254 train_time:417018ms step_avg:154.34ms
step:2713/3125 train_loss:3.1611 train_time:417169ms step_avg:154.34ms
step:2714/3125 train_loss:3.3584 train_time:417322ms step_avg:154.34ms
step:2715/3125 train_loss:3.2400 train_time:417475ms step_avg:154.33ms
step:2716/3125 train_loss:3.2616 train_time:417627ms step_avg:154.33ms
step:2717/3125 train_loss:3.4540 train_time:417781ms step_avg:154.33ms
step:2718/3125 train_loss:3.3505 train_time:417936ms step_avg:154.33ms
step:2719/3125 train_loss:3.5815 train_time:418087ms step_avg:154.33ms
step:2720/3125 train_loss:3.3258 train_time:418240ms step_avg:154.33ms
step:2721/3125 train_loss:3.3161 train_time:418393ms step_avg:154.33ms
step:2722/3125 train_loss:3.5408 train_time:418544ms step_avg:154.33ms
step:2723/3125 train_loss:3.3124 train_time:418699ms step_avg:154.33ms
step:2724/3125 train_loss:3.4836 train_time:418850ms step_avg:154.33ms
step:2725/3125 train_loss:3.3705 train_time:419002ms step_avg:154.33ms
step:2726/3125 train_loss:3.3304 train_time:419156ms step_avg:154.33ms
step:2727/3125 train_loss:3.3358 train_time:419310ms step_avg:154.33ms
step:2728/3125 train_loss:3.6723 train_time:419462ms step_avg:154.33ms
step:2729/3125 train_loss:3.4028 train_time:419616ms step_avg:154.33ms
step:2730/3125 train_loss:3.2614 train_time:419768ms step_avg:154.33ms
step:2731/3125 train_loss:3.3769 train_time:419921ms step_avg:154.33ms
step:2732/3125 train_loss:3.2831 train_time:420075ms step_avg:154.33ms
step:2733/3125 train_loss:3.1705 train_time:420228ms step_avg:154.33ms
step:2734/3125 train_loss:3.2795 train_time:420381ms step_avg:154.33ms
step:2735/3125 train_loss:3.3556 train_time:420536ms step_avg:154.33ms
step:2736/3125 train_loss:3.2469 train_time:420687ms step_avg:154.32ms
step:2737/3125 train_loss:3.6443 train_time:420841ms step_avg:154.32ms
step:2738/3125 train_loss:3.3955 train_time:420993ms step_avg:154.32ms
step:2739/3125 train_loss:3.5883 train_time:421147ms step_avg:154.32ms
step:2740/3125 train_loss:3.3410 train_time:421301ms step_avg:154.32ms
step:2741/3125 train_loss:3.3372 train_time:421455ms step_avg:154.32ms
step:2742/3125 train_loss:3.2768 train_time:421609ms step_avg:154.32ms
step:2743/3125 train_loss:3.3448 train_time:421761ms step_avg:154.32ms
step:2744/3125 train_loss:3.3572 train_time:421916ms step_avg:154.32ms
step:2745/3125 train_loss:3.4482 train_time:422067ms step_avg:154.32ms
step:2746/3125 train_loss:3.2316 train_time:422220ms step_avg:154.32ms
step:2747/3125 train_loss:3.3180 train_time:422373ms step_avg:154.32ms
step:2748/3125 train_loss:3.3601 train_time:422525ms step_avg:154.32ms
step:2749/3125 train_loss:3.4664 train_time:422679ms step_avg:154.32ms
step:2750/3125 train_loss:3.3139 train_time:422834ms step_avg:154.32ms
step:2750/3125 val_loss:3.3258 train_time:422881ms step_avg:154.34ms
step:2751/3125 train_loss:3.3926 train_time:422990ms step_avg:154.32ms
step:2752/3125 train_loss:3.4403 train_time:423145ms step_avg:154.32ms
step:2753/3125 train_loss:3.3471 train_time:423297ms step_avg:154.32ms
step:2754/3125 train_loss:3.2815 train_time:423447ms step_avg:154.32ms
step:2755/3125 train_loss:3.2849 train_time:423597ms step_avg:154.32ms
step:2756/3125 train_loss:3.3591 train_time:423749ms step_avg:154.32ms
step:2757/3125 train_loss:3.2973 train_time:423903ms step_avg:154.31ms
step:2758/3125 train_loss:3.1748 train_time:424060ms step_avg:154.32ms
step:2759/3125 train_loss:3.5754 train_time:424213ms step_avg:154.32ms
step:2760/3125 train_loss:3.3779 train_time:424366ms step_avg:154.31ms
step:2761/3125 train_loss:3.3468 train_time:424517ms step_avg:154.31ms
step:2762/3125 train_loss:3.3092 train_time:424670ms step_avg:154.31ms
step:2763/3125 train_loss:3.2222 train_time:424820ms step_avg:154.31ms
step:2764/3125 train_loss:3.3913 train_time:424977ms step_avg:154.31ms
step:2765/3125 train_loss:3.3173 train_time:425131ms step_avg:154.31ms
step:2766/3125 train_loss:3.2109 train_time:425284ms step_avg:154.31ms
step:2767/3125 train_loss:3.3096 train_time:425437ms step_avg:154.31ms
step:2768/3125 train_loss:3.3782 train_time:425590ms step_avg:154.31ms
step:2769/3125 train_loss:3.2631 train_time:425741ms step_avg:154.31ms
step:2770/3125 train_loss:3.3425 train_time:425896ms step_avg:154.31ms
step:2771/3125 train_loss:3.3155 train_time:426050ms step_avg:154.31ms
step:2772/3125 train_loss:3.7507 train_time:426204ms step_avg:154.31ms
step:2773/3125 train_loss:3.2313 train_time:426357ms step_avg:154.31ms
step:2774/3125 train_loss:3.3655 train_time:426511ms step_avg:154.31ms
step:2775/3125 train_loss:3.4190 train_time:426661ms step_avg:154.31ms
step:2776/3125 train_loss:3.3876 train_time:426814ms step_avg:154.31ms
step:2777/3125 train_loss:3.4529 train_time:426967ms step_avg:154.31ms
step:2778/3125 train_loss:3.4642 train_time:427120ms step_avg:154.31ms
step:2779/3125 train_loss:3.3389 train_time:427275ms step_avg:154.31ms
step:2780/3125 train_loss:3.1985 train_time:427429ms step_avg:154.31ms
step:2781/3125 train_loss:3.3453 train_time:427581ms step_avg:154.31ms
step:2782/3125 train_loss:3.3703 train_time:427736ms step_avg:154.31ms
step:2783/3125 train_loss:3.2418 train_time:427888ms step_avg:154.31ms
step:2784/3125 train_loss:3.3333 train_time:428040ms step_avg:154.30ms
step:2785/3125 train_loss:3.3966 train_time:428194ms step_avg:154.30ms
step:2786/3125 train_loss:3.2799 train_time:428348ms step_avg:154.30ms
step:2787/3125 train_loss:3.3899 train_time:428500ms step_avg:154.30ms
step:2788/3125 train_loss:3.3542 train_time:428655ms step_avg:154.30ms
step:2789/3125 train_loss:3.2857 train_time:428808ms step_avg:154.30ms
step:2790/3125 train_loss:3.3775 train_time:428960ms step_avg:154.30ms
step:2791/3125 train_loss:3.3052 train_time:429113ms step_avg:154.30ms
step:2792/3125 train_loss:3.2068 train_time:429267ms step_avg:154.30ms
step:2793/3125 train_loss:3.3020 train_time:429419ms step_avg:154.30ms
step:2794/3125 train_loss:3.3562 train_time:429574ms step_avg:154.30ms
step:2795/3125 train_loss:3.2659 train_time:429725ms step_avg:154.30ms
step:2796/3125 train_loss:3.3085 train_time:429878ms step_avg:154.30ms
step:2797/3125 train_loss:3.2118 train_time:430032ms step_avg:154.30ms
step:2798/3125 train_loss:3.3241 train_time:430184ms step_avg:154.30ms
step:2799/3125 train_loss:3.2858 train_time:430339ms step_avg:154.30ms
step:2800/3125 train_loss:3.4475 train_time:430491ms step_avg:154.30ms
step:2801/3125 train_loss:3.3924 train_time:430644ms step_avg:154.30ms
step:2802/3125 train_loss:3.3787 train_time:430797ms step_avg:154.30ms
step:2803/3125 train_loss:3.3160 train_time:430950ms step_avg:154.30ms
step:2804/3125 train_loss:3.4862 train_time:431102ms step_avg:154.30ms
step:2805/3125 train_loss:3.4679 train_time:431256ms step_avg:154.30ms
step:2806/3125 train_loss:3.1887 train_time:431409ms step_avg:154.30ms
step:2807/3125 train_loss:3.5835 train_time:431561ms step_avg:154.29ms
step:2808/3125 train_loss:3.3312 train_time:431715ms step_avg:154.29ms
step:2809/3125 train_loss:3.2641 train_time:431868ms step_avg:154.29ms
step:2810/3125 train_loss:3.2790 train_time:432020ms step_avg:154.29ms
step:2811/3125 train_loss:3.4427 train_time:432174ms step_avg:154.29ms
step:2812/3125 train_loss:3.4269 train_time:432326ms step_avg:154.29ms
step:2813/3125 train_loss:3.1816 train_time:432478ms step_avg:154.29ms
step:2814/3125 train_loss:3.4002 train_time:432632ms step_avg:154.29ms
step:2815/3125 train_loss:3.4748 train_time:432785ms step_avg:154.29ms
step:2816/3125 train_loss:3.2791 train_time:432937ms step_avg:154.29ms
step:2817/3125 train_loss:2.9255 train_time:433090ms step_avg:154.29ms
step:2818/3125 train_loss:3.2998 train_time:433242ms step_avg:154.29ms
step:2819/3125 train_loss:3.2696 train_time:433396ms step_avg:154.29ms
step:2820/3125 train_loss:3.4659 train_time:433549ms step_avg:154.29ms
step:2821/3125 train_loss:3.3081 train_time:433701ms step_avg:154.29ms
step:2822/3125 train_loss:3.3866 train_time:433856ms step_avg:154.29ms
step:2823/3125 train_loss:3.3224 train_time:434010ms step_avg:154.29ms
step:2824/3125 train_loss:3.2941 train_time:434162ms step_avg:154.29ms
step:2825/3125 train_loss:3.1931 train_time:434315ms step_avg:154.29ms
step:2826/3125 train_loss:3.4483 train_time:434469ms step_avg:154.29ms
step:2827/3125 train_loss:3.3422 train_time:434620ms step_avg:154.28ms
step:2828/3125 train_loss:3.2351 train_time:434775ms step_avg:154.28ms
step:2829/3125 train_loss:3.3686 train_time:434927ms step_avg:154.28ms
step:2830/3125 train_loss:3.3580 train_time:435081ms step_avg:154.28ms
step:2831/3125 train_loss:3.2957 train_time:435236ms step_avg:154.28ms
step:2832/3125 train_loss:3.4448 train_time:435389ms step_avg:154.28ms
step:2833/3125 train_loss:3.3542 train_time:435542ms step_avg:154.28ms
step:2834/3125 train_loss:3.3455 train_time:435696ms step_avg:154.28ms
step:2835/3125 train_loss:3.1505 train_time:435992ms step_avg:154.33ms
step:2836/3125 train_loss:3.3735 train_time:436151ms step_avg:154.34ms
step:2837/3125 train_loss:3.3125 train_time:436301ms step_avg:154.33ms
step:2838/3125 train_loss:3.6011 train_time:436453ms step_avg:154.33ms
step:2839/3125 train_loss:3.2654 train_time:436604ms step_avg:154.33ms
step:2840/3125 train_loss:3.2752 train_time:436755ms step_avg:154.33ms
step:2841/3125 train_loss:3.3281 train_time:436911ms step_avg:154.33ms
step:2842/3125 train_loss:3.2622 train_time:437068ms step_avg:154.33ms
step:2843/3125 train_loss:3.2645 train_time:437220ms step_avg:154.33ms
step:2844/3125 train_loss:3.4351 train_time:437373ms step_avg:154.33ms
step:2845/3125 train_loss:3.3106 train_time:437525ms step_avg:154.33ms
step:2846/3125 train_loss:3.3493 train_time:437676ms step_avg:154.33ms
step:2847/3125 train_loss:3.3068 train_time:437828ms step_avg:154.33ms
step:2848/3125 train_loss:3.5638 train_time:437983ms step_avg:154.33ms
step:2849/3125 train_loss:3.2340 train_time:438140ms step_avg:154.33ms
step:2850/3125 train_loss:3.2736 train_time:438457ms step_avg:154.39ms
step:2851/3125 train_loss:3.3700 train_time:438616ms step_avg:154.39ms
step:2852/3125 train_loss:3.3461 train_time:438767ms step_avg:154.39ms
step:2853/3125 train_loss:3.3056 train_time:438917ms step_avg:154.39ms
step:2854/3125 train_loss:3.3795 train_time:439069ms step_avg:154.38ms
step:2855/3125 train_loss:3.2028 train_time:439218ms step_avg:154.38ms
step:2856/3125 train_loss:3.2261 train_time:439377ms step_avg:154.38ms
step:2857/3125 train_loss:3.3209 train_time:439535ms step_avg:154.39ms
step:2858/3125 train_loss:3.3167 train_time:439687ms step_avg:154.38ms
step:2859/3125 train_loss:3.2206 train_time:439838ms step_avg:154.38ms
step:2860/3125 train_loss:3.3032 train_time:439989ms step_avg:154.38ms
step:2861/3125 train_loss:3.2683 train_time:440139ms step_avg:154.38ms
step:2862/3125 train_loss:3.3012 train_time:440291ms step_avg:154.38ms
step:2863/3125 train_loss:3.3498 train_time:440446ms step_avg:154.38ms
step:2864/3125 train_loss:3.6139 train_time:440602ms step_avg:154.38ms
step:2865/3125 train_loss:3.4146 train_time:440757ms step_avg:154.38ms
step:2866/3125 train_loss:3.3171 train_time:440910ms step_avg:154.38ms
step:2867/3125 train_loss:3.1886 train_time:441062ms step_avg:154.38ms
step:2868/3125 train_loss:3.3925 train_time:441213ms step_avg:154.38ms
step:2869/3125 train_loss:3.3521 train_time:441366ms step_avg:154.38ms
step:2870/3125 train_loss:3.3056 train_time:441518ms step_avg:154.38ms
step:2871/3125 train_loss:3.4531 train_time:441672ms step_avg:154.38ms
step:2872/3125 train_loss:3.2098 train_time:441826ms step_avg:154.38ms
step:2873/3125 train_loss:3.2949 train_time:441978ms step_avg:154.38ms
step:2874/3125 train_loss:3.1587 train_time:442130ms step_avg:154.38ms
step:2875/3125 train_loss:3.3076 train_time:442282ms step_avg:154.37ms
step:2875/3125 val_loss:3.3074 train_time:442332ms step_avg:154.39ms
step:2876/3125 train_loss:3.2264 train_time:442438ms step_avg:154.37ms
step:2877/3125 train_loss:3.2100 train_time:442594ms step_avg:154.38ms
step:2878/3125 train_loss:3.2980 train_time:442746ms step_avg:154.37ms
step:2879/3125 train_loss:3.4167 train_time:442896ms step_avg:154.37ms
step:2880/3125 train_loss:3.3673 train_time:443047ms step_avg:154.37ms
step:2881/3125 train_loss:3.3223 train_time:443198ms step_avg:154.37ms
step:2882/3125 train_loss:3.3073 train_time:443352ms step_avg:154.37ms
step:2883/3125 train_loss:3.4160 train_time:443508ms step_avg:154.37ms
step:2884/3125 train_loss:3.1998 train_time:443662ms step_avg:154.37ms
step:2885/3125 train_loss:3.2152 train_time:443814ms step_avg:154.37ms
step:2886/3125 train_loss:3.2753 train_time:443967ms step_avg:154.37ms
step:2887/3125 train_loss:3.2724 train_time:444118ms step_avg:154.37ms
step:2888/3125 train_loss:3.2708 train_time:444271ms step_avg:154.37ms
step:2889/3125 train_loss:3.3023 train_time:444424ms step_avg:154.37ms
step:2890/3125 train_loss:3.4908 train_time:444578ms step_avg:154.37ms
step:2891/3125 train_loss:3.3259 train_time:444732ms step_avg:154.37ms
step:2892/3125 train_loss:3.1562 train_time:444884ms step_avg:154.37ms
step:2893/3125 train_loss:3.0942 train_time:445035ms step_avg:154.37ms
step:2894/3125 train_loss:3.2365 train_time:445188ms step_avg:154.36ms
step:2895/3125 train_loss:3.1244 train_time:445342ms step_avg:154.36ms
step:2896/3125 train_loss:3.2953 train_time:445494ms step_avg:154.36ms
step:2897/3125 train_loss:3.4316 train_time:445648ms step_avg:154.36ms
step:2898/3125 train_loss:3.2539 train_time:445801ms step_avg:154.36ms
step:2899/3125 train_loss:3.3453 train_time:445955ms step_avg:154.36ms
step:2900/3125 train_loss:3.2266 train_time:446108ms step_avg:154.36ms
step:2901/3125 train_loss:3.4197 train_time:446261ms step_avg:154.36ms
step:2902/3125 train_loss:3.4066 train_time:446413ms step_avg:154.36ms
step:2903/3125 train_loss:3.4342 train_time:446569ms step_avg:154.36ms
step:2904/3125 train_loss:3.1649 train_time:446722ms step_avg:154.36ms
step:2905/3125 train_loss:3.3040 train_time:446875ms step_avg:154.36ms
step:2906/3125 train_loss:3.2846 train_time:447030ms step_avg:154.36ms
step:2907/3125 train_loss:3.3360 train_time:447182ms step_avg:154.36ms
step:2908/3125 train_loss:3.2906 train_time:447334ms step_avg:154.36ms
step:2909/3125 train_loss:3.2648 train_time:447488ms step_avg:154.36ms
step:2910/3125 train_loss:3.5996 train_time:447641ms step_avg:154.36ms
step:2911/3125 train_loss:3.3054 train_time:447794ms step_avg:154.36ms
step:2912/3125 train_loss:3.2225 train_time:447947ms step_avg:154.36ms
step:2913/3125 train_loss:3.2087 train_time:448100ms step_avg:154.36ms
step:2914/3125 train_loss:3.6773 train_time:448252ms step_avg:154.36ms
step:2915/3125 train_loss:3.2733 train_time:448405ms step_avg:154.36ms
step:2916/3125 train_loss:3.2298 train_time:448558ms step_avg:154.36ms
step:2917/3125 train_loss:3.2150 train_time:448711ms step_avg:154.36ms
step:2918/3125 train_loss:3.4913 train_time:448864ms step_avg:154.35ms
step:2919/3125 train_loss:2.9998 train_time:449016ms step_avg:154.35ms
step:2920/3125 train_loss:3.1911 train_time:449170ms step_avg:154.35ms
step:2921/3125 train_loss:3.2185 train_time:449324ms step_avg:154.35ms
step:2922/3125 train_loss:3.3154 train_time:449476ms step_avg:154.35ms
step:2923/3125 train_loss:3.3540 train_time:449629ms step_avg:154.35ms
step:2924/3125 train_loss:3.3888 train_time:449783ms step_avg:154.35ms
step:2925/3125 train_loss:3.4044 train_time:449936ms step_avg:154.35ms
step:2926/3125 train_loss:3.2866 train_time:450089ms step_avg:154.35ms
step:2927/3125 train_loss:3.2895 train_time:450243ms step_avg:154.35ms
step:2928/3125 train_loss:3.2798 train_time:450394ms step_avg:154.35ms
step:2929/3125 train_loss:3.2837 train_time:450548ms step_avg:154.35ms
step:2930/3125 train_loss:3.2346 train_time:450701ms step_avg:154.35ms
step:2931/3125 train_loss:3.2695 train_time:450854ms step_avg:154.35ms
step:2932/3125 train_loss:3.3993 train_time:451008ms step_avg:154.35ms
step:2933/3125 train_loss:3.4440 train_time:451162ms step_avg:154.35ms
step:2934/3125 train_loss:3.4133 train_time:451314ms step_avg:154.35ms
step:2935/3125 train_loss:3.2553 train_time:451469ms step_avg:154.35ms
step:2936/3125 train_loss:3.3048 train_time:451621ms step_avg:154.35ms
step:2937/3125 train_loss:3.2574 train_time:451774ms step_avg:154.35ms
step:2938/3125 train_loss:3.2745 train_time:451929ms step_avg:154.35ms
step:2939/3125 train_loss:3.2985 train_time:452083ms step_avg:154.35ms
step:2940/3125 train_loss:3.3406 train_time:452235ms step_avg:154.35ms
step:2941/3125 train_loss:3.3879 train_time:452388ms step_avg:154.35ms
step:2942/3125 train_loss:3.3769 train_time:452541ms step_avg:154.35ms
step:2943/3125 train_loss:3.3014 train_time:452694ms step_avg:154.35ms
step:2944/3125 train_loss:3.1799 train_time:452848ms step_avg:154.35ms
step:2945/3125 train_loss:3.1282 train_time:453002ms step_avg:154.34ms
step:2946/3125 train_loss:3.3307 train_time:453154ms step_avg:154.34ms
step:2947/3125 train_loss:3.3945 train_time:453308ms step_avg:154.34ms
step:2948/3125 train_loss:3.3282 train_time:453461ms step_avg:154.34ms
step:2949/3125 train_loss:3.5157 train_time:453613ms step_avg:154.34ms
step:2950/3125 train_loss:3.3282 train_time:453767ms step_avg:154.34ms
step:2951/3125 train_loss:3.3330 train_time:453920ms step_avg:154.34ms
step:2952/3125 train_loss:3.7297 train_time:454072ms step_avg:154.34ms
step:2953/3125 train_loss:3.4041 train_time:454227ms step_avg:154.34ms
step:2954/3125 train_loss:3.3547 train_time:454379ms step_avg:154.34ms
step:2955/3125 train_loss:3.3683 train_time:454532ms step_avg:154.34ms
step:2956/3125 train_loss:3.2962 train_time:454685ms step_avg:154.34ms
step:2957/3125 train_loss:3.3175 train_time:454838ms step_avg:154.34ms
step:2958/3125 train_loss:3.2003 train_time:454990ms step_avg:154.34ms
step:2959/3125 train_loss:3.2815 train_time:455144ms step_avg:154.34ms
step:2960/3125 train_loss:3.4225 train_time:455295ms step_avg:154.34ms
step:2961/3125 train_loss:3.2253 train_time:455449ms step_avg:154.34ms
step:2962/3125 train_loss:3.3528 train_time:455601ms step_avg:154.34ms
step:2963/3125 train_loss:3.2197 train_time:455752ms step_avg:154.34ms
step:2964/3125 train_loss:3.2788 train_time:455907ms step_avg:154.34ms
step:2965/3125 train_loss:3.2565 train_time:456060ms step_avg:154.34ms
step:2966/3125 train_loss:3.3616 train_time:456212ms step_avg:154.33ms
step:2967/3125 train_loss:3.2479 train_time:456365ms step_avg:154.33ms
step:2968/3125 train_loss:3.4862 train_time:456517ms step_avg:154.33ms
step:2969/3125 train_loss:3.3407 train_time:456671ms step_avg:154.33ms
step:2970/3125 train_loss:3.3575 train_time:456825ms step_avg:154.33ms
step:2971/3125 train_loss:3.3319 train_time:456976ms step_avg:154.33ms
step:2972/3125 train_loss:3.4047 train_time:457130ms step_avg:154.33ms
step:2973/3125 train_loss:3.2399 train_time:457282ms step_avg:154.33ms
step:2974/3125 train_loss:3.2422 train_time:457435ms step_avg:154.33ms
step:2975/3125 train_loss:3.1678 train_time:457589ms step_avg:154.33ms
step:2976/3125 train_loss:3.2398 train_time:457741ms step_avg:154.33ms
step:2977/3125 train_loss:3.2315 train_time:457893ms step_avg:154.33ms
step:2978/3125 train_loss:3.2542 train_time:458047ms step_avg:154.33ms
step:2979/3125 train_loss:3.5407 train_time:458200ms step_avg:154.33ms
step:2980/3125 train_loss:3.3394 train_time:458351ms step_avg:154.33ms
step:2981/3125 train_loss:3.3772 train_time:458505ms step_avg:154.33ms
step:2982/3125 train_loss:3.3921 train_time:458658ms step_avg:154.33ms
step:2983/3125 train_loss:3.4632 train_time:458811ms step_avg:154.33ms
step:2984/3125 train_loss:3.2788 train_time:458965ms step_avg:154.33ms
step:2985/3125 train_loss:3.3718 train_time:459116ms step_avg:154.32ms
step:2986/3125 train_loss:3.3738 train_time:459270ms step_avg:154.32ms
step:2987/3125 train_loss:3.3239 train_time:459422ms step_avg:154.32ms
step:2988/3125 train_loss:3.4430 train_time:459574ms step_avg:154.32ms
step:2989/3125 train_loss:3.0324 train_time:459730ms step_avg:154.32ms
step:2990/3125 train_loss:3.3907 train_time:459883ms step_avg:154.32ms
step:2991/3125 train_loss:3.3450 train_time:460036ms step_avg:154.32ms
step:2992/3125 train_loss:3.2971 train_time:460190ms step_avg:154.32ms
step:2993/3125 train_loss:3.2352 train_time:460342ms step_avg:154.32ms
step:2994/3125 train_loss:3.3742 train_time:460495ms step_avg:154.32ms
step:2995/3125 train_loss:3.2050 train_time:460650ms step_avg:154.32ms
step:2996/3125 train_loss:3.2114 train_time:460802ms step_avg:154.32ms
step:2997/3125 train_loss:3.2923 train_time:460954ms step_avg:154.32ms
step:2998/3125 train_loss:3.2331 train_time:461108ms step_avg:154.32ms
step:2999/3125 train_loss:3.3555 train_time:461261ms step_avg:154.32ms
step:3000/3125 train_loss:3.2544 train_time:461414ms step_avg:154.32ms
step:3000/3125 val_loss:3.2918 train_time:461465ms step_avg:154.34ms
step:3001/3125 train_loss:3.2517 train_time:461575ms step_avg:154.32ms
step:3002/3125 train_loss:3.2004 train_time:461728ms step_avg:154.32ms
step:3003/3125 train_loss:3.2356 train_time:461879ms step_avg:154.32ms
step:3004/3125 train_loss:3.3582 train_time:462029ms step_avg:154.32ms
step:3005/3125 train_loss:3.7038 train_time:462181ms step_avg:154.32ms
step:3006/3125 train_loss:3.2741 train_time:462332ms step_avg:154.32ms
step:3007/3125 train_loss:3.3504 train_time:462489ms step_avg:154.32ms
step:3008/3125 train_loss:3.1454 train_time:462644ms step_avg:154.32ms
step:3009/3125 train_loss:3.3727 train_time:462795ms step_avg:154.32ms
step:3010/3125 train_loss:3.2729 train_time:462949ms step_avg:154.32ms
step:3011/3125 train_loss:3.3342 train_time:463100ms step_avg:154.32ms
step:3012/3125 train_loss:3.3294 train_time:463251ms step_avg:154.31ms
step:3013/3125 train_loss:3.2062 train_time:463403ms step_avg:154.31ms
step:3014/3125 train_loss:3.4108 train_time:463556ms step_avg:154.31ms
step:3015/3125 train_loss:3.3702 train_time:463711ms step_avg:154.31ms
step:3016/3125 train_loss:3.2339 train_time:463867ms step_avg:154.31ms
step:3017/3125 train_loss:3.2809 train_time:464018ms step_avg:154.31ms
step:3018/3125 train_loss:3.3240 train_time:464172ms step_avg:154.31ms
step:3019/3125 train_loss:3.3608 train_time:464322ms step_avg:154.31ms
step:3020/3125 train_loss:3.1445 train_time:464476ms step_avg:154.31ms
step:3021/3125 train_loss:3.4432 train_time:464630ms step_avg:154.31ms
step:3022/3125 train_loss:3.2785 train_time:464783ms step_avg:154.31ms
step:3023/3125 train_loss:3.1975 train_time:464936ms step_avg:154.31ms
step:3024/3125 train_loss:3.2968 train_time:465200ms step_avg:154.35ms
step:3025/3125 train_loss:3.2704 train_time:465358ms step_avg:154.35ms
step:3026/3125 train_loss:3.3311 train_time:465510ms step_avg:154.35ms
step:3027/3125 train_loss:3.3524 train_time:465661ms step_avg:154.35ms
step:3028/3125 train_loss:3.2585 train_time:465813ms step_avg:154.34ms
step:3029/3125 train_loss:3.0637 train_time:465963ms step_avg:154.34ms
step:3030/3125 train_loss:3.4024 train_time:466118ms step_avg:154.34ms
step:3031/3125 train_loss:3.1653 train_time:466277ms step_avg:154.35ms
step:3032/3125 train_loss:3.1564 train_time:466430ms step_avg:154.34ms
step:3033/3125 train_loss:3.4929 train_time:466582ms step_avg:154.34ms
step:3034/3125 train_loss:3.5014 train_time:466733ms step_avg:154.34ms
step:3035/3125 train_loss:3.2621 train_time:466884ms step_avg:154.34ms
step:3036/3125 train_loss:3.3449 train_time:467036ms step_avg:154.34ms
step:3037/3125 train_loss:3.2868 train_time:467192ms step_avg:154.34ms
step:3038/3125 train_loss:3.1931 train_time:467346ms step_avg:154.34ms
step:3039/3125 train_loss:3.2399 train_time:467497ms step_avg:154.34ms
step:3040/3125 train_loss:3.3405 train_time:467777ms step_avg:154.38ms
step:3041/3125 train_loss:3.3290 train_time:467925ms step_avg:154.38ms
step:3042/3125 train_loss:3.1265 train_time:468075ms step_avg:154.38ms
step:3043/3125 train_loss:3.2841 train_time:468226ms step_avg:154.38ms
step:3044/3125 train_loss:3.3153 train_time:468376ms step_avg:154.38ms
step:3045/3125 train_loss:3.3197 train_time:468527ms step_avg:154.37ms
step:3046/3125 train_loss:3.3977 train_time:468684ms step_avg:154.38ms
step:3047/3125 train_loss:3.2127 train_time:468842ms step_avg:154.38ms
step:3048/3125 train_loss:3.3512 train_time:468995ms step_avg:154.38ms
step:3049/3125 train_loss:3.2886 train_time:469147ms step_avg:154.38ms
step:3050/3125 train_loss:3.2108 train_time:469299ms step_avg:154.37ms
step:3051/3125 train_loss:3.3365 train_time:469451ms step_avg:154.37ms
step:3052/3125 train_loss:3.1842 train_time:469604ms step_avg:154.37ms
step:3053/3125 train_loss:3.4243 train_time:469758ms step_avg:154.37ms
step:3054/3125 train_loss:3.3806 train_time:469914ms step_avg:154.37ms
step:3055/3125 train_loss:3.3516 train_time:470068ms step_avg:154.37ms
step:3056/3125 train_loss:3.3549 train_time:470218ms step_avg:154.37ms
step:3057/3125 train_loss:3.2337 train_time:470371ms step_avg:154.37ms
step:3058/3125 train_loss:3.2591 train_time:470523ms step_avg:154.37ms
step:3059/3125 train_loss:3.3245 train_time:470675ms step_avg:154.37ms
step:3060/3125 train_loss:3.2460 train_time:470830ms step_avg:154.37ms
step:3061/3125 train_loss:3.3048 train_time:470984ms step_avg:154.37ms
step:3062/3125 train_loss:3.3086 train_time:471136ms step_avg:154.37ms
step:3063/3125 train_loss:3.2477 train_time:471289ms step_avg:154.37ms
step:3064/3125 train_loss:3.2126 train_time:471441ms step_avg:154.37ms
step:3065/3125 train_loss:3.2327 train_time:471594ms step_avg:154.37ms
step:3066/3125 train_loss:3.2126 train_time:471747ms step_avg:154.37ms
step:3067/3125 train_loss:3.1978 train_time:471898ms step_avg:154.37ms
step:3068/3125 train_loss:3.1644 train_time:472052ms step_avg:154.37ms
step:3069/3125 train_loss:3.2093 train_time:472206ms step_avg:154.37ms
step:3070/3125 train_loss:3.1967 train_time:472357ms step_avg:154.36ms
step:3071/3125 train_loss:3.3834 train_time:472510ms step_avg:154.36ms
step:3072/3125 train_loss:3.3128 train_time:472664ms step_avg:154.36ms
step:3073/3125 train_loss:3.3590 train_time:472816ms step_avg:154.36ms
step:3074/3125 train_loss:3.3407 train_time:472971ms step_avg:154.36ms
step:3075/3125 train_loss:3.2868 train_time:473124ms step_avg:154.36ms
step:3076/3125 train_loss:3.3440 train_time:473276ms step_avg:154.36ms
step:3077/3125 train_loss:3.3989 train_time:473430ms step_avg:154.36ms
step:3078/3125 train_loss:3.1952 train_time:473582ms step_avg:154.36ms
step:3079/3125 train_loss:3.7252 train_time:473735ms step_avg:154.36ms
step:3080/3125 train_loss:3.2810 train_time:473889ms step_avg:154.36ms
step:3081/3125 train_loss:3.2465 train_time:474041ms step_avg:154.36ms
step:3082/3125 train_loss:3.4013 train_time:474194ms step_avg:154.36ms
step:3083/3125 train_loss:3.2049 train_time:474347ms step_avg:154.36ms
step:3084/3125 train_loss:3.2343 train_time:474499ms step_avg:154.36ms
step:3085/3125 train_loss:3.2858 train_time:474652ms step_avg:154.36ms
step:3086/3125 train_loss:3.3855 train_time:474805ms step_avg:154.36ms
step:3087/3125 train_loss:3.2933 train_time:474957ms step_avg:154.36ms
step:3088/3125 train_loss:3.2042 train_time:475112ms step_avg:154.36ms
step:3089/3125 train_loss:3.3569 train_time:475266ms step_avg:154.36ms
step:3090/3125 train_loss:3.2169 train_time:475418ms step_avg:154.36ms
step:3091/3125 train_loss:3.4808 train_time:475572ms step_avg:154.36ms
step:3092/3125 train_loss:4.0482 train_time:475724ms step_avg:154.36ms
step:3093/3125 train_loss:3.3201 train_time:475878ms step_avg:154.36ms
step:3094/3125 train_loss:3.2053 train_time:476032ms step_avg:154.36ms
step:3095/3125 train_loss:3.1640 train_time:476185ms step_avg:154.35ms
step:3096/3125 train_loss:3.3254 train_time:476337ms step_avg:154.35ms
step:3097/3125 train_loss:3.4700 train_time:476490ms step_avg:154.35ms
step:3098/3125 train_loss:3.2293 train_time:476642ms step_avg:154.35ms
step:3099/3125 train_loss:3.2702 train_time:476795ms step_avg:154.35ms
step:3100/3125 train_loss:3.4393 train_time:476950ms step_avg:154.35ms
step:3101/3125 train_loss:3.3433 train_time:477102ms step_avg:154.35ms
step:3102/3125 train_loss:3.3430 train_time:477254ms step_avg:154.35ms
step:3103/3125 train_loss:3.2528 train_time:477407ms step_avg:154.35ms
step:3104/3125 train_loss:3.5076 train_time:477559ms step_avg:154.35ms
step:3105/3125 train_loss:3.3319 train_time:477713ms step_avg:154.35ms
step:3106/3125 train_loss:3.1854 train_time:477866ms step_avg:154.35ms
step:3107/3125 train_loss:3.2058 train_time:478018ms step_avg:154.35ms
step:3108/3125 train_loss:3.1692 train_time:478174ms step_avg:154.35ms
step:3109/3125 train_loss:3.3917 train_time:478326ms step_avg:154.35ms
step:3110/3125 train_loss:3.2790 train_time:478479ms step_avg:154.35ms
step:3111/3125 train_loss:3.3106 train_time:478632ms step_avg:154.35ms
step:3112/3125 train_loss:3.2899 train_time:478785ms step_avg:154.35ms
step:3113/3125 train_loss:3.3469 train_time:478938ms step_avg:154.35ms
step:3114/3125 train_loss:3.3040 train_time:479094ms step_avg:154.35ms
step:3115/3125 train_loss:3.2988 train_time:479248ms step_avg:154.35ms
step:3116/3125 train_loss:3.3356 train_time:479399ms step_avg:154.35ms
step:3117/3125 train_loss:3.1821 train_time:479552ms step_avg:154.35ms
step:3118/3125 train_loss:3.2134 train_time:479705ms step_avg:154.35ms
step:3119/3125 train_loss:3.3882 train_time:479857ms step_avg:154.34ms
step:3120/3125 train_loss:3.3697 train_time:480011ms step_avg:154.34ms
step:3121/3125 train_loss:3.1602 train_time:480163ms step_avg:154.34ms
step:3122/3125 train_loss:3.3517 train_time:480317ms step_avg:154.34ms
step:3123/3125 train_loss:3.4103 train_time:480471ms step_avg:154.34ms
step:3124/3125 train_loss:3.3796 train_time:480623ms step_avg:154.34ms
step:3125/3125 train_loss:3.1785 train_time:480778ms step_avg:154.34ms
step:3125/3125 val_loss:3.2824 train_time:480829ms step_avg:154.36ms