Add support for LoRA resizing

2023-02-04 11:55:06 -05:00 · 2023-02-04 11:55:06 -05:00 · 2626214f8a
commit 2626214f8a
parent 045750b46a
11 changed files with 337 additions and 23 deletions
--- a/README.md
+++ b/README.md
@ -143,7 +143,13 @@ Then redo the installation instruction within the kohya_ss venv.

 ## Change history

-* 2023/02/03
+* 2023/02/04 (v20.6.1)
+  - ``--persistent_data_loader_workers`` option is added to ``fine_tune.py``, ``train_db.py`` and ``train_network.py``. This option may significantly reduce the waiting time between epochs. Thanks to hitomi!
+  - ``--debug_dataset`` option is now working on non-Windows environment. Thanks to tsukimiya!
+  - ``networks/resize_lora.py`` script is added. This can approximate the higher-rank (dim) LoRA model by a lower-rank LoRA model, e.g. 128 by 4. Thanks to mgz-dev!
+    - ``--help`` option shows usage.
+    - Currently the metadata is not copied. This will be fixed in the near future.
+* 2023/02/03 (v20.6.0)
    - Increase max LoRA rank (dim) size to 1024.
    - Update finetune preprocessing scripts.
        - ``.bmp`` and ``.jpeg`` are supported. Thanks to breakcore2 and p1atdev!
--- a/dreambooth_gui.py
+++ b/dreambooth_gui.py
@ -83,6 +83,7 @@ def save_configuration(
    mem_eff_attn,
    gradient_accumulation_steps,
    model_list, keep_tokens,
+    persistent_data_loader_workers,
 ):
    # Get list of function parameters and values
    parameters = list(locals().items())
@ -167,6 +168,7 @@ def open_configuration(
    mem_eff_attn,
    gradient_accumulation_steps,
    model_list, keep_tokens,
+    persistent_data_loader_workers,
 ):
    # Get list of function parameters and values
    parameters = list(locals().items())
@ -236,6 +238,7 @@ def train_model(
    gradient_accumulation_steps,
    model_list,  # Keep this. Yes, it is unused here but required given the common list used
    keep_tokens,
+    persistent_data_loader_workers,
 ):
    if pretrained_model_name_or_path == '':
        msgbox('Source model information is missing')
@ -398,6 +401,7 @@ def train_model(
        xformers=xformers,
        use_8bit_adam=use_8bit_adam,
        keep_tokens=keep_tokens,
+        persistent_data_loader_workers=persistent_data_loader_workers,
    )

    print(run_cmd)
@ -605,6 +609,7 @@ def dreambooth_tab(
                max_train_epochs,
                max_data_loader_n_workers,
                keep_tokens,
+                persistent_data_loader_workers,
            ) = gradio_advanced_training()
            color_aug.change(
                color_aug_changed,
@ -669,6 +674,7 @@ def dreambooth_tab(
        gradient_accumulation_steps,
        model_list,
        keep_tokens,
+        persistent_data_loader_workers,
    ]

    button_open_config.click(
--- a/finetune_gui.py
+++ b/finetune_gui.py
@ -79,6 +79,7 @@ def save_configuration(
    model_list,
    cache_latents,
    use_latent_files, keep_tokens,
+    persistent_data_loader_workers,
 ):
    # Get list of function parameters and values
    parameters = list(locals().items())
@ -169,6 +170,7 @@ def open_config_file(
    model_list,
    cache_latents,
    use_latent_files, keep_tokens,
+    persistent_data_loader_workers,
 ):
    # Get list of function parameters and values
    parameters = list(locals().items())
@ -244,6 +246,7 @@ def train_model(
    model_list,  # Keep this. Yes, it is unused here but required given the common list used
    cache_latents,
    use_latent_files, keep_tokens,
+    persistent_data_loader_workers,
 ):
    # create caption json file
    if generate_caption_database:
@ -382,6 +385,7 @@ def train_model(
        xformers=xformers,
        use_8bit_adam=use_8bit_adam,
        keep_tokens=keep_tokens,
+        persistent_data_loader_workers=persistent_data_loader_workers,
    )

    print(run_cmd)
@ -587,6 +591,7 @@ def finetune_tab():
                max_train_epochs,
                max_data_loader_n_workers,
                keep_tokens,
+                persistent_data_loader_workers,
            ) = gradio_advanced_training()
            color_aug.change(
                color_aug_changed,
@ -647,6 +652,7 @@ def finetune_tab():
        cache_latents,
        use_latent_files,
        keep_tokens,
+        persistent_data_loader_workers,
    ]

    button_run.click(train_model, inputs=settings_list)
--- a/library/common_gui.py
+++ b/library/common_gui.py
@ -510,31 +510,12 @@ def run_cmd_training(**kwargs):

 def gradio_advanced_training():
    with gr.Row():
-        full_fp16 = gr.Checkbox(
-            label='Full fp16 training (experimental)', value=False
-        )
-        gradient_checkpointing = gr.Checkbox(
-            label='Gradient checkpointing', value=False
-        )
-        shuffle_caption = gr.Checkbox(
-            label='Shuffle caption', value=False
-        )
        keep_tokens = gr.Slider(
            label='Keep n tokens', value='0', minimum=0, maximum=32, step=1
        )
-        use_8bit_adam = gr.Checkbox(label='Use 8bit adam', value=True)
-        xformers = gr.Checkbox(label='Use xformers', value=True)
-    with gr.Row():
-        color_aug = gr.Checkbox(
-            label='Color augmentation', value=False
-        )
-        flip_aug = gr.Checkbox(label='Flip augmentation', value=False)
        clip_skip = gr.Slider(
            label='Clip skip', value='1', minimum=1, maximum=12, step=1
        )
-        mem_eff_attn = gr.Checkbox(
-            label='Memory efficient attention', value=False
-        )
        max_token_length = gr.Dropdown(
            label='Max Token Length',
            choices=[
@ -544,6 +525,29 @@ def gradio_advanced_training():
            ],
            value='75',
        )
+        full_fp16 = gr.Checkbox(
+            label='Full fp16 training (experimental)', value=False
+        )
+    with gr.Row():
+        gradient_checkpointing = gr.Checkbox(
+            label='Gradient checkpointing', value=False
+        )
+        shuffle_caption = gr.Checkbox(
+            label='Shuffle caption', value=False
+        )
+        persistent_data_loader_workers = gr.Checkbox(
+            label='Persistent data loader', value=False
+        )
+        mem_eff_attn = gr.Checkbox(
+            label='Memory efficient attention', value=False
+        )
+    with gr.Row():
+        use_8bit_adam = gr.Checkbox(label='Use 8bit adam', value=True)
+        xformers = gr.Checkbox(label='Use xformers', value=True)
+        color_aug = gr.Checkbox(
+            label='Color augmentation', value=False
+        )
+        flip_aug = gr.Checkbox(label='Flip augmentation', value=False)
    with gr.Row():
        save_state = gr.Checkbox(label='Save training state', value=False)
        resume = gr.Textbox(
@ -576,6 +580,7 @@ def gradio_advanced_training():
        max_train_epochs,
        max_data_loader_n_workers,
        keep_tokens,
+        persistent_data_loader_workers,
    )

 def run_cmd_advanced_training(**kwargs):
@ -622,6 +627,8 @@ def run_cmd_advanced_training(**kwargs):
        
        ' --use_8bit_adam' if kwargs.get('use_8bit_adam') else '',
        
+        ' --persistent_data_loader_workers' if kwargs.get('persistent_data_loader_workers') else '',
+        
    ]
    run_cmd = ''.join(options)
    return run_cmd
--- a/library/resize_lora_gui.py
+++ b/library/resize_lora_gui.py
@ -0,0 +1,104 @@
+import gradio as gr
+from easygui import msgbox
+import subprocess
+import os
+from .common_gui import get_saveasfilename_path, get_file_path
+
+folder_symbol = '\U0001f4c2'  # 📂
+refresh_symbol = '\U0001f504'  # 🔄
+save_style_symbol = '\U0001f4be'  # 💾
+document_symbol = '\U0001F4C4'   # 📄
+
+
+def resize_lora(
+    model, new_rank, save_to, save_precision, device,
+):
+    # Check for caption_text_input
+    if model == '':
+        msgbox('Invalid model file')
+        return
+
+    # Check if source model exist
+    if not os.path.isfile(model):
+        msgbox('The provided model is not a file')
+        return
+    
+    if device == '':
+        device = 'cuda'
+
+    run_cmd = f'.\\venv\Scripts\python.exe "networks\\resize_lora.py"'
+    run_cmd += f' --save_precision {save_precision}'
+    run_cmd += f' --save_to {save_to}'
+    run_cmd += f' --model {model}'
+    run_cmd += f' --new_rank {new_rank}'
+    run_cmd += f' --device {device}'
+
+    print(run_cmd)
+
+    # Run the command
+    subprocess.run(run_cmd)
+
+
+###
+# Gradio UI
+###
+
+
+def gradio_resize_lora_tab():
+    with gr.Tab('Resize LoRA'):
+        gr.Markdown(
+            'This utility can resize a LoRA.'
+        )
+        
+        lora_ext = gr.Textbox(value='*.pt *.safetensors', visible=False)
+        lora_ext_name = gr.Textbox(value='LoRA model types', visible=False)
+        
+        with gr.Row():
+            model = gr.Textbox(
+                label='Source LoRA',
+                placeholder='Path to the LoRA to resize',
+                interactive=True,
+            )
+            button_lora_a_model_file = gr.Button(
+                folder_symbol, elem_id='open_folder_small'
+            )
+            button_lora_a_model_file.click(
+                get_file_path,
+                inputs=[model, lora_ext, lora_ext_name],
+                outputs=model,
+            )
+        with gr.Row():
+            new_rank = gr.Slider(label="Desired LoRA rank", minimum=1, maximum=1024, step=1, value=4,
+                interactive=True,)
+        
+        with gr.Row():
+            save_to = gr.Textbox(
+                label='Save to',
+                placeholder='path for the LoRA file to save...',
+                interactive=True,
+            )
+            button_save_to = gr.Button(
+                folder_symbol, elem_id='open_folder_small'
+            )
+            button_save_to.click(
+                get_saveasfilename_path, inputs=[save_to, lora_ext, lora_ext_name], outputs=save_to
+            )
+            save_precision = gr.Dropdown(
+                label='Save precison',
+                choices=['fp16', 'bf16', 'float'],
+                value='fp16',
+                interactive=True,
+            )
+            device = gr.Textbox(
+                label='Device',
+                placeholder='{Optional) device to use, cuda for GPU. Default: cuda',
+                interactive=True,
+            )
+
+        convert_button = gr.Button('Resize model')
+
+        convert_button.click(
+            resize_lora,
+            inputs=[model, new_rank, save_to, save_precision, device,
+            ],
+        )
--- a/library/train_util.py
+++ b/library/train_util.py
@ -772,7 +772,8 @@ def debug_dataset(train_dataset, show_input_ids=False):
        im = ((im.numpy() + 1.0) * 127.5).astype(np.uint8)
        im = np.transpose(im, (1, 2, 0))                # c,H,W -> H,W,c
        im = im[:, :, ::-1]                             # RGB -> BGR (OpenCV)
-        cv2.imshow("img", im)
+        if os.name == 'nt':                             # only windows
+          cv2.imshow("img", im)
        k = cv2.waitKey()
        cv2.destroyAllWindows()
        if k == 27:
@ -1194,6 +1195,8 @@ def add_training_arguments(parser: argparse.ArgumentParser, support_dreambooth:
                      help="training epochs (overrides max_train_steps) / 学習エポック数（max_train_stepsを上書きします）")
  parser.add_argument("--max_data_loader_n_workers", type=int, default=8,
                      help="max num workers for DataLoader (lower is less main RAM usage, faster epoch start and slower data loading) / DataLoaderの最大プロセス数（小さい値ではメインメモリの使用量が減りエポック間の待ち時間が減りますが、データ読み込みは遅くなります）")
+  parser.add_argument("--persistent_data_loader_workers", action="store_true",
+                      help="persistent DataLoader workers (useful for reduce time gap between epoch, but may use more memory) / DataLoader のワーカーを持続させる (エポック間の時間差を少なくするのに有効だが、より多くのメモリを消費する可能性がある)")
  parser.add_argument("--seed", type=int, default=None, help="random seed for training / 学習時の乱数のseed")
  parser.add_argument("--gradient_checkpointing", action="store_true",
                      help="enable gradient checkpointing / grandient checkpointingを有効にする")
--- a/lora_gui.py
+++ b/lora_gui.py
@ -32,6 +32,7 @@ from library.dataset_balancing_gui import gradio_dataset_balancing_tab
 from library.utilities import utilities_tab
 from library.merge_lora_gui import gradio_merge_lora_tab
 from library.verify_lora_gui import gradio_verify_lora_tab
+from library.resize_lora_gui import gradio_resize_lora_tab
 from easygui import msgbox

 folder_symbol = '\U0001f4c2'  # 📂
@ -92,6 +93,7 @@ def save_configuration(
    network_alpha,
    training_comment, keep_tokens,
    lr_scheduler_num_cycles, lr_scheduler_power,
+    persistent_data_loader_workers,
 ):
    # Get list of function parameters and values
    parameters = list(locals().items())
@ -182,6 +184,7 @@ def open_configuration(
    network_alpha,
    training_comment, keep_tokens,
    lr_scheduler_num_cycles, lr_scheduler_power,
+    persistent_data_loader_workers,
 ):
    # Get list of function parameters and values
    parameters = list(locals().items())
@ -256,6 +259,7 @@ def train_model(
    network_alpha,
    training_comment, keep_tokens,
    lr_scheduler_num_cycles, lr_scheduler_power,
+    persistent_data_loader_workers,
 ):
    if pretrained_model_name_or_path == '':
        msgbox('Source model information is missing')
@ -446,6 +450,7 @@ def train_model(
        xformers=xformers,
        use_8bit_adam=use_8bit_adam,
        keep_tokens=keep_tokens,
+        persistent_data_loader_workers=persistent_data_loader_workers,
    )

    print(run_cmd)
@ -689,6 +694,7 @@ def lora_tab(
                max_train_epochs,
                max_data_loader_n_workers,
                keep_tokens,
+                persistent_data_loader_workers,
            ) = gradio_advanced_training()
            color_aug.change(
                color_aug_changed,
@ -708,6 +714,7 @@ def lora_tab(
        )
        gradio_dataset_balancing_tab()
        gradio_merge_lora_tab()
+        gradio_resize_lora_tab()
        gradio_verify_lora_tab()
        

@ -764,6 +771,7 @@ def lora_tab(
        training_comment,
        keep_tokens,
        lr_scheduler_num_cycles, lr_scheduler_power,
+        persistent_data_loader_workers,
    ]

    button_open_config.click(
--- a/networks/resize_lora.py
+++ b/networks/resize_lora.py
@ -0,0 +1,166 @@
+# Convert LoRA to different rank approximation (should only be used to go to lower rank)
+# This code is based off the extract_lora_from_models.py file which is based on https://github.com/cloneofsimo/lora/blob/develop/lora_diffusion/cli_svd.py
+# Thanks to cloneofsimo and kohya
+
+import argparse
+import os
+import torch
+from safetensors.torch import load_file, save_file
+from tqdm import tqdm
+
+def load_state_dict(file_name, dtype):
+  if os.path.splitext(file_name)[1] == '.safetensors':
+    sd = load_file(file_name)
+  else:
+    sd = torch.load(file_name, map_location='cpu')
+  for key in list(sd.keys()):
+    if type(sd[key]) == torch.Tensor:
+      sd[key] = sd[key].to(dtype)
+  return sd
+
+
+def save_to_file(file_name, model, state_dict, dtype):
+  if dtype is not None:
+    for key in list(state_dict.keys()):
+      if type(state_dict[key]) == torch.Tensor:
+        state_dict[key] = state_dict[key].to(dtype)
+
+  if os.path.splitext(file_name)[1] == '.safetensors':
+    save_file(model, file_name)
+  else:
+    torch.save(model, file_name)
+    
+
+
+def resize_lora_model(model, new_rank, merge_dtype, save_dtype):
+    print("Loading Model...")
+    lora_sd = load_state_dict(model, merge_dtype)
+
+    network_alpha = None
+    network_dim = None
+
+    CLAMP_QUANTILE = 0.99
+
+    # Extract loaded lora dim and alpha
+    for key, value in lora_sd.items():
+        if network_alpha is None and 'alpha' in key:
+            network_alpha = value
+        if network_dim is None and 'lora_down' in key and len(value.size()) == 2:
+            network_dim = value.size()[0]
+        if network_alpha is not None and network_dim is not None:
+            break
+        if network_alpha is None:
+            network_alpha = network_dim
+
+    scale = network_alpha/network_dim
+    new_alpha = float(scale*new_rank)  # calculate new alpha from scale
+
+    print(f"dimension: {network_dim}, alpha: {network_alpha}, new alpha: {new_alpha}")
+
+    lora_down_weight = None
+    lora_up_weight = None
+
+    o_lora_sd = lora_sd.copy()
+    block_down_name = None
+    block_up_name = None
+
+    print("resizing lora...")
+    with torch.no_grad():
+        for key, value in tqdm(lora_sd.items()):
+            if 'lora_down' in key:
+                block_down_name = key.split(".")[0]
+                lora_down_weight = value
+            if 'lora_up' in key:
+                block_up_name = key.split(".")[0]
+                lora_up_weight = value
+
+            weights_loaded = (lora_down_weight is not None and lora_up_weight is not None)
+
+            if (block_down_name == block_up_name) and weights_loaded:
+
+                conv2d = (len(lora_down_weight.size()) == 4)
+                
+                if conv2d:
+                    lora_down_weight = lora_down_weight.squeeze()
+                    lora_up_weight = lora_up_weight.squeeze()
+
+                if args.device:
+                    org_device = lora_up_weight.device
+                    lora_up_weight = lora_up_weight.to(args.device)
+                    lora_down_weight = lora_down_weight.to(args.device)
+
+                full_weight_matrix = torch.matmul(lora_up_weight, lora_down_weight)
+
+                U, S, Vh = torch.linalg.svd(full_weight_matrix)
+
+                U = U[:, :new_rank]
+                S = S[:new_rank]
+                U = U @ torch.diag(S)
+
+                Vh = Vh[:new_rank, :]
+
+                dist = torch.cat([U.flatten(), Vh.flatten()])
+                hi_val = torch.quantile(dist, CLAMP_QUANTILE)
+                low_val = -hi_val
+
+                U = U.clamp(low_val, hi_val)
+                Vh = Vh.clamp(low_val, hi_val)
+            
+                if conv2d:
+                    U = U.unsqueeze(2).unsqueeze(3)
+                    Vh = Vh.unsqueeze(2).unsqueeze(3)
+                
+                if args.device:
+                   U = U.to(org_device)
+                   Vh = Vh.to(org_device)
+
+                o_lora_sd[block_down_name + "." + "lora_down.weight"] = Vh.to(save_dtype).contiguous()
+                o_lora_sd[block_up_name + "." + "lora_up.weight"] =  U.to(save_dtype).contiguous()
+                o_lora_sd[block_up_name + "." "alpha"] = torch.tensor(new_alpha).to(save_dtype)
+
+                block_down_name = None
+                block_up_name = None
+                lora_down_weight = None
+                lora_up_weight = None
+                weights_loaded = False
+
+    print("resizing complete")
+    return o_lora_sd
+
+def resize(args):
+
+    def str_to_dtype(p):
+        if p == 'float':
+            return torch.float
+        if p == 'fp16':
+            return torch.float16
+        if p == 'bf16':
+            return torch.bfloat16
+        return None
+
+    merge_dtype = str_to_dtype('float') # matmul method above only seems to work in float32
+    save_dtype = str_to_dtype(args.save_precision)
+    if save_dtype is None:
+        save_dtype = merge_dtype
+
+    state_dict =  resize_lora_model(args.model, args.new_rank, merge_dtype, save_dtype)
+
+    print(f"saving model to: {args.save_to}")
+    save_to_file(args.save_to, state_dict, state_dict, save_dtype)
+
+
+if __name__ == '__main__':
+  parser = argparse.ArgumentParser()
+
+  parser.add_argument("--save_precision", type=str, default=None,
+                      choices=[None, "float", "fp16", "bf16"], help="precision in saving, float if omitted / 保存時の精度、未指定時はfloat")
+  parser.add_argument("--new_rank", type=int, default=4,
+                      help="Specify rank of output LoRA / 出力するLoRAのrank (dim)")
+  parser.add_argument("--save_to", type=str, default=None,
+                      help="destination file name: ckpt or safetensors file / 保存先のファイル名、ckptまたはsafetensors")
+  parser.add_argument("--model", type=str, default=None,
+                      help="LoRA model to resize at to new rank: ckpt or safetensors file / 読み込むLoRAモデル、ckptまたはsafetensors")
+  parser.add_argument("--device", type=str, default=None, help="device to use, cuda for GPU / 計算を行うデバイス、cuda でGPUを使う")
+
+  args = parser.parse_args()
+  resize(args)
--- a/textual_inversion_gui.py
+++ b/textual_inversion_gui.py
@ -83,6 +83,7 @@ def save_configuration(
    mem_eff_attn,
    gradient_accumulation_steps,
    model_list, token_string, init_word, num_vectors_per_token, max_train_steps, weights, template, keep_tokens,
+    persistent_data_loader_workers,
 ):
    # Get list of function parameters and values
    parameters = list(locals().items())
@ -171,6 +172,7 @@ def open_configuration(
    mem_eff_attn,
    gradient_accumulation_steps,
    model_list, token_string, init_word, num_vectors_per_token, max_train_steps, weights, template, keep_tokens,
+    persistent_data_loader_workers,
 ):
    # Get list of function parameters and values
    parameters = list(locals().items())
@ -240,6 +242,7 @@ def train_model(
    gradient_accumulation_steps,
    model_list,  # Keep this. Yes, it is unused here but required given the common list used
    token_string, init_word, num_vectors_per_token, max_train_steps, weights, template, keep_tokens,
+    persistent_data_loader_workers,
 ):
    if pretrained_model_name_or_path == '':
        msgbox('Source model information is missing')
@ -417,6 +420,7 @@ def train_model(
        xformers=xformers,
        use_8bit_adam=use_8bit_adam,
        keep_tokens=keep_tokens,
+        persistent_data_loader_workers=persistent_data_loader_workers,
    )
    run_cmd += f' --token_string="{token_string}"'
    run_cmd += f' --init_word="{init_word}"'
@ -671,6 +675,7 @@ def ti_tab(
                max_train_epochs,
                max_data_loader_n_workers,
                keep_tokens,
+                persistent_data_loader_workers,
            ) = gradio_advanced_training()
            color_aug.change(
                color_aug_changed,
@ -736,6 +741,7 @@ def ti_tab(
        model_list,
        token_string, init_word, num_vectors_per_token, max_train_steps, weights, template,
        keep_tokens,
+        persistent_data_loader_workers,
    ]

    button_open_config.click(
--- a/train_db.py
+++ b/train_db.py
@ -133,7 +133,7 @@ def train(args):
  # DataLoaderのプロセス数：0はメインプロセスになる
  n_workers = min(args.max_data_loader_n_workers, os.cpu_count() - 1)      # cpu_count-1 ただし最大で指定された数まで
  train_dataloader = torch.utils.data.DataLoader(
-      train_dataset, batch_size=1, shuffle=False, collate_fn=collate_fn, num_workers=n_workers)
+      train_dataset, batch_size=1, shuffle=False, collate_fn=collate_fn, num_workers=n_workers, persistent_workers=args.persistent_data_loader_workers)

  # 学習ステップ数を計算する
  if args.max_train_epochs is not None:
@ -176,6 +176,8 @@ def train(args):
  # epoch数を計算する
  num_update_steps_per_epoch = math.ceil(len(train_dataloader) / args.gradient_accumulation_steps)
  num_train_epochs = math.ceil(args.max_train_steps / num_update_steps_per_epoch)
+  if (args.save_n_epoch_ratio is not None) and (args.save_n_epoch_ratio > 0):
+    args.save_every_n_epochs = math.floor(num_train_epochs / args.save_n_epoch_ratio) or 1

  # 学習する
  total_batch_size = args.train_batch_size * accelerator.num_processes * args.gradient_accumulation_steps
--- a/train_network.py
+++ b/train_network.py
@ -214,7 +214,7 @@ def train(args):
  # DataLoaderのプロセス数：0はメインプロセスになる
  n_workers = min(args.max_data_loader_n_workers, os.cpu_count() - 1)      # cpu_count-1 ただし最大で指定された数まで
  train_dataloader = torch.utils.data.DataLoader(
-      train_dataset, batch_size=1, shuffle=False, collate_fn=collate_fn, num_workers=n_workers)
+      train_dataset, batch_size=1, shuffle=False, collate_fn=collate_fn, num_workers=n_workers, persistent_workers=args.persistent_data_loader_workers)

  # 学習ステップ数を計算する
  if args.max_train_epochs is not None: