finetune_config.yaml

# lightning.pytorch==2.3.3
seed_everything: 0
trainer:
  accelerator: auto
  strategy: auto
  devices: auto
  num_nodes: 1
  precision: null
  logger:
    class_path: lightning.pytorch.loggers.WandbLogger
    init_args:
      project: "GPT-LoRA-instruct"
      log_model: "all"
      name: "lightning-studio-run"
  callbacks:
    - class_path: lightning.pytorch.callbacks.DeviceStatsMonitor
    - class_path: src.model.callbacks.LogValPredsCallback
  fast_dev_run: false
  max_epochs: 12
  min_epochs: null
  max_steps: -1
  min_steps: null
  max_time: null
  limit_train_batches: null
  limit_val_batches: null
  limit_test_batches: null
  limit_predict_batches: null
  overfit_batches: 0.0
  val_check_interval: null
  check_val_every_n_epoch: 2
  num_sanity_val_steps: null
  log_every_n_steps: 25
  enable_checkpointing: null
  enable_progress_bar: null
  enable_model_summary: null
  accumulate_grad_batches: 1
  gradient_clip_val: null
  gradient_clip_algorithm: null
  deterministic: false
  benchmark: null
  inference_mode: true
  use_distributed_sampler: true
  profiler: null
  detect_anomaly: false
  barebones: false
  plugins: null
  sync_batchnorm: false
  reload_dataloaders_every_n_epochs: 0
  default_root_dir: null
model:
  lora_rank: 8
  lora_alpha: 1
  lr: 0.001
  weight_decay: 0.1
  do_ffn: false
  do_lora: true
  num_layers: 12
  vocab_size: 50257
  context_length: 1024
  d_model: 768
  num_heads: 12
  ffn_hidden: 3072
  activation: gelu
  dropout: 0.1
  qkv_bias: true
  norm_first: false
  pre_norm: true
  from_pretrained_model: null
data:
  train_frac: 0.85
  test_frac: 0.1
  small_alpaca: true
  batch_size: 5
  num_workers: 1
my_model_checkpoint:
  dirpath: null
  filename: null
  monitor: validation/loss
  verbose: false
  save_last: null
  save_top_k: 1
  save_weights_only: false
  mode: min
  auto_insert_metric_name: true
  every_n_train_steps: null
  train_time_interval: null
  every_n_epochs: 2
  save_on_train_epoch_end: null
  enable_version_counter: true
ckpt_path: null