-
--auto_update_redundancy_expert
-
--batch_max_tokens
-
--cache_capacity
-
--chunked_prefill_size
-
--config_server_host
-
--config_server_port
-
--disable_aggressive_schedule
-
--disable_chunked_prefill
-
--disable_cudagraph
-
--disable_custom_allreduce
-
--disable_dynamic_prompt_cache
-
--disable_log_stats
-
--diverse_mode
-
--dp
-
--enable_custom_allgather
-
--enable_decode_microbatch_overlap
-
--enable_fa3
-
--enable_flashinfer_decode
-
--enable_flashinfer_prefill
-
--enable_monitor_auth
-
--enable_mps
-
--enable_multimodal
-
--enable_multimodal_audio
-
--enable_prefill_microbatch_overlap
-
--enable_tpsp_mix_mode
-
--eos_id
-
--ep_redundancy_expert_config_path
-
--first_token_constraint_mode
-
--graph_grow_step_size
-
--graph_max_batch_size
-
--graph_max_len_in_batch
-
--graph_split_batch_size
-
--grouping_key
-
--health_monitor
-
--host
-
--httpserver_workers
-
--job_name
-
--load_way
-
--log_stats_interval
-
--long_truncation_mode
-
--max_req_total_len
-
--max_total_token_num
-
--mem_fraction
-
--metric_gateway
|
-
--mode
-
--model_dir
-
--model_name
-
--mtp_draft_model_dir
-
--mtp_mode
-
--mtp_step
-
--multinode_httpmanager_port
-
--multinode_router_gloo_port
-
--nccl_host
-
--nccl_port
-
--nnodes
-
--node_rank
-
--output_constraint_mode
-
--pd_decode_rpyc_port
-
--pd_master_ip
-
--pd_master_port
-
--port
-
--push_interval
-
--quant_cfg
-
--quant_type
-
--return_all_prompt_logprobs
-
--router_max_new_token_len
-
--router_max_wait_tokens
-
--router_token_ratio
-
--run_mode
-
--running_max_req_size
-
--sampling_backend
-
--schedule_time_interval
-
--token_healing_mode
-
--tokenizer_mode
-
--tool_call_parser
-
--tp
-
--trust_remote_code
-
--use_config_server_to_init_nccl
-
--use_reward_model
-
--use_tgi_api
-
--visual_dp
-
--visual_gpu_ids
-
--visual_infer_batch_size
-
--visual_nccl_ports
-
--visual_tp
-
--vit_quant_cfg
-
--vit_quant_type
-
--zmq_mode
|