model: support GLM4V vision encoder (#18042)

* convert ok

* no deepstack

* less new tensors

* cgraph ok

* add mrope for text model

* faster patch merger

* add GGML_ROPE_TYPE_MRNORM

* add support for metal

* move glm4v do dedicated graph

* convert: add norm_embd

* clip: add debugging fn

* working correctly

* fix style

* use bicubic

* fix mrope metal

* improve cpu

* convert to neox ordering on conversion

* revert backend changes

* force stop if using old weight

* support moe variant

* fix conversion

* fix convert (2)

* Update tools/mtmd/clip-graph.h

Co-authored-by: Georgi Gerganov <ggerganov@gmail.com>

* process mrope_section on TextModel base class

* resolve conflict merge

---------

Co-authored-by: Georgi Gerganov <ggerganov@gmail.com>

This commit is contained in:

Xuan-Son Nguyen

2025-12-16 11:25:26 +01:00

committed by

GitHub

parent 9963b81f63

commit 3d86c6c2b5

17 changed files with 412 additions and 79 deletions

									
										src/llama-hparams.cpp
									
		+4
		
												View File
												
				@@ -231,3 +231,7 @@ bool llama_hparams::is_masked_swa(uint32_t n_swa, llama_swa_type swa_type, llama

				    return false;

				}

				bool llama_hparams::use_mrope() const {

				    return rope_sections[0] > 0 && rope_sections[1] > 0;

				}