Compile for Ampere

Nexesenex · Nexesenex · commit 1e0f64e1b610 · 2024-10-05T17:16:00.000+02:00
diff --git a/ggml/src/CMakeLists.txt b/ggml/src/CMakeLists.txt
@@ -285,9 +285,9 @@ if (GGML_CUDA)
             # 61 == integer CUDA intrinsics
             # 70 == compute capability at which unrolling a loop in mul_mat_q kernels is faster
             if (GGML_CUDA_F16 OR GGML_CUDA_DMMV_F16)
-                set(CMAKE_CUDA_ARCHITECTURES "60;61;70;75")
+                set(CMAKE_CUDA_ARCHITECTURES "60;61;70;75;86")
             else()
-                set(CMAKE_CUDA_ARCHITECTURES "52;61;70;75")
+                set(CMAKE_CUDA_ARCHITECTURES "52;61;70;75;86")
                 #set(CMAKE_CUDA_ARCHITECTURES "OFF") # use this to compile much faster, but only F16 models work
             endif()
         endif()