NVIDIA · wmaxey · May 13, 2024 · May 13, 2024 · May 13, 2024 · Aug 5, 2024
@@ -64,11 +64,17 @@ struct __atomic_storage
   }
 };
 
+#if defined(_CCCL_CUDA_COMPILER)
+extern "C" _CCCL_DEVICE void __atomic_is_not_supported_pre_sm_60();
+#endif
-#endif
+#endif // _CCCL_CUDA_COMPILER
-#endif
+#endif // _CCCL_CUDA_COMPILER
+
 _CCCL_HOST_DEVICE inline void __atomic_thread_fence_dispatch(memory_order __order)
 {
   NV_DISPATCH_TARGET(
-    NV_IS_DEVICE,
+    NV_PROVIDES_SM_60,
     (__atomic_thread_fence_cuda(static_cast<__memory_order_underlying_t>(__order), __thread_scope_system_tag());),
+    NV_IS_DEVICE,
+    (__atomic_is_not_supported_pre_sm_60();),
     NV_IS_HOST,
     (__atomic_thread_fence_host(__order);))
 }
@@ -91,8 +97,10 @@ template <typename _Sto, typename _Up, typename _Sco, __atomic_storage_is_base<_
 _CCCL_HOST_DEVICE inline void __atomic_store_dispatch(_Sto* __a, _Up __val, memory_order __order, _Sco = {})
 {
   NV_DISPATCH_TARGET(
-    NV_IS_DEVICE,
+    NV_PROVIDES_SM_60,
     (__atomic_store_n_cuda(__a->get(), __val, static_cast<__memory_order_underlying_t>(__order), _Sco{});),
+    NV_IS_DEVICE,
+    (__atomic_is_not_supported_pre_sm_60();),
     NV_IS_HOST,
     (__atomic_store_host(__a->get(), __val, __order);))
 }
@@ -102,8 +110,10 @@ _CCCL_HOST_DEVICE inline auto
 __atomic_load_dispatch(const _Sto* __a, memory_order __order, _Sco = {}) -> __atomic_underlying_t<_Sto>
 {
   NV_DISPATCH_TARGET(
-    NV_IS_DEVICE,
+    NV_PROVIDES_SM_60,
     (return __atomic_load_n_cuda(__a->get(), static_cast<__memory_order_underlying_t>(__order), _Sco{});),
+    NV_IS_DEVICE,
+    (__atomic_is_not_supported_pre_sm_60();),
-    (__atomic_is_not_supported_pre_sm_60();),
+    (__atomic_is_not_supported_pre_sm_60(); return {};),
-    (__atomic_is_not_supported_pre_sm_60();),
+    (__atomic_is_not_supported_pre_sm_60(); return {};),
     NV_IS_HOST,
     (return __atomic_load_host(__a->get(), __order);))
 }
@@ -113,8 +123,10 @@ _CCCL_HOST_DEVICE inline auto
 __atomic_exchange_dispatch(_Sto* __a, _Up __value, memory_order __order, _Sco = {}) -> __atomic_underlying_t<_Sto>
 {
   NV_DISPATCH_TARGET(
-    NV_IS_DEVICE,
+    NV_PROVIDES_SM_60,
     (return __atomic_exchange_n_cuda(__a->get(), __value, static_cast<__memory_order_underlying_t>(__order), _Sco{});),
+    NV_IS_DEVICE,
+    (__atomic_is_not_supported_pre_sm_60();),
     NV_IS_HOST,
     (return __atomic_exchange_host(__a->get(), __value, __order);))
 }
@@ -125,7 +137,7 @@ _CCCL_HOST_DEVICE inline bool __atomic_compare_exchange_strong_dispatch(
 {
   bool __result = false;
   NV_DISPATCH_TARGET(
-    NV_IS_DEVICE,
+    NV_PROVIDES_SM_60,
     (__result = __atomic_compare_exchange_cuda(
        __a->get(),
        __expected,
@@ -134,6 +146,8 @@ _CCCL_HOST_DEVICE inline bool __atomic_compare_exchange_strong_dispatch(
        static_cast<__memory_order_underlying_t>(__success),
        static_cast<__memory_order_underlying_t>(__failure),
        _Sco{});),
+    NV_IS_DEVICE,
+    (__atomic_is_not_supported_pre_sm_60();),
     NV_IS_HOST,
     (__result = __atomic_compare_exchange_strong_host(__a->get(), __expected, __val, __success, __failure);))
   return __result;
@@ -145,7 +159,7 @@ _CCCL_HOST_DEVICE inline bool __atomic_compare_exchange_weak_dispatch(
 {
   bool __result = false;
   NV_DISPATCH_TARGET(
-    NV_IS_DEVICE,
+    NV_PROVIDES_SM_60,
     (__result = __atomic_compare_exchange_cuda(
        __a->get(),
        __expected,
@@ -154,6 +168,8 @@ _CCCL_HOST_DEVICE inline bool __atomic_compare_exchange_weak_dispatch(
        static_cast<__memory_order_underlying_t>(__success),
        static_cast<__memory_order_underlying_t>(__failure),
        _Sco{});),
+    NV_IS_DEVICE,
+    (__atomic_is_not_supported_pre_sm_60();),
     NV_IS_HOST,
     (__result = __atomic_compare_exchange_weak_host(__a->get(), __expected, __val, __success, __failure);))
   return __result;
@@ -164,8 +180,10 @@ _CCCL_HOST_DEVICE inline auto
 __atomic_fetch_add_dispatch(_Sto* __a, _Up __delta, memory_order __order, _Sco = {}) -> __atomic_underlying_t<_Sto>
 {
   NV_DISPATCH_TARGET(
-    NV_IS_DEVICE,
+    NV_PROVIDES_SM_60,
     (return __atomic_fetch_add_cuda(__a->get(), __delta, static_cast<__memory_order_underlying_t>(__order), _Sco{});),
+    NV_IS_DEVICE,
+    (__atomic_is_not_supported_pre_sm_60();),
     NV_IS_HOST,
     (return __atomic_fetch_add_host(__a->get(), __delta, __order);))
 }
@@ -175,8 +193,10 @@ _CCCL_HOST_DEVICE inline auto
 __atomic_fetch_sub_dispatch(_Sto* __a, _Up __delta, memory_order __order, _Sco = {}) -> __atomic_underlying_t<_Sto>
 {
   NV_DISPATCH_TARGET(
-    NV_IS_DEVICE,
+    NV_PROVIDES_SM_60,
     (return __atomic_fetch_sub_cuda(__a->get(), __delta, static_cast<__memory_order_underlying_t>(__order), _Sco{});),
+    NV_IS_DEVICE,
+    (__atomic_is_not_supported_pre_sm_60();),
     NV_IS_HOST,
     (return __atomic_fetch_sub_host(__a->get(), __delta, __order);))
 }
@@ -186,8 +206,10 @@ _CCCL_HOST_DEVICE inline auto
 __atomic_fetch_and_dispatch(_Sto* __a, _Up __pattern, memory_order __order, _Sco = {}) -> __atomic_underlying_t<_Sto>
 {
   NV_DISPATCH_TARGET(
-    NV_IS_DEVICE,
+    NV_PROVIDES_SM_60,
     (return __atomic_fetch_and_cuda(__a->get(), __pattern, static_cast<__memory_order_underlying_t>(__order), _Sco{});),
+    NV_IS_DEVICE,
+    (__atomic_is_not_supported_pre_sm_60();),
     NV_IS_HOST,
     (return __atomic_fetch_and_host(__a->get(), __pattern, __order);))
 }
@@ -197,8 +219,10 @@ _CCCL_HOST_DEVICE inline auto
 __atomic_fetch_or_dispatch(_Sto* __a, _Up __pattern, memory_order __order, _Sco = {}) -> __atomic_underlying_t<_Sto>
 {
   NV_DISPATCH_TARGET(
-    NV_IS_DEVICE,
+    NV_PROVIDES_SM_60,
     (return __atomic_fetch_or_cuda(__a->get(), __pattern, static_cast<__memory_order_underlying_t>(__order), _Sco{});),
+    NV_IS_DEVICE,
+    (__atomic_is_not_supported_pre_sm_60();),
     NV_IS_HOST,
     (return __atomic_fetch_or_host(__a->get(), __pattern, __order);))
 }
@@ -208,8 +232,10 @@ _CCCL_HOST_DEVICE inline auto
 __atomic_fetch_xor_dispatch(_Sto* __a, _Up __pattern, memory_order __order, _Sco = {}) -> __atomic_underlying_t<_Sto>
 {
   NV_DISPATCH_TARGET(
-    NV_IS_DEVICE,
+    NV_PROVIDES_SM_60,
     (return __atomic_fetch_xor_cuda(__a->get(), __pattern, static_cast<__memory_order_underlying_t>(__order), _Sco{});),
+    NV_IS_DEVICE,
+    (__atomic_is_not_supported_pre_sm_60();),
     NV_IS_HOST,
     (return __atomic_fetch_xor_host(__a->get(), __pattern, __order);))
 }
@@ -218,19 +244,25 @@ template <typename _Sto, typename _Up, typename _Sco, __atomic_storage_is_base<_
 _CCCL_HOST_DEVICE inline auto
 __atomic_fetch_max_dispatch(_Sto* __a, _Up __val, memory_order __order, _Sco = {}) -> __atomic_underlying_t<_Sto>
 {
-  NV_IF_TARGET(
-    NV_IS_DEVICE,
+  NV_DISPATCH_TARGET(
+    NV_PROVIDES_SM_60,
     (return __atomic_fetch_max_cuda(__a->get(), __val, static_cast<__memory_order_underlying_t>(__order), _Sco{});),
+    NV_IS_DEVICE,
+    (__atomic_is_not_supported_pre_sm_60();),
+    NV_IS_HOST,
     (return __atomic_fetch_max_host(__a->get(), __val, __order);))
 }
 
 template <typename _Sto, typename _Up, typename _Sco, __atomic_storage_is_base<_Sto> = 0>
 _CCCL_HOST_DEVICE inline auto
 __atomic_fetch_min_dispatch(_Sto* __a, _Up __val, memory_order __order, _Sco = {}) -> __atomic_underlying_t<_Sto>
 {
-  NV_IF_TARGET(
-    NV_IS_DEVICE,
+  NV_DISPATCH_TARGET(
+    NV_PROVIDES_SM_60,
     (return __atomic_fetch_min_cuda(__a->get(), __val, static_cast<__memory_order_underlying_t>(__order), _Sco{});),
+    NV_IS_DEVICE,
+    (__atomic_is_not_supported_pre_sm_60();),
+    NV_IS_HOST,
     (return __atomic_fetch_min_host(__a->get(), __val, __order);))
 }
 

@@ -13,10 +13,6 @@
 
 #include <cuda/std/detail/__config>
 
-#if defined(__CUDA_MINIMUM_ARCH__) && __CUDA_MINIMUM_ARCH__ < 700
-#  error "CUDA synchronization primitives are only supported for sm_70 and up."
-#endif
-
 #if defined(_CCCL_IMPLICIT_SYSTEM_HEADER_GCC)
 #  pragma GCC system_header
 #elif defined(_CCCL_IMPLICIT_SYSTEM_HEADER_CLANG)
@@ -218,7 +214,7 @@ class barrier<thread_scope_block, _CUDA_VSTD::__empty_completion> : public __blo
         // Need 2 instructions, can't finish barrier with arrive > 1
         if (__update > 1) { _CUDA_VPTX::mbarrier_arrive_no_complete(__bh, __update - 1); } __token =
           _CUDA_VPTX::mbarrier_arrive(__bh);),
-      NV_IS_DEVICE,
+      NV_PROVIDES_SM_70,
       (
         if (!__isShared(&__barrier)) { return __barrier.arrive(__update); }
 
@@ -237,7 +233,7 @@ class barrier<thread_scope_block, _CUDA_VSTD::__empty_completion> : public __blo
         if (__leader == static_cast<int>(__laneid)) {
           __token = __barrier.arrive(__inc);
         } __token = __shfl_sync(__active, __token, __leader);),
-      NV_IS_HOST,
+      NV_ANY_TARGET,
       (__token = __barrier.arrive(__update);))
     return __token;
   }

@@ -11,10 +11,6 @@
 #ifndef _CUDA_STD_BARRIER
 #define _CUDA_STD_BARRIER
 
-#if defined(__CUDA_ARCH__) && __CUDA_ARCH__ < 700
-#  error "CUDA synchronization primitives are only supported for sm_70 and up."
-#endif
-
 #include <cuda/std/detail/__config>
 
 #if defined(_CCCL_IMPLICIT_SYSTEM_HEADER_GCC)

@@ -11,10 +11,6 @@
 #ifndef _CUDA_STD_LATCH
 #define _CUDA_STD_LATCH
 
-#if defined(__CUDA_ARCH__) && __CUDA_ARCH__ < 700
-#  error "CUDA synchronization primitives are only supported for sm_70 and up."
-#endif
-
 #include <cuda/std/detail/__config>
 
 #if defined(_CCCL_IMPLICIT_SYSTEM_HEADER_GCC)

@@ -11,10 +11,6 @@
 #ifndef _CUDA_STD_SEMAPHORE
 #define _CUDA_STD_SEMAPHORE
 
-#if defined(__CUDA_ARCH__) && __CUDA_ARCH__ < 700
-#  error "CUDA synchronization primitives are only supported for sm_70 and up."
-#endif
-
 #include <cuda/std/detail/__config>
 
 #if defined(_CCCL_IMPLICIT_SYSTEM_HEADER_GCC)

@@ -48,7 +48,7 @@ function(libcudacxx_add_public_header_test header)
                          -DLIBCUDACXX_ENABLE_EXPERIMENTAL_MEMORY_RESOURCE)
 
   # Ensure that if this is an atomic header, we only include the right architectures
-  string(REGEX MATCH "atomic|barrier|latch|semaphore|annotated_ptr|pipeline" match "${header}")
+  string(REGEX MATCH "annotated_ptr|pipeline" match "${header}")
   if(match)
     # Ensure that we only compile the header when we have some architectures enabled
     if (NOT architectures_at_least_sm70)