pocl

Merge lp:~schnetter/pocl/main into lp:~pocl/pocl/trunk

main
Merge into trunk

Proposed by Erik Schnetter on 2011-11-07

Status:	Merged
Merged at revision:	75
Proposed branch:	lp:~schnetter/pocl/main
Merge into:	lp:~pocl/pocl/trunk
Diff against target:	3359 lines (+377/-1782) 7 files modified include/_kernel.h (+258/-1039) lib/kernel/Makefile.am (+1/-1) lib/kernel/arm/Makefile.am (+1/-1) lib/kernel/sources.mk (+1/-2) lib/kernel/tce/Makefile.am (+1/-1) lib/kernel/templates.h (+114/-737) lib/kernel/x86_64/Makefile.am (+1/-1)
To merge this branch:	bzr merge lp:~schnetter/pocl/main
Related bugs:	Link a bug report

Reviewer	Review Type	Date Requested	Status
Pekka Jääskeläinen		2011-11-07	Needs Fixing on 2011-11-08
Review via email: mp+81503@code.launchpad.net

Description of the change

I have replaced many #ifdefs that test for cl_khr_int64 and cl_khr_fp64 with corresponding __IF_INT64 and __IF_FP64 macros to shorten the code.

Revision history for this message

Pekka Jääskeläinen (pekka-jaaskelainen) wrote on 2011-11-08:

Please do not assume that the target has either both or none of int64&double support. For example, ARM NEON accelerator supports 64 bit integers but only single precision floats. And the TCE target is completely customizable, that is, the TTAs designed with TCE can (in the future, at least when 64 bit words are supported) have whatever combinations of instruction set support.

review: Needs Fixing

Revision history for this message

Erik Schnetter (schnetter) wrote on 2011-11-08:

The dependency between double and long isn't introduced by this patch; this patch only simplifies the existing #ifdef statements, and adds a corresponding check (that could be removed again). Should I?

Clang has currently a problem, in that all 3 operands of the ?: operator need to have the same type to prevent an internal compiler error complaining about types in a binary (!) operator. My current solution for e.g. long ? double : double is to re-interpret the doubles as longs before calling the ?: operator, and to re-interpret them back to double afterwards. See e.g. lib/kernel/select.cl. Similar work-arounds exist in some other run-time functions.

Certain run-time functions that use only double in their signature thus also use long in their implementation, and these are currently only enabled if both double and long are supported.

Using long without double is not a problem.

Revision history for this message

Carlos Sánchez de La Lama (csanchezdll) wrote on 2011-11-08:

Hi Erik,

in the select() it is clear both doubles are long are required (the prototype is
double select(double, double, long)
so it could not be otherwise). However, some calls require only doubles (for example, bitselect, all the trigonometric functions for double, ...) and those can be there even if the machine does not support 64-bit integers (longs).

Look for example at sin.cl; it is using BUILTIN_V_V template, and when I added the macros I changed the template so double versions are only defined if cl_khr_fp64 is defined. But AFAIU there is no real dependency with long there (please correct me if I am mistaken) so this should be done regardless of the cl_khr_int64 status.

Carlos

Revision history for this message

Erik Schnetter (schnetter) wrote on 2011-11-08:

Regarding select: This is just an example where the implementation needs to re-interpret a double as a long to circumvent a compiler problem that currently exists. I assume that this will go away in the (near) future. Maybe double max(double,double) is a better example -- this function does not depend on long in its signature, but its implementation currently does use long because it uses the ?: operator: Since (int ? double : double) doesn't work, it uses (long ? long : long) instead.

Regarding sin.cl: I agree. The #ifdef only checks whether double is available, and my patch doesn't change this, it uses only __IF_FP64 and not __IF_INT64.

lp:~schnetter/pocl/main updated on 2011-11-14

80. By Erik Schnetter on 2011-11-08: Remove warning about "double" requiring "long".
Enable more run-time functions if double is supported but long is not.
81. By Erik Schnetter on 2011-11-08: C files do not depend on templates.h.
templates.h is not a source file.
82. By Erik Schnetter on 2011-11-11: Merge
83. By Erik Schnetter on 2011-11-14: Merge
84. By Erik Schnetter on 2011-11-14: Merge
85. By Erik Schnetter on 2011-11-14: Add templates.h to sources again

Preview Diff

[H/L] Next/Prev Comment, [J/K] Next/Prev File, [N/P] Next/Prev Hunk

Subscribers

People subscribed via source and target branches

to all changes:

Brandon Surmanski

Carlos Sánchez de La Lama

Erik Schnetter

Jesse Towner

Kalle Raiskila

Pekka Jääskeläinen

Sumit Semwal

Vincent Danjean

 === modified file 'include/_kernel.h'
 --- include/_kernel.h	2011-11-05 00:10:25 +0000
 +++ include/_kernel.h	2011-11-14 18:40:38 +0000
@@ -61,7 +61,19 @@
     define the macro and the pragma is conditionally enabled.
  */
  #ifdef cl_khr_fp64
--#pragma OPENCL EXTENSION cl_khr_fp64: enable
++#  pragma OPENCL EXTENSION cl_khr_fp64: enable
++#endif
++
++/* Define some feature macros to help write generic code */
++#ifdef cl_khr_int64
++#  define __IF_INT64(x) x
++#else
++#  define __IF_INT64(x)
++#endif
++#ifdef cl_khr_fp64
++#  define __IF_FP64(x) x
++#else
++#  define __IF_FP64(x)
  #endif
  #define __global __attribute__ ((address_space(3)))
@@ -135,6 +147,10 @@
  typedef ulong ulong4  __attribute__((__ext_vector_type__(4)));
  typedef ulong ulong8  __attribute__((__ext_vector_type__(8)));
  typedef ulong ulong16 __attribute__((__ext_vector_type__(16)));
++#else
++/* Disable datatype */
++struct error_undefined_type_long;
++#define long struct error_undefined_type_long
  #endif
  typedef float float2  __attribute__((__ext_vector_type__(2)));
@@ -149,6 +165,10 @@
  typedef double double4  __attribute__((__ext_vector_type__(4)));
  typedef double double8  __attribute__((__ext_vector_type__(8)));
  typedef double double16 __attribute__((__ext_vector_type__(16)));
++#else
++/* Disable datatype */
++struct error_undefined_type_double;
++#define double struct error_undefined_type_double
  #endif
  #if (__ADDRESS_BITS__ == 32)
@@ -294,589 +314,234 @@
  _CL_DECLARE_AS_TYPE_4(float)
  /* 8 bytes */
--#if defined(cl_khr_int64) && defined(cl_khr_fp64)
--#define _CL_DECLARE_AS_TYPE_8(SRC)              \
--  _CL_DECLARE_AS_TYPE(SRC, char8)               \
--  _CL_DECLARE_AS_TYPE(SRC, uchar8)              \
--  _CL_DECLARE_AS_TYPE(SRC, short4)              \
--  _CL_DECLARE_AS_TYPE(SRC, ushort4)             \
--  _CL_DECLARE_AS_TYPE(SRC, int2)                \
--  _CL_DECLARE_AS_TYPE(SRC, uint2)               \
--  _CL_DECLARE_AS_TYPE(SRC, long)                \
--  _CL_DECLARE_AS_TYPE(SRC, ulong)               \
--  _CL_DECLARE_AS_TYPE(SRC, float2)              \
--  _CL_DECLARE_AS_TYPE(SRC, double)
--#elif defined(cl_khr_int64)
--#define _CL_DECLARE_AS_TYPE_8(SRC)              \
--  _CL_DECLARE_AS_TYPE(SRC, char8)               \
--  _CL_DECLARE_AS_TYPE(SRC, uchar8)              \
--  _CL_DECLARE_AS_TYPE(SRC, short4)              \
--  _CL_DECLARE_AS_TYPE(SRC, ushort4)             \
--  _CL_DECLARE_AS_TYPE(SRC, int2)                \
--  _CL_DECLARE_AS_TYPE(SRC, uint2)               \
--  _CL_DECLARE_AS_TYPE(SRC, long)                \
--  _CL_DECLARE_AS_TYPE(SRC, ulong)               \
--  _CL_DECLARE_AS_TYPE(SRC, float2)
--#elif defined(cl_khr_fp64)
--#define _CL_DECLARE_AS_TYPE_8(SRC)              \
--  _CL_DECLARE_AS_TYPE(SRC, char8)               \
--  _CL_DECLARE_AS_TYPE(SRC, uchar8)              \
--  _CL_DECLARE_AS_TYPE(SRC, short4)              \
--  _CL_DECLARE_AS_TYPE(SRC, ushort4)             \
--  _CL_DECLARE_AS_TYPE(SRC, int2)                \
--  _CL_DECLARE_AS_TYPE(SRC, uint2)               \
--  _CL_DECLARE_AS_TYPE(SRC, float2)              \
--  _CL_DECLARE_AS_TYPE(SRC, double)
--#else
--#define _CL_DECLARE_AS_TYPE_8(SRC)              \
--  _CL_DECLARE_AS_TYPE(SRC, char8)               \
--  _CL_DECLARE_AS_TYPE(SRC, uchar8)              \
--  _CL_DECLARE_AS_TYPE(SRC, short4)              \
--  _CL_DECLARE_AS_TYPE(SRC, ushort4)             \
--  _CL_DECLARE_AS_TYPE(SRC, int2)                \
--  _CL_DECLARE_AS_TYPE(SRC, uint2)               \
--  _CL_DECLARE_AS_TYPE(SRC, float2)
--#endif
++#define _CL_DECLARE_AS_TYPE_8(SRC)              \
++  _CL_DECLARE_AS_TYPE(SRC, char8)               \
++  _CL_DECLARE_AS_TYPE(SRC, uchar8)              \
++  _CL_DECLARE_AS_TYPE(SRC, short4)              \
++  _CL_DECLARE_AS_TYPE(SRC, ushort4)             \
++  _CL_DECLARE_AS_TYPE(SRC, int2)                \
++  _CL_DECLARE_AS_TYPE(SRC, uint2)               \
++  __IF_INT64(_CL_DECLARE_AS_TYPE(SRC, long))    \
++  __IF_INT64(_CL_DECLARE_AS_TYPE(SRC, ulong))   \
++  _CL_DECLARE_AS_TYPE(SRC, float2)              \
++  __IF_FP64(_CL_DECLARE_AS_TYPE(SRC, double))
  _CL_DECLARE_AS_TYPE_8(char8)
  _CL_DECLARE_AS_TYPE_8(uchar8)
  _CL_DECLARE_AS_TYPE_8(short4)
  _CL_DECLARE_AS_TYPE_8(ushort4)
  _CL_DECLARE_AS_TYPE_8(int2)
  _CL_DECLARE_AS_TYPE_8(uint2)
--#ifdef cl_khr_int64
--_CL_DECLARE_AS_TYPE_8(long)
--_CL_DECLARE_AS_TYPE_8(ulong)
--#endif
++__IF_INT64(_CL_DECLARE_AS_TYPE_8(long))
++__IF_INT64(_CL_DECLARE_AS_TYPE_8(ulong))
  _CL_DECLARE_AS_TYPE_8(float2)
--#ifdef cl_khr_fp64
--_CL_DECLARE_AS_TYPE_8(double)
--#endif
++__IF_FP64(_CL_DECLARE_AS_TYPE_8(double))
  /* 16 bytes */
--#if defined(cl_khr_int64) && defined(cl_khr_fp64)
--#define _CL_DECLARE_AS_TYPE_16(SRC)             \
--  _CL_DECLARE_AS_TYPE(SRC, char16)              \
--  _CL_DECLARE_AS_TYPE(SRC, uchar16)             \
--  _CL_DECLARE_AS_TYPE(SRC, short8)              \
--  _CL_DECLARE_AS_TYPE(SRC, ushort8)             \
--  _CL_DECLARE_AS_TYPE(SRC, int4)                \
--  _CL_DECLARE_AS_TYPE(SRC, uint4)               \
--  _CL_DECLARE_AS_TYPE(SRC, long2)               \
--  _CL_DECLARE_AS_TYPE(SRC, ulong2)              \
--  _CL_DECLARE_AS_TYPE(SRC, float4)              \
--  _CL_DECLARE_AS_TYPE(SRC, double2)
--#elif defined(cl_khr_int64)
--#define _CL_DECLARE_AS_TYPE_16(SRC)             \
--  _CL_DECLARE_AS_TYPE(SRC, char16)              \
--  _CL_DECLARE_AS_TYPE(SRC, uchar16)             \
--  _CL_DECLARE_AS_TYPE(SRC, short8)              \
--  _CL_DECLARE_AS_TYPE(SRC, ushort8)             \
--  _CL_DECLARE_AS_TYPE(SRC, int4)                \
--  _CL_DECLARE_AS_TYPE(SRC, uint4)               \
--  _CL_DECLARE_AS_TYPE(SRC, long2)               \
--  _CL_DECLARE_AS_TYPE(SRC, ulong2)              \
--  _CL_DECLARE_AS_TYPE(SRC, float4)
--#elif defined(cl_khr_fp64)
--#define _CL_DECLARE_AS_TYPE_16(SRC)             \
--  _CL_DECLARE_AS_TYPE(SRC, char16)              \
--  _CL_DECLARE_AS_TYPE(SRC, uchar16)             \
--  _CL_DECLARE_AS_TYPE(SRC, short8)              \
--  _CL_DECLARE_AS_TYPE(SRC, ushort8)             \
--  _CL_DECLARE_AS_TYPE(SRC, int4)                \
--  _CL_DECLARE_AS_TYPE(SRC, uint4)               \
--  _CL_DECLARE_AS_TYPE(SRC, float4)              \
--  _CL_DECLARE_AS_TYPE(SRC, double2)
--#else
--#define _CL_DECLARE_AS_TYPE_16(SRC)             \
--  _CL_DECLARE_AS_TYPE(SRC, char16)              \
--  _CL_DECLARE_AS_TYPE(SRC, uchar16)             \
--  _CL_DECLARE_AS_TYPE(SRC, short8)              \
--  _CL_DECLARE_AS_TYPE(SRC, ushort8)             \
--  _CL_DECLARE_AS_TYPE(SRC, int4)                \
--  _CL_DECLARE_AS_TYPE(SRC, uint4)               \
--  _CL_DECLARE_AS_TYPE(SRC, float4)
--#endif
++#define _CL_DECLARE_AS_TYPE_16(SRC)             \
++  _CL_DECLARE_AS_TYPE(SRC, char16)              \
++  _CL_DECLARE_AS_TYPE(SRC, uchar16)             \
++  _CL_DECLARE_AS_TYPE(SRC, short8)              \
++  _CL_DECLARE_AS_TYPE(SRC, ushort8)             \
++  _CL_DECLARE_AS_TYPE(SRC, int4)                \
++  _CL_DECLARE_AS_TYPE(SRC, uint4)               \
++  __IF_INT64(_CL_DECLARE_AS_TYPE(SRC, long2))   \
++  __IF_INT64(_CL_DECLARE_AS_TYPE(SRC, ulong2))  \
++  _CL_DECLARE_AS_TYPE(SRC, float4)              \
++  __IF_FP64(_CL_DECLARE_AS_TYPE(SRC, double2))
  _CL_DECLARE_AS_TYPE_16(char16)
  _CL_DECLARE_AS_TYPE_16(uchar16)
  _CL_DECLARE_AS_TYPE_16(short8)
  _CL_DECLARE_AS_TYPE_16(ushort8)
  _CL_DECLARE_AS_TYPE_16(int4)
  _CL_DECLARE_AS_TYPE_16(uint4)
--#ifdef cl_khr_int64
--_CL_DECLARE_AS_TYPE_16(long2)
--_CL_DECLARE_AS_TYPE_16(ulong2)
--#endif
++__IF_INT64(_CL_DECLARE_AS_TYPE_16(long2))
++__IF_INT64(_CL_DECLARE_AS_TYPE_16(ulong2))
  _CL_DECLARE_AS_TYPE_16(float4)
--#ifdef cl_khr_fp64
--_CL_DECLARE_AS_TYPE_16(double2)
--#endif
++__IF_FP64(_CL_DECLARE_AS_TYPE_16(double2))
  /* 32 bytes */
--#if defined(cl_khr_int64) && defined(cl_khr_fp64)
--#define _CL_DECLARE_AS_TYPE_32(SRC)             \
--  _CL_DECLARE_AS_TYPE(SRC, short16)             \
--  _CL_DECLARE_AS_TYPE(SRC, ushort16)            \
--  _CL_DECLARE_AS_TYPE(SRC, int8)                \
--  _CL_DECLARE_AS_TYPE(SRC, uint8)               \
--  _CL_DECLARE_AS_TYPE(SRC, long4)               \
--  _CL_DECLARE_AS_TYPE(SRC, ulong4)              \
--  _CL_DECLARE_AS_TYPE(SRC, float8)              \
--  _CL_DECLARE_AS_TYPE(SRC, double4)
--#elif defined(cl_khr_int64)
--#define _CL_DECLARE_AS_TYPE_32(SRC)             \
--  _CL_DECLARE_AS_TYPE(SRC, short16)             \
--  _CL_DECLARE_AS_TYPE(SRC, ushort16)            \
--  _CL_DECLARE_AS_TYPE(SRC, int8)                \
--  _CL_DECLARE_AS_TYPE(SRC, uint8)               \
--  _CL_DECLARE_AS_TYPE(SRC, long4)               \
--  _CL_DECLARE_AS_TYPE(SRC, ulong4)              \
--  _CL_DECLARE_AS_TYPE(SRC, float8)
--#elif defined(cl_khr_fp64)
--#define _CL_DECLARE_AS_TYPE_32(SRC)             \
--  _CL_DECLARE_AS_TYPE(SRC, short16)             \
--  _CL_DECLARE_AS_TYPE(SRC, ushort16)            \
--  _CL_DECLARE_AS_TYPE(SRC, int8)                \
--  _CL_DECLARE_AS_TYPE(SRC, uint8)               \
--  _CL_DECLARE_AS_TYPE(SRC, float8)              \
--  _CL_DECLARE_AS_TYPE(SRC, double4)
--#else
--#define _CL_DECLARE_AS_TYPE_32(SRC)             \
--  _CL_DECLARE_AS_TYPE(SRC, short16)             \
--  _CL_DECLARE_AS_TYPE(SRC, ushort16)            \
--  _CL_DECLARE_AS_TYPE(SRC, int8)                \
--  _CL_DECLARE_AS_TYPE(SRC, uint8)               \
--  _CL_DECLARE_AS_TYPE(SRC, float8)
--#endif
++#define _CL_DECLARE_AS_TYPE_32(SRC)             \
++  _CL_DECLARE_AS_TYPE(SRC, short16)             \
++  _CL_DECLARE_AS_TYPE(SRC, ushort16)            \
++  _CL_DECLARE_AS_TYPE(SRC, int8)                \
++  _CL_DECLARE_AS_TYPE(SRC, uint8)               \
++  __IF_INT64(_CL_DECLARE_AS_TYPE(SRC, long4))   \
++  __IF_INT64(_CL_DECLARE_AS_TYPE(SRC, ulong4))  \
++  _CL_DECLARE_AS_TYPE(SRC, float8)              \
++  __IF_FP64(_CL_DECLARE_AS_TYPE(SRC, double4))
  _CL_DECLARE_AS_TYPE_32(short16)
  _CL_DECLARE_AS_TYPE_32(ushort16)
  _CL_DECLARE_AS_TYPE_32(int8)
  _CL_DECLARE_AS_TYPE_32(uint8)
--#ifdef cl_khr_int64
--_CL_DECLARE_AS_TYPE_32(long4)
--_CL_DECLARE_AS_TYPE_32(ulong4)
--#endif
++__IF_INT64(_CL_DECLARE_AS_TYPE_32(long4))
++__IF_INT64(_CL_DECLARE_AS_TYPE_32(ulong4))
  _CL_DECLARE_AS_TYPE_32(float8)
--#ifdef cl_khr_fp64
--_CL_DECLARE_AS_TYPE_32(double4)
--#endif
++__IF_FP64(_CL_DECLARE_AS_TYPE_32(double4))
  /* 64 bytes */
--#if defined(cl_khr_int64) && defined(cl_khr_fp64)
--#define _CL_DECLARE_AS_TYPE_64(SRC)             \
--  _CL_DECLARE_AS_TYPE(SRC, int16)               \
--  _CL_DECLARE_AS_TYPE(SRC, uint16)              \
--  _CL_DECLARE_AS_TYPE(SRC, long8)               \
--  _CL_DECLARE_AS_TYPE(SRC, ulong8)              \
--  _CL_DECLARE_AS_TYPE(SRC, float16)             \
--  _CL_DECLARE_AS_TYPE(SRC, double8)
--#elif defined(cl_khr_int64)
--#define _CL_DECLARE_AS_TYPE_64(SRC)             \
--  _CL_DECLARE_AS_TYPE(SRC, int16)               \
--  _CL_DECLARE_AS_TYPE(SRC, uint16)              \
--  _CL_DECLARE_AS_TYPE(SRC, long8)               \
--  _CL_DECLARE_AS_TYPE(SRC, ulong8)              \
--  _CL_DECLARE_AS_TYPE(SRC, float16)
--#elif defined(cl_khr_fp64)
--#define _CL_DECLARE_AS_TYPE_64(SRC)             \
--  _CL_DECLARE_AS_TYPE(SRC, int16)               \
--  _CL_DECLARE_AS_TYPE(SRC, uint16)              \
--  _CL_DECLARE_AS_TYPE(SRC, float16)             \
--  _CL_DECLARE_AS_TYPE(SRC, double8)
--#else
--#define _CL_DECLARE_AS_TYPE_64(SRC)             \
--  _CL_DECLARE_AS_TYPE(SRC, int16)               \
--  _CL_DECLARE_AS_TYPE(SRC, uint16)              \
--  _CL_DECLARE_AS_TYPE(SRC, float16)
--#endif
++#define _CL_DECLARE_AS_TYPE_64(SRC)             \
++  _CL_DECLARE_AS_TYPE(SRC, int16)               \
++  _CL_DECLARE_AS_TYPE(SRC, uint16)              \
++  __IF_INT64(_CL_DECLARE_AS_TYPE(SRC, long8))   \
++  __IF_INT64(_CL_DECLARE_AS_TYPE(SRC, ulong8))  \
++  _CL_DECLARE_AS_TYPE(SRC, float16)             \
++  __IF_FP64(_CL_DECLARE_AS_TYPE(SRC, double8))
  _CL_DECLARE_AS_TYPE_64(int16)
  _CL_DECLARE_AS_TYPE_64(uint16)
--#ifdef cl_khr_int64
--_CL_DECLARE_AS_TYPE_64(long8)
--_CL_DECLARE_AS_TYPE_64(ulong8)
--#endif
++__IF_INT64(_CL_DECLARE_AS_TYPE_64(long8))
++__IF_INT64(_CL_DECLARE_AS_TYPE_64(ulong8))
  _CL_DECLARE_AS_TYPE_64(float16)
--#ifdef cl_khr_fp64
--_CL_DECLARE_AS_TYPE_64(double8)
--#endif
++__IF_FP64(_CL_DECLARE_AS_TYPE_64(double8))
  /* 128 bytes */
--#if defined(cl_khr_int64) && defined(cl_khr_fp64)
--#define _CL_DECLARE_AS_TYPE_128(SRC)            \
--  _CL_DECLARE_AS_TYPE(SRC, long16)              \
--  _CL_DECLARE_AS_TYPE(SRC, ulong16)             \
--  _CL_DECLARE_AS_TYPE(SRC, double16)
--#elif defined(cl_khr_int64)
--#define _CL_DECLARE_AS_TYPE_128(SRC)            \
--  _CL_DECLARE_AS_TYPE(SRC, long16)              \
--  _CL_DECLARE_AS_TYPE(SRC, ulong16)
--#elif defined(cl_khr_fp64)
--#define _CL_DECLARE_AS_TYPE_128(SRC)            \
--  _CL_DECLARE_AS_TYPE(SRC, double16)
--#endif
--#ifdef cl_khr_int64
--_CL_DECLARE_AS_TYPE_128(long16)
--_CL_DECLARE_AS_TYPE_128(ulong16)
--#endif
--#ifdef cl_khr_fp64
--_CL_DECLARE_AS_TYPE_128(double16)
--#endif
++#define _CL_DECLARE_AS_TYPE_128(SRC)            \
++  __IF_INT64(_CL_DECLARE_AS_TYPE(SRC, long16))  \
++  __IF_INT64(_CL_DECLARE_AS_TYPE(SRC, ulong16)) \
++  __IF_FP64(_CL_DECLARE_AS_TYPE(SRC, double16))
++__IF_INT64(_CL_DECLARE_AS_TYPE_128(long16))
++__IF_INT64(_CL_DECLARE_AS_TYPE_128(ulong16))
++__IF_FP64(_CL_DECLARE_AS_TYPE_128(double16))
  #define _CL_DECLARE_CONVERT_TYPE(SRC, DST)      \
    DST _cl_overloadable convert_##DST(SRC a);
  /* 1 element */
--#if defined(cl_khr_int64) && defined(cl_khr_fp64)
--#define _CL_DECLARE_CONVERT_TYPE_1(SRC)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, char)           \
--  _CL_DECLARE_CONVERT_TYPE(SRC, uchar)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, short)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, ushort)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, int)            \
--  _CL_DECLARE_CONVERT_TYPE(SRC, uint)           \
--  _CL_DECLARE_CONVERT_TYPE(SRC, long)           \
--  _CL_DECLARE_CONVERT_TYPE(SRC, ulong)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, float)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, double)
--#elif defined(cl_khr_int64)
--#define _CL_DECLARE_CONVERT_TYPE_1(SRC)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, char)           \
--  _CL_DECLARE_CONVERT_TYPE(SRC, uchar)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, short)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, ushort)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, int)            \
--  _CL_DECLARE_CONVERT_TYPE(SRC, uint)           \
--  _CL_DECLARE_CONVERT_TYPE(SRC, long)           \
--  _CL_DECLARE_CONVERT_TYPE(SRC, ulong)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, float)
--#elif defined(cl_khr_fp64)
--#define _CL_DECLARE_CONVERT_TYPE_1(SRC)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, char)           \
--  _CL_DECLARE_CONVERT_TYPE(SRC, uchar)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, short)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, ushort)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, int)            \
--  _CL_DECLARE_CONVERT_TYPE(SRC, uint)           \
--  _CL_DECLARE_CONVERT_TYPE(SRC, float)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, double)
--#else
--#define _CL_DECLARE_CONVERT_TYPE_1(SRC)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, char)           \
--  _CL_DECLARE_CONVERT_TYPE(SRC, uchar)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, short)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, ushort)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, int)            \
--  _CL_DECLARE_CONVERT_TYPE(SRC, uint)           \
--  _CL_DECLARE_CONVERT_TYPE(SRC, float)
--#endif
++#define _CL_DECLARE_CONVERT_TYPE_1(SRC)                 \
++  _CL_DECLARE_CONVERT_TYPE(SRC, char)                   \
++  _CL_DECLARE_CONVERT_TYPE(SRC, uchar)                  \
++  _CL_DECLARE_CONVERT_TYPE(SRC, short)                  \
++  _CL_DECLARE_CONVERT_TYPE(SRC, ushort)                 \
++  _CL_DECLARE_CONVERT_TYPE(SRC, int)                    \
++  _CL_DECLARE_CONVERT_TYPE(SRC, uint)                   \
++  __IF_INT64(_CL_DECLARE_CONVERT_TYPE(SRC, long))       \
++  __IF_INT64(_CL_DECLARE_CONVERT_TYPE(SRC, ulong))      \
++  _CL_DECLARE_CONVERT_TYPE(SRC, float)                  \
++  __IF_FP64(_CL_DECLARE_CONVERT_TYPE(SRC, double))
  _CL_DECLARE_CONVERT_TYPE_1(char)
  _CL_DECLARE_CONVERT_TYPE_1(uchar)
  _CL_DECLARE_CONVERT_TYPE_1(short)
  _CL_DECLARE_CONVERT_TYPE_1(ushort)
  _CL_DECLARE_CONVERT_TYPE_1(int)
  _CL_DECLARE_CONVERT_TYPE_1(uint)
--#ifdef cl_khr_int64
--_CL_DECLARE_CONVERT_TYPE_1(long)
--_CL_DECLARE_CONVERT_TYPE_1(ulong)
--#endif
++__IF_INT64(_CL_DECLARE_CONVERT_TYPE_1(long))
++__IF_INT64(_CL_DECLARE_CONVERT_TYPE_1(ulong))
  _CL_DECLARE_CONVERT_TYPE_1(float)
--#ifdef cl_khr_fp64
--_CL_DECLARE_CONVERT_TYPE_1(double)
--#endif
++__IF_FP64(_CL_DECLARE_CONVERT_TYPE_1(double))
  /* 2 elements */
--#if defined(cl_khr_int64) && defined(cl_khr_fp64)
--#define _CL_DECLARE_CONVERT_TYPE_2(SRC)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, char2)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, uchar2)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, short2)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, ushort2)        \
--  _CL_DECLARE_CONVERT_TYPE(SRC, int2)           \
--  _CL_DECLARE_CONVERT_TYPE(SRC, uint2)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, long2)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, ulong2)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, float2)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, double2)
--#elif defined(cl_khr_int64)
--#define _CL_DECLARE_CONVERT_TYPE_2(SRC)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, char2)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, uchar2)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, short2)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, ushort2)        \
--  _CL_DECLARE_CONVERT_TYPE(SRC, int2)           \
--  _CL_DECLARE_CONVERT_TYPE(SRC, uint2)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, long2)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, ulong2)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, float2)
--#elif defined(cl_khr_fp64)
--#define _CL_DECLARE_CONVERT_TYPE_2(SRC)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, char2)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, uchar2)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, short2)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, ushort2)        \
--  _CL_DECLARE_CONVERT_TYPE(SRC, int2)           \
--  _CL_DECLARE_CONVERT_TYPE(SRC, uint2)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, float2)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, double2)
--#else
--#define _CL_DECLARE_CONVERT_TYPE_2(SRC)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, char2)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, uchar2)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, short2)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, ushort2)        \
--  _CL_DECLARE_CONVERT_TYPE(SRC, int2)           \
--  _CL_DECLARE_CONVERT_TYPE(SRC, uint2)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, float2)
--#endif
++#define _CL_DECLARE_CONVERT_TYPE_2(SRC)                 \
++  _CL_DECLARE_CONVERT_TYPE(SRC, char2)                  \
++  _CL_DECLARE_CONVERT_TYPE(SRC, uchar2)                 \
++  _CL_DECLARE_CONVERT_TYPE(SRC, short2)                 \
++  _CL_DECLARE_CONVERT_TYPE(SRC, ushort2)                \
++  _CL_DECLARE_CONVERT_TYPE(SRC, int2)                   \
++  _CL_DECLARE_CONVERT_TYPE(SRC, uint2)                  \
++  __IF_INT64(_CL_DECLARE_CONVERT_TYPE(SRC, long2))      \
++  __IF_INT64(_CL_DECLARE_CONVERT_TYPE(SRC, ulong2))     \
++  _CL_DECLARE_CONVERT_TYPE(SRC, float2)                 \
++  __IF_FP64(_CL_DECLARE_CONVERT_TYPE(SRC, double2))
  _CL_DECLARE_CONVERT_TYPE_2(char2)
  _CL_DECLARE_CONVERT_TYPE_2(uchar2)
  _CL_DECLARE_CONVERT_TYPE_2(short2)
  _CL_DECLARE_CONVERT_TYPE_2(ushort2)
  _CL_DECLARE_CONVERT_TYPE_2(int2)
  _CL_DECLARE_CONVERT_TYPE_2(uint2)
--#ifdef cl_khr_int64
--_CL_DECLARE_CONVERT_TYPE_2(long2)
--_CL_DECLARE_CONVERT_TYPE_2(ulong2)
--#endif
++__IF_INT64(_CL_DECLARE_CONVERT_TYPE_2(long2))
++__IF_INT64(_CL_DECLARE_CONVERT_TYPE_2(ulong2))
  _CL_DECLARE_CONVERT_TYPE_2(float2)
--#ifdef cl_khr_fp64
--_CL_DECLARE_CONVERT_TYPE_2(double2)
--#endif
++__IF_FP64(_CL_DECLARE_CONVERT_TYPE_2(double2))
  /* 3 elements */
--#if defined(cl_khr_int64) && defined(cl_khr_fp64)
--#define _CL_DECLARE_CONVERT_TYPE_3(SRC)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, char3)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, uchar3)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, short3)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, ushort3)        \
--  _CL_DECLARE_CONVERT_TYPE(SRC, int3)           \
--  _CL_DECLARE_CONVERT_TYPE(SRC, uint3)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, long3)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, ulong3)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, float3)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, double3)
--#elif defined(cl_khr_int64)
--#define _CL_DECLARE_CONVERT_TYPE_3(SRC)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, char3)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, uchar3)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, short3)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, ushort3)        \
--  _CL_DECLARE_CONVERT_TYPE(SRC, int3)           \
--  _CL_DECLARE_CONVERT_TYPE(SRC, uint3)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, long3)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, ulong3)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, float3)
--#elif defined(cl_khr_fp64)
--#define _CL_DECLARE_CONVERT_TYPE_3(SRC)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, char3)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, uchar3)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, short3)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, ushort3)        \
--  _CL_DECLARE_CONVERT_TYPE(SRC, int3)           \
--  _CL_DECLARE_CONVERT_TYPE(SRC, uint3)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, float3)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, double3)
--#else
--#define _CL_DECLARE_CONVERT_TYPE_3(SRC)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, char3)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, uchar3)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, short3)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, ushort3)        \
--  _CL_DECLARE_CONVERT_TYPE(SRC, int3)           \
--  _CL_DECLARE_CONVERT_TYPE(SRC, uint3)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, float3)
--#endif
++#define _CL_DECLARE_CONVERT_TYPE_3(SRC)                 \
++  _CL_DECLARE_CONVERT_TYPE(SRC, char3)                  \
++  _CL_DECLARE_CONVERT_TYPE(SRC, uchar3)                 \
++  _CL_DECLARE_CONVERT_TYPE(SRC, short3)                 \
++  _CL_DECLARE_CONVERT_TYPE(SRC, ushort3)                \
++  _CL_DECLARE_CONVERT_TYPE(SRC, int3)                   \
++  _CL_DECLARE_CONVERT_TYPE(SRC, uint3)                  \
++  __IF_INT64(_CL_DECLARE_CONVERT_TYPE(SRC, long3))      \
++  __IF_INT64(_CL_DECLARE_CONVERT_TYPE(SRC, ulong3))     \
++  _CL_DECLARE_CONVERT_TYPE(SRC, float3)                 \
++  __IF_FP64(_CL_DECLARE_CONVERT_TYPE(SRC, double3))
  _CL_DECLARE_CONVERT_TYPE_3(char3)
  _CL_DECLARE_CONVERT_TYPE_3(uchar3)
  _CL_DECLARE_CONVERT_TYPE_3(short3)
  _CL_DECLARE_CONVERT_TYPE_3(ushort3)
  _CL_DECLARE_CONVERT_TYPE_3(int3)
  _CL_DECLARE_CONVERT_TYPE_3(uint3)
--#ifdef cl_khr_int64
--_CL_DECLARE_CONVERT_TYPE_3(long3)
--_CL_DECLARE_CONVERT_TYPE_3(ulong3)
--#endif
++__IF_INT64(_CL_DECLARE_CONVERT_TYPE_3(long3))
++__IF_INT64(_CL_DECLARE_CONVERT_TYPE_3(ulong3))
  _CL_DECLARE_CONVERT_TYPE_3(float3)
--#ifdef cl_khr_fp64
--_CL_DECLARE_CONVERT_TYPE_3(double3)
--#endif
++__IF_FP64(_CL_DECLARE_CONVERT_TYPE_3(double3))
  /* 4 elements */
--#if defined(cl_khr_int64) && defined(cl_khr_fp64)
--#define _CL_DECLARE_CONVERT_TYPE_4(SRC)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, char4)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, uchar4)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, short4)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, ushort4)        \
--  _CL_DECLARE_CONVERT_TYPE(SRC, int4)           \
--  _CL_DECLARE_CONVERT_TYPE(SRC, uint4)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, long4)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, ulong4)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, float4)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, double4)
--#elif defined(cl_khr_int64)
--#define _CL_DECLARE_CONVERT_TYPE_4(SRC)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, char4)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, uchar4)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, short4)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, ushort4)        \
--  _CL_DECLARE_CONVERT_TYPE(SRC, int4)           \
--  _CL_DECLARE_CONVERT_TYPE(SRC, uint4)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, long4)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, ulong4)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, float4)
--#elif defined(cl_khr_fp64)
--#define _CL_DECLARE_CONVERT_TYPE_4(SRC)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, char4)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, uchar4)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, short4)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, ushort4)        \
--  _CL_DECLARE_CONVERT_TYPE(SRC, int4)           \
--  _CL_DECLARE_CONVERT_TYPE(SRC, uint4)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, float4)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, double4)
--#else
--#define _CL_DECLARE_CONVERT_TYPE_4(SRC)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, char4)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, uchar4)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, short4)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, ushort4)        \
--  _CL_DECLARE_CONVERT_TYPE(SRC, int4)           \
--  _CL_DECLARE_CONVERT_TYPE(SRC, uint4)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, float4)
--#endif
++#define _CL_DECLARE_CONVERT_TYPE_4(SRC)                 \
++  _CL_DECLARE_CONVERT_TYPE(SRC, char4)                  \
++  _CL_DECLARE_CONVERT_TYPE(SRC, uchar4)                 \
++  _CL_DECLARE_CONVERT_TYPE(SRC, short4)                 \
++  _CL_DECLARE_CONVERT_TYPE(SRC, ushort4)                \
++  _CL_DECLARE_CONVERT_TYPE(SRC, int4)                   \
++  _CL_DECLARE_CONVERT_TYPE(SRC, uint4)                  \
++  __IF_INT64(_CL_DECLARE_CONVERT_TYPE(SRC, long4))      \
++  __IF_INT64(_CL_DECLARE_CONVERT_TYPE(SRC, ulong4))     \
++  _CL_DECLARE_CONVERT_TYPE(SRC, float4)                 \
++  __IF_FP64(_CL_DECLARE_CONVERT_TYPE(SRC, double4))
  _CL_DECLARE_CONVERT_TYPE_4(char4)
  _CL_DECLARE_CONVERT_TYPE_4(uchar4)
  _CL_DECLARE_CONVERT_TYPE_4(short4)
  _CL_DECLARE_CONVERT_TYPE_4(ushort4)
  _CL_DECLARE_CONVERT_TYPE_4(int4)
  _CL_DECLARE_CONVERT_TYPE_4(uint4)
--#ifdef cl_khr_int64
--_CL_DECLARE_CONVERT_TYPE_4(long4)
--_CL_DECLARE_CONVERT_TYPE_4(ulong4)
--#endif
++__IF_INT64(_CL_DECLARE_CONVERT_TYPE_4(long4))
++__IF_INT64(_CL_DECLARE_CONVERT_TYPE_4(ulong4))
  _CL_DECLARE_CONVERT_TYPE_4(float4)
--#ifdef cl_khr_fp64
--_CL_DECLARE_CONVERT_TYPE_4(double4)
--#endif
++__IF_FP64(_CL_DECLARE_CONVERT_TYPE_4(double4))
  /* 8 elements */
--#if defined(cl_khr_int64) && defined(cl_khr_fp64)
--#define _CL_DECLARE_CONVERT_TYPE_8(SRC)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, char8)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, uchar8)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, short8)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, ushort8)        \
--  _CL_DECLARE_CONVERT_TYPE(SRC, int8)           \
--  _CL_DECLARE_CONVERT_TYPE(SRC, uint8)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, long8)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, ulong8)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, float8)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, double8)
--#elif defined(cl_khr_int64)
--#define _CL_DECLARE_CONVERT_TYPE_8(SRC)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, char8)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, uchar8)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, short8)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, ushort8)        \
--  _CL_DECLARE_CONVERT_TYPE(SRC, int8)           \
--  _CL_DECLARE_CONVERT_TYPE(SRC, uint8)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, long8)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, ulong8)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, float8)
--#elif defined(cl_khr_fp64)
--#define _CL_DECLARE_CONVERT_TYPE_8(SRC)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, char8)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, uchar8)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, short8)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, ushort8)        \
--  _CL_DECLARE_CONVERT_TYPE(SRC, int8)           \
--  _CL_DECLARE_CONVERT_TYPE(SRC, uint8)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, float8)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, double8)
--#else
--#define _CL_DECLARE_CONVERT_TYPE_8(SRC)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, char8)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, uchar8)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, short8)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, ushort8)        \
--  _CL_DECLARE_CONVERT_TYPE(SRC, int8)           \
--  _CL_DECLARE_CONVERT_TYPE(SRC, uint8)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, float8)
--#endif
++#define _CL_DECLARE_CONVERT_TYPE_8(SRC)                 \
++  _CL_DECLARE_CONVERT_TYPE(SRC, char8)                  \
++  _CL_DECLARE_CONVERT_TYPE(SRC, uchar8)                 \
++  _CL_DECLARE_CONVERT_TYPE(SRC, short8)                 \
++  _CL_DECLARE_CONVERT_TYPE(SRC, ushort8)                \
++  _CL_DECLARE_CONVERT_TYPE(SRC, int8)                   \
++  _CL_DECLARE_CONVERT_TYPE(SRC, uint8)                  \
++  __IF_INT64(_CL_DECLARE_CONVERT_TYPE(SRC, long8))      \
++  __IF_INT64(_CL_DECLARE_CONVERT_TYPE(SRC, ulong8))     \
++  _CL_DECLARE_CONVERT_TYPE(SRC, float8)                 \
++  __IF_FP64(_CL_DECLARE_CONVERT_TYPE(SRC, double8))
  _CL_DECLARE_CONVERT_TYPE_8(char8)
  _CL_DECLARE_CONVERT_TYPE_8(uchar8)
  _CL_DECLARE_CONVERT_TYPE_8(short8)
  _CL_DECLARE_CONVERT_TYPE_8(ushort8)
  _CL_DECLARE_CONVERT_TYPE_8(int8)
  _CL_DECLARE_CONVERT_TYPE_8(uint8)
--#ifdef cl_khr_int64
--_CL_DECLARE_CONVERT_TYPE_8(long8)
--_CL_DECLARE_CONVERT_TYPE_8(ulong8)
--#endif
++__IF_INT64(_CL_DECLARE_CONVERT_TYPE_8(long8))
++__IF_INT64(_CL_DECLARE_CONVERT_TYPE_8(ulong8))
  _CL_DECLARE_CONVERT_TYPE_8(float8)
--#ifdef cl_khr_fp64
--_CL_DECLARE_CONVERT_TYPE_8(double8)
--#endif
++__IF_FP64(_CL_DECLARE_CONVERT_TYPE_8(double8))
  /* 16 elements */
--#if defined(cl_khr_int64) && defined(cl_khr_fp64)
--#define _CL_DECLARE_CONVERT_TYPE_16(SRC)        \
--  _CL_DECLARE_CONVERT_TYPE(SRC, char16)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, uchar16)        \
--  _CL_DECLARE_CONVERT_TYPE(SRC, short16)        \
--  _CL_DECLARE_CONVERT_TYPE(SRC, ushort16)       \
--  _CL_DECLARE_CONVERT_TYPE(SRC, int16)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, uint16)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, long16)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, ulong16)        \
--  _CL_DECLARE_CONVERT_TYPE(SRC, float16)        \
--  _CL_DECLARE_CONVERT_TYPE(SRC, double16)
--#elif defined(cl_khr_int64)
--#define _CL_DECLARE_CONVERT_TYPE_16(SRC)        \
--  _CL_DECLARE_CONVERT_TYPE(SRC, char16)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, uchar16)        \
--  _CL_DECLARE_CONVERT_TYPE(SRC, short16)        \
--  _CL_DECLARE_CONVERT_TYPE(SRC, ushort16)       \
--  _CL_DECLARE_CONVERT_TYPE(SRC, int16)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, uint16)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, long16)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, ulong16)        \
--  _CL_DECLARE_CONVERT_TYPE(SRC, float16)
--#elif defined(cl_khr_fp64)
--#define _CL_DECLARE_CONVERT_TYPE_16(SRC)        \
--  _CL_DECLARE_CONVERT_TYPE(SRC, char16)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, uchar16)        \
--  _CL_DECLARE_CONVERT_TYPE(SRC, short16)        \
--  _CL_DECLARE_CONVERT_TYPE(SRC, ushort16)       \
--  _CL_DECLARE_CONVERT_TYPE(SRC, int16)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, uint16)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, float16)        \
--  _CL_DECLARE_CONVERT_TYPE(SRC, double16)
--#else
--#define _CL_DECLARE_CONVERT_TYPE_16(SRC)        \
--  _CL_DECLARE_CONVERT_TYPE(SRC, char16)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, uchar16)        \
--  _CL_DECLARE_CONVERT_TYPE(SRC, short16)        \
--  _CL_DECLARE_CONVERT_TYPE(SRC, ushort16)       \
--  _CL_DECLARE_CONVERT_TYPE(SRC, int16)          \
--  _CL_DECLARE_CONVERT_TYPE(SRC, uint16)         \
--  _CL_DECLARE_CONVERT_TYPE(SRC, float16)
--#endif
++#define _CL_DECLARE_CONVERT_TYPE_16(SRC)                \
++  _CL_DECLARE_CONVERT_TYPE(SRC, char16)                 \
++  _CL_DECLARE_CONVERT_TYPE(SRC, uchar16)                \
++  _CL_DECLARE_CONVERT_TYPE(SRC, short16)                \
++  _CL_DECLARE_CONVERT_TYPE(SRC, ushort16)               \
++  _CL_DECLARE_CONVERT_TYPE(SRC, int16)                  \
++  _CL_DECLARE_CONVERT_TYPE(SRC, uint16)                 \
++  __IF_INT64(_CL_DECLARE_CONVERT_TYPE(SRC, long16))     \
++  __IF_INT64(_CL_DECLARE_CONVERT_TYPE(SRC, ulong16))    \
++  _CL_DECLARE_CONVERT_TYPE(SRC, float16)                \
++  __IF_FP64(_CL_DECLARE_CONVERT_TYPE(SRC, double16))
  _CL_DECLARE_CONVERT_TYPE_16(char16)
  _CL_DECLARE_CONVERT_TYPE_16(uchar16)
  _CL_DECLARE_CONVERT_TYPE_16(short16)
  _CL_DECLARE_CONVERT_TYPE_16(ushort16)
  _CL_DECLARE_CONVERT_TYPE_16(int16)
  _CL_DECLARE_CONVERT_TYPE_16(uint16)
--#ifdef cl_khr_int64
--_CL_DECLARE_CONVERT_TYPE_16(long16)
--_CL_DECLARE_CONVERT_TYPE_16(ulong16)
--#endif
++__IF_INT64(_CL_DECLARE_CONVERT_TYPE_16(long16))
++__IF_INT64(_CL_DECLARE_CONVERT_TYPE_16(ulong16))
  _CL_DECLARE_CONVERT_TYPE_16(float16)
--#ifdef cl_khr_fp64
--_CL_DECLARE_CONVERT_TYPE_16(double16)
--#endif
++__IF_FP64(_CL_DECLARE_CONVERT_TYPE_16(double16))
  /* Work-Item Functions */
@@ -966,7 +631,6 @@
   *    V: vector of float or double
   */
--#ifdef cl_khr_fp64
  #define _CL_DECLARE_FUNC_V_V(NAME)              \
    float    _cl_overloadable NAME(float   );     \
    float2   _cl_overloadable NAME(float2  );     \
@@ -974,22 +638,13 @@
    float4   _cl_overloadable NAME(float4  );     \
    float8   _cl_overloadable NAME(float8  );     \
    float16  _cl_overloadable NAME(float16 );     \
++  __IF_FP64(                                    \
    double   _cl_overloadable NAME(double  );     \
    double2  _cl_overloadable NAME(double2 );     \
    double3  _cl_overloadable NAME(double3 );     \
    double4  _cl_overloadable NAME(double4 );     \
    double8  _cl_overloadable NAME(double8 );     \
--  double16 _cl_overloadable NAME(double16);
--#else
--#define _CL_DECLARE_FUNC_V_V(NAME)              \
--  float    _cl_overloadable NAME(float   );     \
--  float2   _cl_overloadable NAME(float2  );     \
--  float3   _cl_overloadable NAME(float3  );     \
--  float4   _cl_overloadable NAME(float4  );     \
--  float8   _cl_overloadable NAME(float8  );     \
--  float16  _cl_overloadable NAME(float16 );
--#endif
--#ifdef cl_khr_fp64
++  double16 _cl_overloadable NAME(double16);)
  #define _CL_DECLARE_FUNC_V_VV(NAME)                     \
    float    _cl_overloadable NAME(float   , float   );   \
    float2   _cl_overloadable NAME(float2  , float2  );   \
@@ -997,105 +652,63 @@
    float4   _cl_overloadable NAME(float4  , float4  );   \
    float8   _cl_overloadable NAME(float8  , float8  );   \
    float16  _cl_overloadable NAME(float16 , float16 );   \
++  __IF_FP64(                                            \
    double   _cl_overloadable NAME(double  , double  );   \
    double2  _cl_overloadable NAME(double2 , double2 );   \
    double3  _cl_overloadable NAME(double3 , double3 );   \
    double4  _cl_overloadable NAME(double4 , double4 );   \
    double8  _cl_overloadable NAME(double8 , double8 );   \
--  double16 _cl_overloadable NAME(double16, double16);
--#else
--#define _CL_DECLARE_FUNC_V_VV(NAME)                     \
--  float    _cl_overloadable NAME(float   , float   );   \
--  float2   _cl_overloadable NAME(float2  , float2  );   \
--  float3   _cl_overloadable NAME(float3  , float3  );   \
--  float4   _cl_overloadable NAME(float4  , float4  );   \
--  float8   _cl_overloadable NAME(float8  , float8  );   \
--  float16  _cl_overloadable NAME(float16 , float16 );
--#endif
--#ifdef cl_khr_fp64
--#define _CL_DECLARE_FUNC_V_VVV(NAME)                            \
--  float    _cl_overloadable NAME(float   , float   , float   ); \
--  float2   _cl_overloadable NAME(float2  , float2  , float2  ); \
--  float3   _cl_overloadable NAME(float3  , float3  , float3  ); \
--  float4   _cl_overloadable NAME(float4  , float4  , float4  ); \
--  float8   _cl_overloadable NAME(float8  , float8  , float8  ); \
--  float16  _cl_overloadable NAME(float16 , float16 , float16 ); \
--  double   _cl_overloadable NAME(double  , double  , double  ); \
--  double2  _cl_overloadable NAME(double2 , double2 , double2 ); \
--  double3  _cl_overloadable NAME(double3 , double3 , double3 ); \
--  double4  _cl_overloadable NAME(double4 , double4 , double4 ); \
--  double8  _cl_overloadable NAME(double8 , double8 , double8 ); \
--  double16 _cl_overloadable NAME(double16, double16, double16);
--#else
--#define _CL_DECLARE_FUNC_V_VVV(NAME)                            \
--  float    _cl_overloadable NAME(float   , float   , float   ); \
--  float2   _cl_overloadable NAME(float2  , float2  , float2  ); \
--  float3   _cl_overloadable NAME(float3  , float3  , float3  ); \
--  float4   _cl_overloadable NAME(float4  , float4  , float4  ); \
--  float8   _cl_overloadable NAME(float8  , float8  , float8  ); \
--  float16  _cl_overloadable NAME(float16 , float16 , float16 );
--#endif
--#ifdef cl_khr_fp64
++  double16 _cl_overloadable NAME(double16, double16);)
++#define _CL_DECLARE_FUNC_V_VVV(NAME)                                    \
++  float    _cl_overloadable NAME(float   , float   , float   );         \
++  float2   _cl_overloadable NAME(float2  , float2  , float2  );         \
++  float3   _cl_overloadable NAME(float3  , float3  , float3  );         \
++  float4   _cl_overloadable NAME(float4  , float4  , float4  );         \
++  float8   _cl_overloadable NAME(float8  , float8  , float8  );         \
++  float16  _cl_overloadable NAME(float16 , float16 , float16 );         \
++  __IF_FP64(                                                            \
++  double   _cl_overloadable NAME(double  , double  , double  );         \
++  double2  _cl_overloadable NAME(double2 , double2 , double2 );         \
++  double3  _cl_overloadable NAME(double3 , double3 , double3 );         \
++  double4  _cl_overloadable NAME(double4 , double4 , double4 );         \
++  double8  _cl_overloadable NAME(double8 , double8 , double8 );         \
++  double16 _cl_overloadable NAME(double16, double16, double16);)
  #define _CL_DECLARE_FUNC_V_VVS(NAME)                            \
    float2   _cl_overloadable NAME(float2  , float2  , float );   \
    float3   _cl_overloadable NAME(float3  , float3  , float );   \
    float4   _cl_overloadable NAME(float4  , float4  , float );   \
    float8   _cl_overloadable NAME(float8  , float8  , float );   \
    float16  _cl_overloadable NAME(float16 , float16 , float );   \
++  __IF_FP64(                                                    \
    double2  _cl_overloadable NAME(double2 , double2 , double);   \
    double3  _cl_overloadable NAME(double3 , double3 , double);   \
    double4  _cl_overloadable NAME(double4 , double4 , double);   \
    double8  _cl_overloadable NAME(double8 , double8 , double);   \
--  double16 _cl_overloadable NAME(double16, double16, double);
--#else
--#define _CL_DECLARE_FUNC_V_VVS(NAME)                            \
--  float2   _cl_overloadable NAME(float2  , float2  , float );   \
--  float3   _cl_overloadable NAME(float3  , float3  , float );   \
--  float4   _cl_overloadable NAME(float4  , float4  , float );   \
--  float8   _cl_overloadable NAME(float8  , float8  , float );   \
--  float16  _cl_overloadable NAME(float16 , float16 , float );
--#endif
--#ifdef cl_khr_fp64
++  double16 _cl_overloadable NAME(double16, double16, double);)
  #define _CL_DECLARE_FUNC_V_VSS(NAME)                            \
    float2   _cl_overloadable NAME(float2  , float , float );     \
    float3   _cl_overloadable NAME(float3  , float , float );     \
    float4   _cl_overloadable NAME(float4  , float , float );     \
    float8   _cl_overloadable NAME(float8  , float , float );     \
    float16  _cl_overloadable NAME(float16 , float , float );     \
++  __IF_FP64(                                                    \
    double2  _cl_overloadable NAME(double2 , double, double);     \
    double3  _cl_overloadable NAME(double3 , double, double);     \
    double4  _cl_overloadable NAME(double4 , double, double);     \
    double8  _cl_overloadable NAME(double8 , double, double);     \
--  double16 _cl_overloadable NAME(double16, double, double);
--#else
--#define _CL_DECLARE_FUNC_V_VSS(NAME)                            \
--  float2   _cl_overloadable NAME(float2  , float , float );     \
--  float3   _cl_overloadable NAME(float3  , float , float );     \
--  float4   _cl_overloadable NAME(float4  , float , float );     \
--  float8   _cl_overloadable NAME(float8  , float , float );     \
--  float16  _cl_overloadable NAME(float16 , float , float );
--#endif
--#ifdef cl_khr_fp64
++  double16 _cl_overloadable NAME(double16, double, double);)
  #define _CL_DECLARE_FUNC_V_SSV(NAME)                            \
    float2   _cl_overloadable NAME(float , float , float2  );     \
    float3   _cl_overloadable NAME(float , float , float3  );     \
    float4   _cl_overloadable NAME(float , float , float4  );     \
    float8   _cl_overloadable NAME(float , float , float8  );     \
    float16  _cl_overloadable NAME(float , float , float16 );     \
++  __IF_FP64(                                                    \
    double2  _cl_overloadable NAME(double, double, double2 );     \
    double3  _cl_overloadable NAME(double, double, double3 );     \
    double4  _cl_overloadable NAME(double, double, double4 );     \
    double8  _cl_overloadable NAME(double, double, double8 );     \
--  double16 _cl_overloadable NAME(double, double, double16);
--#else
--#define _CL_DECLARE_FUNC_V_SSV(NAME)                            \
--  float2   _cl_overloadable NAME(float , float , float2  );     \
--  float3   _cl_overloadable NAME(float , float , float3  );     \
--  float4   _cl_overloadable NAME(float , float , float4  );     \
--  float8   _cl_overloadable NAME(float , float , float8  );     \
--  float16  _cl_overloadable NAME(float , float , float16 );
--#endif
--#if defined(cl_khr_int64) && defined(cl_khr_fp64)
++  double16 _cl_overloadable NAME(double, double, double16);)
  #define _CL_DECLARE_FUNC_V_VVJ(NAME)                            \
    float    _cl_overloadable NAME(float   , float   , int   );   \
    float2   _cl_overloadable NAME(float2  , float2  , int2  );   \
@@ -1103,22 +716,13 @@
    float4   _cl_overloadable NAME(float4  , float4  , int4  );   \
    float8   _cl_overloadable NAME(float8  , float8  , int8  );   \
    float16  _cl_overloadable NAME(float16 , float16 , int16 );   \
++  __IF_INT64(__IF_FP64(                                         \
    double   _cl_overloadable NAME(double  , double  , long  );   \
    double2  _cl_overloadable NAME(double2 , double2 , long2 );   \
    double3  _cl_overloadable NAME(double3 , double3 , long3 );   \
    double4  _cl_overloadable NAME(double4 , double4 , long4 );   \
    double8  _cl_overloadable NAME(double8 , double8 , long8 );   \
--  double16 _cl_overloadable NAME(double16, double16, long16);
--#else
--#define _CL_DECLARE_FUNC_V_VVJ(NAME)                            \
--  float    _cl_overloadable NAME(float   , float   , int   );   \
--  float2   _cl_overloadable NAME(float2  , float2  , int2  );   \
--  float3   _cl_overloadable NAME(float3  , float3  , int3  );   \
--  float4   _cl_overloadable NAME(float4  , float4  , int4  );   \
--  float8   _cl_overloadable NAME(float8  , float8  , int8  );   \
--  float16  _cl_overloadable NAME(float16 , float16 , int16 );
--#endif
--#if defined(cl_khr_int64) && defined(cl_khr_fp64)
++  double16 _cl_overloadable NAME(double16, double16, long16);))
  #define _CL_DECLARE_FUNC_V_U(NAME)              \
    float    _cl_overloadable NAME(uint   );      \
    float2   _cl_overloadable NAME(uint2  );      \
@@ -1126,42 +730,25 @@
    float4   _cl_overloadable NAME(uint4  );      \
    float8   _cl_overloadable NAME(uint8  );      \
    float16  _cl_overloadable NAME(uint16 );      \
++  __IF_INT64(__IF_FP64(                         \
    double   _cl_overloadable NAME(ulong  );      \
    double2  _cl_overloadable NAME(ulong2 );      \
    double3  _cl_overloadable NAME(ulong3 );      \
    double4  _cl_overloadable NAME(ulong4 );      \
    double8  _cl_overloadable NAME(ulong8 );      \
--  double16 _cl_overloadable NAME(ulong16);
--#else
--#define _CL_DECLARE_FUNC_V_U(NAME)              \
--  float    _cl_overloadable NAME(uint   );      \
--  float2   _cl_overloadable NAME(uint2  );      \
--  float3   _cl_overloadable NAME(uint3  );      \
--  float4   _cl_overloadable NAME(uint4  );      \
--  float8   _cl_overloadable NAME(uint8  );      \
--  float16  _cl_overloadable NAME(uint16 );
--#endif
--#ifdef cl_khr_fp64
++  double16 _cl_overloadable NAME(ulong16);))
  #define _CL_DECLARE_FUNC_V_VS(NAME)                     \
    float2   _cl_overloadable NAME(float2  , float );     \
    float3   _cl_overloadable NAME(float3  , float );     \
    float4   _cl_overloadable NAME(float4  , float );     \
    float8   _cl_overloadable NAME(float8  , float );     \
    float16  _cl_overloadable NAME(float16 , float );     \
++  __IF_FP64(                                            \
    double2  _cl_overloadable NAME(double2 , double);     \
    double3  _cl_overloadable NAME(double3 , double);     \
    double4  _cl_overloadable NAME(double4 , double);     \
    double8  _cl_overloadable NAME(double8 , double);     \
--  double16 _cl_overloadable NAME(double16, double);
--#else
--#define _CL_DECLARE_FUNC_V_VS(NAME)                     \
--  float2   _cl_overloadable NAME(float2  , float );     \
--  float3   _cl_overloadable NAME(float3  , float );     \
--  float4   _cl_overloadable NAME(float4  , float );     \
--  float8   _cl_overloadable NAME(float8  , float );     \
--  float16  _cl_overloadable NAME(float16 , float );
--#endif
--#ifdef cl_khr_fp64
++  double16 _cl_overloadable NAME(double16, double);)
  #define _CL_DECLARE_FUNC_V_VJ(NAME)                     \
    float    _cl_overloadable NAME(float   , int  );      \
    float2   _cl_overloadable NAME(float2  , int2 );      \
@@ -1169,22 +756,13 @@
    float4   _cl_overloadable NAME(float4  , int4 );      \
    float8   _cl_overloadable NAME(float8  , int8 );      \
    float16  _cl_overloadable NAME(float16 , int16);      \
++  __IF_FP64(                                            \
    double   _cl_overloadable NAME(double  , int  );      \
    double2  _cl_overloadable NAME(double2 , int2 );      \
    double3  _cl_overloadable NAME(double3 , int3 );      \
    double4  _cl_overloadable NAME(double4 , int4 );      \
    double8  _cl_overloadable NAME(double8 , int8 );      \
--  double16 _cl_overloadable NAME(double16, int16);
--#else
--#define _CL_DECLARE_FUNC_V_VJ(NAME)                     \
--  float    _cl_overloadable NAME(float   , int  );      \
--  float2   _cl_overloadable NAME(float2  , int2 );      \
--  float3   _cl_overloadable NAME(float3  , int3 );      \
--  float4   _cl_overloadable NAME(float4  , int4 );      \
--  float8   _cl_overloadable NAME(float8  , int8 );      \
--  float16  _cl_overloadable NAME(float16 , int16);
--#endif
--#if defined(cl_khr_int64) && defined(cl_khr_fp64)
++  double16 _cl_overloadable NAME(double16, int16);)
  #define _CL_DECLARE_FUNC_J_VV(NAME)                     \
    int    _cl_overloadable NAME(float   , float   );     \
    int2   _cl_overloadable NAME(float2  , float2  );     \
@@ -1192,51 +770,26 @@
    int4   _cl_overloadable NAME(float4  , float4  );     \
    int8   _cl_overloadable NAME(float8  , float8  );     \
    int16  _cl_overloadable NAME(float16 , float16 );     \
++  __IF_FP64(                                            \
    int    _cl_overloadable NAME(double  , double  );     \
++  __IF_INT64(                                           \
    long2  _cl_overloadable NAME(double2 , double2 );     \
    long3  _cl_overloadable NAME(double3 , double3 );     \
    long4  _cl_overloadable NAME(double4 , double4 );     \
    long8  _cl_overloadable NAME(double8 , double8 );     \
--  long16 _cl_overloadable NAME(double16, double16);
--#elif defined(cl_khr_fp64)
--#define _CL_DECLARE_FUNC_J_VV(NAME)                     \
--  int    _cl_overloadable NAME(float   , float   );     \
--  int2   _cl_overloadable NAME(float2  , float2  );     \
--  int3   _cl_overloadable NAME(float3  , float3  );     \
--  int4   _cl_overloadable NAME(float4  , float4  );     \
--  int8   _cl_overloadable NAME(float8  , float8  );     \
--  int16  _cl_overloadable NAME(float16 , float16 );     \
--  int    _cl_overloadable NAME(double  , double  );
--#else
--#define _CL_DECLARE_FUNC_J_VV(NAME)                     \
--  int    _cl_overloadable NAME(float   , float   );     \
--  int2   _cl_overloadable NAME(float2  , float2  );     \
--  int3   _cl_overloadable NAME(float3  , float3  );     \
--  int4   _cl_overloadable NAME(float4  , float4  );     \
--  int8   _cl_overloadable NAME(float8  , float8  );     \
--  int16  _cl_overloadable NAME(float16 , float16 );
--#endif
--#ifdef cl_khr_fp64
++  long16 _cl_overloadable NAME(double16, double16);))
  #define _CL_DECLARE_FUNC_V_VI(NAME)                     \
    float2   _cl_overloadable NAME(float2  , int);        \
    float3   _cl_overloadable NAME(float3  , int);        \
    float4   _cl_overloadable NAME(float4  , int);        \
    float8   _cl_overloadable NAME(float8  , int);        \
    float16  _cl_overloadable NAME(float16 , int);        \
++  __IF_FP64(                                            \
    double2  _cl_overloadable NAME(double2 , int);        \
    double3  _cl_overloadable NAME(double3 , int);        \
    double4  _cl_overloadable NAME(double4 , int);        \
    double8  _cl_overloadable NAME(double8 , int);        \
--  double16 _cl_overloadable NAME(double16, int);
--#else
--#define _CL_DECLARE_FUNC_V_VI(NAME)                     \
--  float2   _cl_overloadable NAME(float2  , int);        \
--  float3   _cl_overloadable NAME(float3  , int);        \
--  float4   _cl_overloadable NAME(float4  , int);        \
--  float8   _cl_overloadable NAME(float8  , int);        \
--  float16  _cl_overloadable NAME(float16 , int);
--#endif
--#ifdef cl_khr_fp64
++  double16 _cl_overloadable NAME(double16, int);)
  #define _CL_DECLARE_FUNC_V_VPV(NAME)                                    \
    float    _cl_overloadable NAME(float   , __global  float   *);        \
    float2   _cl_overloadable NAME(float2  , __global  float2  *);        \
@@ -1244,24 +797,26 @@
    float4   _cl_overloadable NAME(float4  , __global  float4  *);        \
    float8   _cl_overloadable NAME(float8  , __global  float8  *);        \
    float16  _cl_overloadable NAME(float16 , __global  float16 *);        \
++  __IF_FP64(                                                            \
    double   _cl_overloadable NAME(double  , __global  double  *);        \
    double2  _cl_overloadable NAME(double2 , __global  double2 *);        \
    double3  _cl_overloadable NAME(double3 , __global  double3 *);        \
    double4  _cl_overloadable NAME(double4 , __global  double4 *);        \
    double8  _cl_overloadable NAME(double8 , __global  double8 *);        \
--  double16 _cl_overloadable NAME(double16, __global  double16*);        \
++  double16 _cl_overloadable NAME(double16, __global  double16*);)       \
    float    _cl_overloadable NAME(float   , __local   float   *);        \
    float2   _cl_overloadable NAME(float2  , __local   float2  *);        \
    float3   _cl_overloadable NAME(float3  , __local   float3  *);        \
    float4   _cl_overloadable NAME(float4  , __local   float4  *);        \
    float8   _cl_overloadable NAME(float8  , __local   float8  *);        \
    float16  _cl_overloadable NAME(float16 , __local   float16 *);        \
++  __IF_FP64(                                                            \
    double   _cl_overloadable NAME(double  , __local   double  *);        \
    double2  _cl_overloadable NAME(double2 , __local   double2 *);        \
    double3  _cl_overloadable NAME(double3 , __local   double3 *);        \
    double4  _cl_overloadable NAME(double4 , __local   double4 *);        \
    double8  _cl_overloadable NAME(double8 , __local   double8 *);        \
--  double16 _cl_overloadable NAME(double16, __local   double16*);        \
++  double16 _cl_overloadable NAME(double16, __local   double16*);)       \
    /* __private is not supported yet                                     \
    float    _cl_overloadable NAME(float   , __private float   *);        \
    float2   _cl_overloadable NAME(float2  , __private float2  *);        \
@@ -1269,57 +824,26 @@
    float4   _cl_overloadable NAME(float4  , __private float4  *);        \
    float8   _cl_overloadable NAME(float8  , __private float8  *);        \
    float16  _cl_overloadable NAME(float16 , __private float16 *);        \
++  __IF_FP64(                                                            \
    double   _cl_overloadable NAME(double  , __private double  *);        \
    double2  _cl_overloadable NAME(double2 , __private double2 *);        \
    double3  _cl_overloadable NAME(double3 , __private double3 *);        \
    double4  _cl_overloadable NAME(double4 , __private double4 *);        \
    double8  _cl_overloadable NAME(double8 , __private double8 *);        \
--  double16 _cl_overloadable NAME(double16, __private double16*);        \
--  */
--#else
--#define _CL_DECLARE_FUNC_V_VPV(NAME)                                    \
--  float    _cl_overloadable NAME(float   , __global  float   *);        \
--  float2   _cl_overloadable NAME(float2  , __global  float2  *);        \
--  float3   _cl_overloadable NAME(float3  , __global  float3  *);        \
--  float4   _cl_overloadable NAME(float4  , __global  float4  *);        \
--  float8   _cl_overloadable NAME(float8  , __global  float8  *);        \
--  float16  _cl_overloadable NAME(float16 , __global  float16 *);        \
--  float    _cl_overloadable NAME(float   , __local   float   *);        \
--  float2   _cl_overloadable NAME(float2  , __local   float2  *);        \
--  float3   _cl_overloadable NAME(float3  , __local   float3  *);        \
--  float4   _cl_overloadable NAME(float4  , __local   float4  *);        \
--  float8   _cl_overloadable NAME(float8  , __local   float8  *);        \
--  float16  _cl_overloadable NAME(float16 , __local   float16 *);        \
--  /* __private is not supported yet                                     \
--  float    _cl_overloadable NAME(float   , __private float   *);        \
--  float2   _cl_overloadable NAME(float2  , __private float2  *);        \
--  float3   _cl_overloadable NAME(float3  , __private float3  *);        \
--  float4   _cl_overloadable NAME(float4  , __private float4  *);        \
--  float8   _cl_overloadable NAME(float8  , __private float8  *);        \
--  float16  _cl_overloadable NAME(float16 , __private float16 *);        \
--  */
--#endif
--#ifdef cl_khr_fp64
++  double16 _cl_overloadable NAME(double16, __private double16*);)       \
++  */
  #define _CL_DECLARE_FUNC_V_SV(NAME)                     \
    float2   _cl_overloadable NAME(float , float2  );     \
    float3   _cl_overloadable NAME(float , float3  );     \
    float4   _cl_overloadable NAME(float , float4  );     \
    float8   _cl_overloadable NAME(float , float8  );     \
    float16  _cl_overloadable NAME(float , float16 );     \
++  __IF_FP64(                                            \
    double2  _cl_overloadable NAME(double, double2 );     \
    double3  _cl_overloadable NAME(double, double3 );     \
    double4  _cl_overloadable NAME(double, double4 );     \
    double8  _cl_overloadable NAME(double, double8 );     \
--  double16 _cl_overloadable NAME(double, double16);
--#else
--#define _CL_DECLARE_FUNC_V_SV(NAME)                     \
--  float2   _cl_overloadable NAME(float , float2  );     \
--  float3   _cl_overloadable NAME(float , float3  );     \
--  float4   _cl_overloadable NAME(float , float4  );     \
--  float8   _cl_overloadable NAME(float , float8  );     \
--  float16  _cl_overloadable NAME(float , float16 );
--#endif
--#ifdef cl_khr_fp64
++  double16 _cl_overloadable NAME(double, double16);)
  #define _CL_DECLARE_FUNC_J_V(NAME)              \
    int   _cl_overloadable NAME(float   );        \
    int2  _cl_overloadable NAME(float2  );        \
@@ -1327,22 +851,13 @@
    int4  _cl_overloadable NAME(float4  );        \
    int8  _cl_overloadable NAME(float8  );        \
    int16 _cl_overloadable NAME(float16 );        \
++  __IF_FP64(                                    \
    int   _cl_overloadable NAME(double  );        \
    int2  _cl_overloadable NAME(double2 );        \
    int3  _cl_overloadable NAME(double3 );        \
    int4  _cl_overloadable NAME(double4 );        \
    int8  _cl_overloadable NAME(double8 );        \
--  int16 _cl_overloadable NAME(double16);
--#else
--#define _CL_DECLARE_FUNC_J_V(NAME)              \
--  int   _cl_overloadable NAME(float   );        \
--  int2  _cl_overloadable NAME(float2  );        \
--  int3  _cl_overloadable NAME(float3  );        \
--  int4  _cl_overloadable NAME(float4  );        \
--  int8  _cl_overloadable NAME(float8  );        \
--  int16 _cl_overloadable NAME(float16 );
--#endif
--#ifdef cl_khr_fp64
++  int16 _cl_overloadable NAME(double16);)
  #define _CL_DECLARE_FUNC_K_V(NAME)              \
    int    _cl_overloadable NAME(float   );       \
    int2   _cl_overloadable NAME(float2  );       \
@@ -1350,22 +865,13 @@
    int4   _cl_overloadable NAME(float4  );       \
    int8   _cl_overloadable NAME(float8  );       \
    int16  _cl_overloadable NAME(float16 );       \
++  __IF_FP64(                                    \
    int    _cl_overloadable NAME(double  );       \
    long2  _cl_overloadable NAME(double2 );       \
    long3  _cl_overloadable NAME(double3 );       \
    long4  _cl_overloadable NAME(double4 );       \
    long8  _cl_overloadable NAME(double8 );       \
--  long16 _cl_overloadable NAME(double16);
--#else
--#define _CL_DECLARE_FUNC_K_V(NAME)              \
--  int   _cl_overloadable NAME(float   );        \
--  int2  _cl_overloadable NAME(float2  );        \
--  int3  _cl_overloadable NAME(float3  );        \
--  int4  _cl_overloadable NAME(float4  );        \
--  int8  _cl_overloadable NAME(float8  );        \
--  int16 _cl_overloadable NAME(float16 );
--#endif
--#ifdef cl_khr_fp64
++  long16 _cl_overloadable NAME(double16);)
  #define _CL_DECLARE_FUNC_S_V(NAME)              \
    float  _cl_overloadable NAME(float   );       \
    float  _cl_overloadable NAME(float2  );       \
@@ -1373,22 +879,13 @@
    float  _cl_overloadable NAME(float4  );       \
    float  _cl_overloadable NAME(float8  );       \
    float  _cl_overloadable NAME(float16 );       \
++  __IF_FP64(                                    \
    double _cl_overloadable NAME(double  );       \
    double _cl_overloadable NAME(double2 );       \
    double _cl_overloadable NAME(double3 );       \
    double _cl_overloadable NAME(double4 );       \
    double _cl_overloadable NAME(double8 );       \
--  double _cl_overloadable NAME(double16);
--#else
--#define _CL_DECLARE_FUNC_S_V(NAME)              \
--  float  _cl_overloadable NAME(float   );       \
--  float  _cl_overloadable NAME(float2  );       \
--  float  _cl_overloadable NAME(float3  );       \
--  float  _cl_overloadable NAME(float4  );       \
--  float  _cl_overloadable NAME(float8  );       \
--  float  _cl_overloadable NAME(float16 );
--#endif
--#ifdef cl_khr_fp64
++  double _cl_overloadable NAME(double16);)
  #define _CL_DECLARE_FUNC_S_VV(NAME)                     \
    float  _cl_overloadable NAME(float   , float   );     \
    float  _cl_overloadable NAME(float2  , float2  );     \
@@ -1396,21 +893,13 @@
    float  _cl_overloadable NAME(float4  , float4  );     \
    float  _cl_overloadable NAME(float8  , float8  );     \
    float  _cl_overloadable NAME(float16 , float16 );     \
++  __IF_FP64(                                            \
    double _cl_overloadable NAME(double  , double  );     \
    double _cl_overloadable NAME(double2 , double2 );     \
    double _cl_overloadable NAME(double3 , double3 );     \
    double _cl_overloadable NAME(double4 , double4 );     \
    double _cl_overloadable NAME(double8 , double8 );     \
--  double _cl_overloadable NAME(double16, double16);
--#else
--#define _CL_DECLARE_FUNC_S_VV(NAME)                     \
--  float  _cl_overloadable NAME(float   , float   );     \
--  float  _cl_overloadable NAME(float2  , float2  );     \
--  float  _cl_overloadable NAME(float3  , float3  );     \
--  float  _cl_overloadable NAME(float4  , float4  );     \
--  float  _cl_overloadable NAME(float8  , float8  );     \
--  float  _cl_overloadable NAME(float16 , float16 );
--#endif
++  double _cl_overloadable NAME(double16, double16);)
  /* Move built-in declarations out of the way. (There should be a
     better way of doing so.) These five functions are built-in math
@@ -1519,8 +1008,10 @@
  #define CHAR_MIN  SCHAR_MIN
  #define INT_MAX   2147483647
  #define INT_MIN   (-2147483647 - 1)
++#ifdef cl_khr_int64
  #define LONG_MAX  0x7fffffffffffffffL
  #define LONG_MIN  (-0x7fffffffffffffffL - 1)
++#endif
  #define SCHAR_MAX 127
  #define SCHAR_MIN (-127 - 1)
  #define SHRT_MAX  32767
@@ -1528,11 +1019,12 @@
  #define UCHAR_MAX 255
  #define USHRT_MAX 65535
  #define UINT_MAX  0xffffffff
++#ifdef cl_khr_int64
  #define ULONG_MAX 0xffffffffffffffffUL
++#endif
  /* Integer Functions */
--#ifdef cl_khr_int64
  #define _CL_DECLARE_FUNC_G_G(NAME)              \
    char     _cl_overloadable NAME(char    );     \
    char2    _cl_overloadable NAME(char2   );     \
@@ -1570,6 +1062,7 @@
    uint4    _cl_overloadable NAME(uint4   );     \
    uint8    _cl_overloadable NAME(uint8   );     \
    uint16   _cl_overloadable NAME(uint16  );     \
++  __IF_INT64(                                   \
    long     _cl_overloadable NAME(long    );     \
    long2    _cl_overloadable NAME(long2   );     \
    long3    _cl_overloadable NAME(long3   );     \
@@ -1581,47 +1074,7 @@
    ulong3   _cl_overloadable NAME(ulong3  );     \
    ulong4   _cl_overloadable NAME(ulong4  );     \
    ulong8   _cl_overloadable NAME(ulong8  );     \
--  ulong16  _cl_overloadable NAME(ulong16 );
--#else
--#define _CL_DECLARE_FUNC_G_G(NAME)              \
--  char     _cl_overloadable NAME(char    );     \
--  char2    _cl_overloadable NAME(char2   );     \
--  char3    _cl_overloadable NAME(char3   );     \
--  char4    _cl_overloadable NAME(char4   );     \
--  char8    _cl_overloadable NAME(char8   );     \
--  char16   _cl_overloadable NAME(char16  );     \
--  uchar    _cl_overloadable NAME(uchar   );     \
--  uchar2   _cl_overloadable NAME(uchar2  );     \
--  uchar3   _cl_overloadable NAME(uchar3  );     \
--  uchar4   _cl_overloadable NAME(uchar4  );     \
--  uchar8   _cl_overloadable NAME(uchar8  );     \
--  uchar16  _cl_overloadable NAME(uchar16 );     \
--  short    _cl_overloadable NAME(short   );     \
--  short2   _cl_overloadable NAME(short2  );     \
--  short3   _cl_overloadable NAME(short3  );     \
--  short4   _cl_overloadable NAME(short4  );     \
--  short8   _cl_overloadable NAME(short8  );     \
--  short16  _cl_overloadable NAME(short16 );     \
--  ushort   _cl_overloadable NAME(ushort  );     \
--  ushort2  _cl_overloadable NAME(ushort2 );     \
--  ushort3  _cl_overloadable NAME(ushort3 );     \
--  ushort4  _cl_overloadable NAME(ushort4 );     \
--  ushort8  _cl_overloadable NAME(ushort8 );     \
--  ushort16 _cl_overloadable NAME(ushort16);     \
--  int      _cl_overloadable NAME(int     );     \
--  int2     _cl_overloadable NAME(int2    );     \
--  int3     _cl_overloadable NAME(int3    );     \
--  int4     _cl_overloadable NAME(int4    );     \
--  int8     _cl_overloadable NAME(int8    );     \
--  int16    _cl_overloadable NAME(int16   );     \
--  uint     _cl_overloadable NAME(uint    );     \
--  uint2    _cl_overloadable NAME(uint2   );     \
--  uint3    _cl_overloadable NAME(uint3   );     \
--  uint4    _cl_overloadable NAME(uint4   );     \
--  uint8    _cl_overloadable NAME(uint8   );     \
--  uint16   _cl_overloadable NAME(uint16  );
--#endif
--#ifdef cl_khr_int64
++  ulong16  _cl_overloadable NAME(ulong16 );)
  #define _CL_DECLARE_FUNC_G_GG(NAME)                     \
    char     _cl_overloadable NAME(char    , char    );   \
    char2    _cl_overloadable NAME(char2   , char2   );   \
@@ -1659,6 +1112,7 @@
    uint4    _cl_overloadable NAME(uint4   , uint4   );   \
    uint8    _cl_overloadable NAME(uint8   , uint8   );   \
    uint16   _cl_overloadable NAME(uint16  , uint16  );   \
++  __IF_INT64(                                           \
    long     _cl_overloadable NAME(long    , long    );   \
    long2    _cl_overloadable NAME(long2   , long2   );   \
    long3    _cl_overloadable NAME(long3   , long3   );   \
@@ -1670,47 +1124,7 @@
    ulong3   _cl_overloadable NAME(ulong3  , ulong3  );   \
    ulong4   _cl_overloadable NAME(ulong4  , ulong4  );   \
    ulong8   _cl_overloadable NAME(ulong8  , ulong8  );   \
--  ulong16  _cl_overloadable NAME(ulong16 , ulong16 );
--#else
--#define _CL_DECLARE_FUNC_G_GG(NAME)                     \
--  char     _cl_overloadable NAME(char    , char    );   \
--  char2    _cl_overloadable NAME(char2   , char2   );   \
--  char3    _cl_overloadable NAME(char3   , char3   );   \
--  char4    _cl_overloadable NAME(char4   , char4   );   \
--  char8    _cl_overloadable NAME(char8   , char8   );   \
--  char16   _cl_overloadable NAME(char16  , char16  );   \
--  uchar    _cl_overloadable NAME(uchar   , uchar   );   \
--  uchar2   _cl_overloadable NAME(uchar2  , uchar2  );   \
--  uchar3   _cl_overloadable NAME(uchar3  , uchar3  );   \
--  uchar4   _cl_overloadable NAME(uchar4  , uchar4  );   \
--  uchar8   _cl_overloadable NAME(uchar8  , uchar8  );   \
--  uchar16  _cl_overloadable NAME(uchar16 , uchar16 );   \
--  short    _cl_overloadable NAME(short   , short   );   \
--  short2   _cl_overloadable NAME(short2  , short2  );   \
--  short3   _cl_overloadable NAME(short3  , short3  );   \
--  short4   _cl_overloadable NAME(short4  , short4  );   \
--  short8   _cl_overloadable NAME(short8  , short8  );   \
--  short16  _cl_overloadable NAME(short16 , short16 );   \
--  ushort   _cl_overloadable NAME(ushort  , ushort  );   \
--  ushort2  _cl_overloadable NAME(ushort2 , ushort2 );   \
--  ushort3  _cl_overloadable NAME(ushort3 , ushort3 );   \
--  ushort4  _cl_overloadable NAME(ushort4 , ushort4 );   \
--  ushort8  _cl_overloadable NAME(ushort8 , ushort8 );   \
--  ushort16 _cl_overloadable NAME(ushort16, ushort16);   \
--  int      _cl_overloadable NAME(int     , int     );   \
--  int2     _cl_overloadable NAME(int2    , int2    );   \
--  int3     _cl_overloadable NAME(int3    , int3    );   \
--  int4     _cl_overloadable NAME(int4    , int4    );   \
--  int8     _cl_overloadable NAME(int8    , int8    );   \
--  int16    _cl_overloadable NAME(int16   , int16   );   \
--  uint     _cl_overloadable NAME(uint    , uint    );   \
--  uint2    _cl_overloadable NAME(uint2   , uint2   );   \
--  uint3    _cl_overloadable NAME(uint3   , uint3   );   \
--  uint4    _cl_overloadable NAME(uint4   , uint4   );   \
--  uint8    _cl_overloadable NAME(uint8   , uint8   );   \
--  uint16   _cl_overloadable NAME(uint16  , uint16  );
--#endif
--#ifdef cl_khr_int64
++  ulong16  _cl_overloadable NAME(ulong16 , ulong16 );)
  #define _CL_DECLARE_FUNC_G_GGG(NAME)                            \
    char     _cl_overloadable NAME(char    , char    , char    ); \
    char2    _cl_overloadable NAME(char2   , char2   , char2   ); \
@@ -1748,6 +1162,7 @@
    uint4    _cl_overloadable NAME(uint4   , uint4   , uint4   ); \
    uint8    _cl_overloadable NAME(uint8   , uint8   , uint8   ); \
    uint16   _cl_overloadable NAME(uint16  , uint16  , uint16  ); \
++  __IF_INT64(                                                   \
    long     _cl_overloadable NAME(long    , long    , long    ); \
    long2    _cl_overloadable NAME(long2   , long2   , long2   ); \
    long3    _cl_overloadable NAME(long3   , long3   , long3   ); \
@@ -1759,47 +1174,7 @@
    ulong3   _cl_overloadable NAME(ulong3  , ulong3  , ulong3  ); \
    ulong4   _cl_overloadable NAME(ulong4  , ulong4  , ulong4  ); \
    ulong8   _cl_overloadable NAME(ulong8  , ulong8  , ulong8  ); \
--  ulong16  _cl_overloadable NAME(ulong16 , ulong16 , ulong16 );
--#else
--#define _CL_DECLARE_FUNC_G_GGG(NAME)                            \
--  char     _cl_overloadable NAME(char    , char    , char    ); \
--  char2    _cl_overloadable NAME(char2   , char2   , char2   ); \
--  char3    _cl_overloadable NAME(char3   , char3   , char3   ); \
--  char4    _cl_overloadable NAME(char4   , char4   , char4   ); \
--  char8    _cl_overloadable NAME(char8   , char8   , char8   ); \
--  char16   _cl_overloadable NAME(char16  , char16  , char16  ); \
--  uchar    _cl_overloadable NAME(uchar   , uchar   , uchar   ); \
--  uchar2   _cl_overloadable NAME(uchar2  , uchar2  , uchar2  ); \
--  uchar3   _cl_overloadable NAME(uchar3  , uchar3  , uchar3  ); \
--  uchar4   _cl_overloadable NAME(uchar4  , uchar4  , uchar4  ); \
--  uchar8   _cl_overloadable NAME(uchar8  , uchar8  , uchar8  ); \
--  uchar16  _cl_overloadable NAME(uchar16 , uchar16 , uchar16 ); \
--  short    _cl_overloadable NAME(short   , short   , short   ); \
--  short2   _cl_overloadable NAME(short2  , short2  , short2  ); \
--  short3   _cl_overloadable NAME(short3  , short3  , short3  ); \
--  short4   _cl_overloadable NAME(short4  , short4  , short4  ); \
--  short8   _cl_overloadable NAME(short8  , short8  , short8  ); \
--  short16  _cl_overloadable NAME(short16 , short16 , short16 ); \
--  ushort   _cl_overloadable NAME(ushort  , ushort  , ushort  ); \
--  ushort2  _cl_overloadable NAME(ushort2 , ushort2 , ushort2 ); \
--  ushort3  _cl_overloadable NAME(ushort3 , ushort3 , ushort3 ); \
--  ushort4  _cl_overloadable NAME(ushort4 , ushort4 , ushort4 ); \
--  ushort8  _cl_overloadable NAME(ushort8 , ushort8 , ushort8 ); \
--  ushort16 _cl_overloadable NAME(ushort16, ushort16, ushort16); \
--  int      _cl_overloadable NAME(int     , int     , int     ); \
--  int2     _cl_overloadable NAME(int2    , int2    , int2    ); \
--  int3     _cl_overloadable NAME(int3    , int3    , int3    ); \
--  int4     _cl_overloadable NAME(int4    , int4    , int4    ); \
--  int8     _cl_overloadable NAME(int8    , int8    , int8    ); \
--  int16    _cl_overloadable NAME(int16   , int16   , int16   ); \
--  uint     _cl_overloadable NAME(uint    , uint    , uint    ); \
--  uint2    _cl_overloadable NAME(uint2   , uint2   , uint2   ); \
--  uint3    _cl_overloadable NAME(uint3   , uint3   , uint3   ); \
--  uint4    _cl_overloadable NAME(uint4   , uint4   , uint4   ); \
--  uint8    _cl_overloadable NAME(uint8   , uint8   , uint8   ); \
--  uint16   _cl_overloadable NAME(uint16  , uint16  , uint16  );
--#endif
--#ifdef cl_khr_int64
++  ulong16  _cl_overloadable NAME(ulong16 , ulong16 , ulong16 );)
  #define _CL_DECLARE_FUNC_G_GS(NAME)                     \
    char2    _cl_overloadable NAME(char2   , char  );     \
    char3    _cl_overloadable NAME(char3   , char  );     \
@@ -1831,6 +1206,7 @@
    uint4    _cl_overloadable NAME(uint4   , uint  );     \
    uint8    _cl_overloadable NAME(uint8   , uint  );     \
    uint16   _cl_overloadable NAME(uint16  , uint  );     \
++  __IF_INT64(                                           \
    long2    _cl_overloadable NAME(long2   , long  );     \
    long3    _cl_overloadable NAME(long3   , long  );     \
    long4    _cl_overloadable NAME(long4   , long  );     \
@@ -1840,41 +1216,7 @@
    ulong3   _cl_overloadable NAME(ulong3  , ulong );     \
    ulong4   _cl_overloadable NAME(ulong4  , ulong );     \
    ulong8   _cl_overloadable NAME(ulong8  , ulong );     \
--  ulong16  _cl_overloadable NAME(ulong16 , ulong );
--#else
--#define _CL_DECLARE_FUNC_G_GS(NAME)                     \
--  char2    _cl_overloadable NAME(char2   , char  );     \
--  char3    _cl_overloadable NAME(char3   , char  );     \
--  char4    _cl_overloadable NAME(char4   , char  );     \
--  char8    _cl_overloadable NAME(char8   , char  );     \
--  char16   _cl_overloadable NAME(char16  , char  );     \
--  uchar2   _cl_overloadable NAME(uchar2  , uchar );     \
--  uchar3   _cl_overloadable NAME(uchar3  , uchar );     \
--  uchar4   _cl_overloadable NAME(uchar4  , uchar );     \
--  uchar8   _cl_overloadable NAME(uchar8  , uchar );     \
--  uchar16  _cl_overloadable NAME(uchar16 , uchar );     \
--  short2   _cl_overloadable NAME(short2  , short );     \
--  short3   _cl_overloadable NAME(short3  , short );     \
--  short4   _cl_overloadable NAME(short4  , short );     \
--  short8   _cl_overloadable NAME(short8  , short );     \
--  short16  _cl_overloadable NAME(short16 , short );     \
--  ushort2  _cl_overloadable NAME(ushort2 , ushort);     \
--  ushort3  _cl_overloadable NAME(ushort3 , ushort);     \
--  ushort4  _cl_overloadable NAME(ushort4 , ushort);     \
--  ushort8  _cl_overloadable NAME(ushort8 , ushort);     \
--  ushort16 _cl_overloadable NAME(ushort16, ushort);     \
--  int2     _cl_overloadable NAME(int2    , int   );     \
--  int3     _cl_overloadable NAME(int3    , int   );     \
--  int4     _cl_overloadable NAME(int4    , int   );     \
--  int8     _cl_overloadable NAME(int8    , int   );     \
--  int16    _cl_overloadable NAME(int16   , int   );     \
--  uint2    _cl_overloadable NAME(uint2   , uint  );     \
--  uint3    _cl_overloadable NAME(uint3   , uint  );     \
--  uint4    _cl_overloadable NAME(uint4   , uint  );     \
--  uint8    _cl_overloadable NAME(uint8   , uint  );     \
--  uint16   _cl_overloadable NAME(uint16  , uint  );
--#endif
--#ifdef cl_khr_int64
++  ulong16  _cl_overloadable NAME(ulong16 , ulong );)
  #define _CL_DECLARE_FUNC_UG_G(NAME)             \
    uchar    _cl_overloadable NAME(char    );     \
    uchar2   _cl_overloadable NAME(char2   );     \
@@ -1894,12 +1236,13 @@
    uint4    _cl_overloadable NAME(int4    );     \
    uint8    _cl_overloadable NAME(int8    );     \
    uint16   _cl_overloadable NAME(int16   );     \
++  __IF_INT64(                                   \
    ulong    _cl_overloadable NAME(long    );     \
    ulong2   _cl_overloadable NAME(long2   );     \
    ulong3   _cl_overloadable NAME(long3   );     \
    ulong4   _cl_overloadable NAME(long4   );     \
    ulong8   _cl_overloadable NAME(long8   );     \
--  ulong16  _cl_overloadable NAME(long16  );     \
++  ulong16  _cl_overloadable NAME(long16  );)    \
    uchar    _cl_overloadable NAME(uchar   );     \
    uchar2   _cl_overloadable NAME(uchar2  );     \
    uchar3   _cl_overloadable NAME(uchar3  );     \
@@ -1918,52 +1261,13 @@
    uint4    _cl_overloadable NAME(uint4   );     \
    uint8    _cl_overloadable NAME(uint8   );     \
    uint16   _cl_overloadable NAME(uint16  );     \
++  __IF_INT64(                                   \
    ulong    _cl_overloadable NAME(ulong   );     \
    ulong2   _cl_overloadable NAME(ulong2  );     \
    ulong3   _cl_overloadable NAME(ulong3  );     \
    ulong4   _cl_overloadable NAME(ulong4  );     \
    ulong8   _cl_overloadable NAME(ulong8  );     \
--  ulong16  _cl_overloadable NAME(ulong16 );
--#else
--#define _CL_DECLARE_FUNC_UG_G(NAME)             \
--  uchar    _cl_overloadable NAME(char    );     \
--  uchar2   _cl_overloadable NAME(char2   );     \
--  uchar3   _cl_overloadable NAME(char3   );     \
--  uchar4   _cl_overloadable NAME(char4   );     \
--  uchar8   _cl_overloadable NAME(char8   );     \
--  uchar16  _cl_overloadable NAME(char16  );     \
--  ushort   _cl_overloadable NAME(short   );     \
--  ushort2  _cl_overloadable NAME(short2  );     \
--  ushort3  _cl_overloadable NAME(short3  );     \
--  ushort4  _cl_overloadable NAME(short4  );     \
--  ushort8  _cl_overloadable NAME(short8  );     \
--  ushort16 _cl_overloadable NAME(short16 );     \
--  uint     _cl_overloadable NAME(int     );     \
--  uint2    _cl_overloadable NAME(int2    );     \
--  uint3    _cl_overloadable NAME(int3    );     \
--  uint4    _cl_overloadable NAME(int4    );     \
--  uint8    _cl_overloadable NAME(int8    );     \
--  uint16   _cl_overloadable NAME(int16   );     \
--  uchar    _cl_overloadable NAME(uchar   );     \
--  uchar2   _cl_overloadable NAME(uchar2  );     \
--  uchar3   _cl_overloadable NAME(uchar3  );     \
--  uchar4   _cl_overloadable NAME(uchar4  );     \
--  uchar8   _cl_overloadable NAME(uchar8  );     \
--  uchar16  _cl_overloadable NAME(uchar16 );     \
--  ushort   _cl_overloadable NAME(ushort  );     \
--  ushort2  _cl_overloadable NAME(ushort2 );     \
--  ushort3  _cl_overloadable NAME(ushort3 );     \
--  ushort4  _cl_overloadable NAME(ushort4 );     \
--  ushort8  _cl_overloadable NAME(ushort8 );     \
--  ushort16 _cl_overloadable NAME(ushort16);     \
--  uint     _cl_overloadable NAME(uint    );     \
--  uint2    _cl_overloadable NAME(uint2   );     \
--  uint3    _cl_overloadable NAME(uint3   );     \
--  uint4    _cl_overloadable NAME(uint4   );     \
--  uint8    _cl_overloadable NAME(uint8   );     \
--  uint16   _cl_overloadable NAME(uint16  );
--#endif
--#ifdef cl_khr_int64
++  ulong16  _cl_overloadable NAME(ulong16 );)
  #define _CL_DECLARE_FUNC_UG_GG(NAME)                    \
    uchar    _cl_overloadable NAME(char    , char    );   \
    uchar2   _cl_overloadable NAME(char2   , char2   );   \
@@ -1983,12 +1287,13 @@
    uint4    _cl_overloadable NAME(int4    , int4    );   \
    uint8    _cl_overloadable NAME(int8    , int8    );   \
    uint16   _cl_overloadable NAME(int16   , int16   );   \
++  __IF_INT64(                                           \
    ulong    _cl_overloadable NAME(long    , long    );   \
    ulong2   _cl_overloadable NAME(long2   , long2   );   \
    ulong3   _cl_overloadable NAME(long3   , long3   );   \
    ulong4   _cl_overloadable NAME(long4   , long4   );   \
    ulong8   _cl_overloadable NAME(long8   , long8   );   \
--  ulong16  _cl_overloadable NAME(long16  , long16  );   \
++  ulong16  _cl_overloadable NAME(long16  , long16  );)  \
    uchar    _cl_overloadable NAME(uchar   , uchar   );   \
    uchar2   _cl_overloadable NAME(uchar2  , uchar2  );   \
    uchar3   _cl_overloadable NAME(uchar3  , uchar3  );   \
@@ -2007,59 +1312,20 @@
    uint4    _cl_overloadable NAME(uint4   , uint4   );   \
    uint8    _cl_overloadable NAME(uint8   , uint8   );   \
    uint16   _cl_overloadable NAME(uint16  , uint16  );   \
++  __IF_INT64(                                           \
    ulong    _cl_overloadable NAME(ulong   , ulong   );   \
    ulong2   _cl_overloadable NAME(ulong2  , ulong2  );   \
    ulong3   _cl_overloadable NAME(ulong3  , ulong3  );   \
    ulong4   _cl_overloadable NAME(ulong4  , ulong4  );   \
    ulong8   _cl_overloadable NAME(ulong8  , ulong8  );   \
--  ulong16  _cl_overloadable NAME(ulong16 , ulong16 );
--#else
--#define _CL_DECLARE_FUNC_UG_GG(NAME)                    \
--  uchar    _cl_overloadable NAME(char    , char    );   \
--  uchar2   _cl_overloadable NAME(char2   , char2   );   \
--  uchar3   _cl_overloadable NAME(char3   , char3   );   \
--  uchar4   _cl_overloadable NAME(char4   , char4   );   \
--  uchar8   _cl_overloadable NAME(char8   , char8   );   \
--  uchar16  _cl_overloadable NAME(char16  , char16  );   \
--  ushort   _cl_overloadable NAME(short   , short   );   \
--  ushort2  _cl_overloadable NAME(short2  , short2  );   \
--  ushort3  _cl_overloadable NAME(short3  , short3  );   \
--  ushort4  _cl_overloadable NAME(short4  , short4  );   \
--  ushort8  _cl_overloadable NAME(short8  , short8  );   \
--  ushort16 _cl_overloadable NAME(short16 , short16 );   \
--  uint     _cl_overloadable NAME(int     , int     );   \
--  uint2    _cl_overloadable NAME(int2    , int2    );   \
--  uint3    _cl_overloadable NAME(int3    , int3    );   \
--  uint4    _cl_overloadable NAME(int4    , int4    );   \
--  uint8    _cl_overloadable NAME(int8    , int8    );   \
--  uint16   _cl_overloadable NAME(int16   , int16   );   \
--  uchar    _cl_overloadable NAME(uchar   , uchar   );   \
--  uchar2   _cl_overloadable NAME(uchar2  , uchar2  );   \
--  uchar3   _cl_overloadable NAME(uchar3  , uchar3  );   \
--  uchar4   _cl_overloadable NAME(uchar4  , uchar4  );   \
--  uchar8   _cl_overloadable NAME(uchar8  , uchar8  );   \
--  uchar16  _cl_overloadable NAME(uchar16 , uchar16 );   \
--  ushort   _cl_overloadable NAME(ushort  , ushort  );   \
--  ushort2  _cl_overloadable NAME(ushort2 , ushort2 );   \
--  ushort3  _cl_overloadable NAME(ushort3 , ushort3 );   \
--  ushort4  _cl_overloadable NAME(ushort4 , ushort4 );   \
--  ushort8  _cl_overloadable NAME(ushort8 , ushort8 );   \
--  ushort16 _cl_overloadable NAME(ushort16, ushort16);   \
--  uint     _cl_overloadable NAME(uint    , uint    );   \
--  uint2    _cl_overloadable NAME(uint2   , uint2   );   \
--  uint3    _cl_overloadable NAME(uint3   , uint3   );   \
--  uint4    _cl_overloadable NAME(uint4   , uint4   );   \
--  uint8    _cl_overloadable NAME(uint8   , uint8   );   \
--  uint16   _cl_overloadable NAME(uint16  , uint16  );
--#endif
--#ifdef cl_khr_int64
++  ulong16  _cl_overloadable NAME(ulong16 , ulong16 );)
  #define _CL_DECLARE_FUNC_LG_GUG(NAME)                   \
--  short    _cl_overloadable NAME(char    , uchar    );  \
--  short2   _cl_overloadable NAME(char2   , uchar2   );  \
--  short3   _cl_overloadable NAME(char3   , uchar3   );  \
--  short4   _cl_overloadable NAME(char4   , uchar4   );  \
--  short8   _cl_overloadable NAME(char8   , uchar8   );  \
--  short16  _cl_overloadable NAME(char16  , uchar16  );  \
++  short    _cl_overloadable NAME(char    , uchar   );   \
++  short2   _cl_overloadable NAME(char2   , uchar2  );   \
++  short3   _cl_overloadable NAME(char3   , uchar3  );   \
++  short4   _cl_overloadable NAME(char4   , uchar4  );   \
++  short8   _cl_overloadable NAME(char8   , uchar8  );   \
++  short16  _cl_overloadable NAME(char16  , uchar16 );   \
    ushort   _cl_overloadable NAME(uchar   , uchar   );   \
    ushort2  _cl_overloadable NAME(uchar2  , uchar2  );   \
    ushort3  _cl_overloadable NAME(uchar3  , uchar3  );   \
@@ -2072,52 +1338,25 @@
    uint4    _cl_overloadable NAME(ushort4 , ushort4 );   \
    uint8    _cl_overloadable NAME(ushort8 , ushort8 );   \
    uint16   _cl_overloadable NAME(ushort16, ushort16);   \
--  int      _cl_overloadable NAME(short   , ushort   );  \
--  int2     _cl_overloadable NAME(short2  , ushort2  );  \
--  int3     _cl_overloadable NAME(short3  , ushort3  );  \
--  int4     _cl_overloadable NAME(short4  , ushort4  );  \
--  int8     _cl_overloadable NAME(short8  , ushort8  );  \
--  int16    _cl_overloadable NAME(short16 , ushort16 );  \
--  long     _cl_overloadable NAME(int     , uint     );  \
--  long2    _cl_overloadable NAME(int2    , uint2    );  \
--  long3    _cl_overloadable NAME(int3    , uint3    );  \
--  long4    _cl_overloadable NAME(int4    , uint4    );  \
--  long8    _cl_overloadable NAME(int8    , uint8    );  \
--  long16   _cl_overloadable NAME(int16   , uint16   );  \
++  int      _cl_overloadable NAME(short   , ushort  );   \
++  int2     _cl_overloadable NAME(short2  , ushort2 );   \
++  int3     _cl_overloadable NAME(short3  , ushort3 );   \
++  int4     _cl_overloadable NAME(short4  , ushort4 );   \
++  int8     _cl_overloadable NAME(short8  , ushort8 );   \
++  int16    _cl_overloadable NAME(short16 , ushort16);   \
++  __IF_INT64(                                           \
++  long     _cl_overloadable NAME(int     , uint    );   \
++  long2    _cl_overloadable NAME(int2    , uint2   );   \
++  long3    _cl_overloadable NAME(int3    , uint3   );   \
++  long4    _cl_overloadable NAME(int4    , uint4   );   \
++  long8    _cl_overloadable NAME(int8    , uint8   );   \
++  long16   _cl_overloadable NAME(int16   , uint16  );   \
    ulong    _cl_overloadable NAME(uint    , uint    );   \
    ulong2   _cl_overloadable NAME(uint2   , uint2   );   \
    ulong3   _cl_overloadable NAME(uint3   , uint3   );   \
    ulong4   _cl_overloadable NAME(uint4   , uint4   );   \
    ulong8   _cl_overloadable NAME(uint8   , uint8   );   \
--  ulong16  _cl_overloadable NAME(uint16  , uint16  );
--#else
--#define _CL_DECLARE_FUNC_LG_GUG(NAME)                   \
--  short    _cl_overloadable NAME(char    , uchar    );  \
--  short2   _cl_overloadable NAME(char2   , uchar2   );  \
--  short3   _cl_overloadable NAME(char3   , uchar3   );  \
--  short4   _cl_overloadable NAME(char4   , uchar4   );  \
--  short8   _cl_overloadable NAME(char8   , uchar8   );  \
--  short16  _cl_overloadable NAME(char16  , uchar16  );  \
--  ushort   _cl_overloadable NAME(uchar   , uchar   );   \
--  ushort2  _cl_overloadable NAME(uchar2  , uchar2  );   \
--  ushort3  _cl_overloadable NAME(uchar3  , uchar3  );   \
--  ushort4  _cl_overloadable NAME(uchar4  , uchar4  );   \
--  ushort8  _cl_overloadable NAME(uchar8  , uchar8  );   \
--  ushort16 _cl_overloadable NAME(uchar16 , uchar16 );   \
--  uint     _cl_overloadable NAME(ushort  , ushort  );   \
--  uint2    _cl_overloadable NAME(ushort2 , ushort2 );   \
--  uint3    _cl_overloadable NAME(ushort3 , ushort3 );   \
--  uint4    _cl_overloadable NAME(ushort4 , ushort4 );   \
--  uint8    _cl_overloadable NAME(ushort8 , ushort8 );   \
--  uint16   _cl_overloadable NAME(ushort16, ushort16);   \
--  int      _cl_overloadable NAME(short   , ushort   );  \
--  int2     _cl_overloadable NAME(short2  , ushort2  );  \
--  int3     _cl_overloadable NAME(short3  , ushort3  );  \
--  int4     _cl_overloadable NAME(short4  , ushort4  );  \
--  int8     _cl_overloadable NAME(short8  , ushort8  );  \
--  int16    _cl_overloadable NAME(short16 , ushort16 );
--#endif
--#ifdef cl_khr_int64
++  ulong16  _cl_overloadable NAME(uint16  , uint16  );)
  #define _CL_DECLARE_FUNC_I_IG(NAME)             \
    int _cl_overloadable NAME(char   );           \
    int _cl_overloadable NAME(char2  );           \
@@ -2137,33 +1376,13 @@
    int _cl_overloadable NAME(int4   );           \
    int _cl_overloadable NAME(int8   );           \
    int _cl_overloadable NAME(int16  );           \
++  __IF_INT64(                                   \
    int _cl_overloadable NAME(long   );           \
    int _cl_overloadable NAME(long2  );           \
    int _cl_overloadable NAME(long3  );           \
    int _cl_overloadable NAME(long4  );           \
    int _cl_overloadable NAME(long8  );           \
--  int _cl_overloadable NAME(long16 );
--#else
--#define _CL_DECLARE_FUNC_I_IG(NAME)             \
--  int _cl_overloadable NAME(char   );           \
--  int _cl_overloadable NAME(char2  );           \
--  int _cl_overloadable NAME(char3  );           \
--  int _cl_overloadable NAME(char4  );           \
--  int _cl_overloadable NAME(char8  );           \
--  int _cl_overloadable NAME(char16 );           \
--  int _cl_overloadable NAME(short  );           \
--  int _cl_overloadable NAME(short2 );           \
--  int _cl_overloadable NAME(short3 );           \
--  int _cl_overloadable NAME(short4 );           \
--  int _cl_overloadable NAME(short8 );           \
--  int _cl_overloadable NAME(short16);           \
--  int _cl_overloadable NAME(int    );           \
--  int _cl_overloadable NAME(int2   );           \
--  int _cl_overloadable NAME(int3   );           \
--  int _cl_overloadable NAME(int4   );           \
--  int _cl_overloadable NAME(int8   );           \
--  int _cl_overloadable NAME(int16  );
--#endif
++  int _cl_overloadable NAME(long16 );)
  #define _CL_DECLARE_FUNC_J_JJ(NAME)                     \
    int      _cl_overloadable NAME(int     , int     );   \
    int2     _cl_overloadable NAME(int2    , int2    );   \
 === modified file 'lib/kernel/Makefile.am'
 --- lib/kernel/Makefile.am	2011-11-08 13:38:46 +0000
 +++ lib/kernel/Makefile.am	2011-11-14 18:40:38 +0000
@@ -42,5 +42,5 @@
  .ll.o:
  	$(LLVM_AS) -o $@ $<
--$(libkernel_a_SOURCES:.c=.o):  $(top_srcdir)/include/_kernel.h templates.h
++$(libkernel_a_SOURCES:.c=.o):  $(top_srcdir)/include/_kernel.h
  $(libkernel_a_SOURCES:.cl=.o):  $(top_srcdir)/include/_kernel.h templates.h
 === modified file 'lib/kernel/arm/Makefile.am'
 --- lib/kernel/arm/Makefile.am	2011-11-09 15:30:32 +0000
 +++ lib/kernel/arm/Makefile.am	2011-11-14 18:40:38 +0000
@@ -47,5 +47,5 @@
  .c.o:
  	$(CLANG) $(AM_CPPFLAGS) $(CLANGFLAGS) $(ARM_CLANG_FLAGS) -c -emit-llvm -include $(top_srcdir)/include/_kernel.h -o $@ $<
--$(libkernel_a_SOURCES:.c=.o):  $(top_srcdir)/include/_kernel.h ../templates.h
++$(libkernel_a_SOURCES:.c=.o):  $(top_srcdir)/include/_kernel.h
  $(libkernel_a_SOURCES:.cl=.o):  $(top_srcdir)/include/_kernel.h ../templates.h
 === modified file 'lib/kernel/sources.mk'
 --- lib/kernel/sources.mk	2011-11-07 18:06:12 +0000
 +++ lib/kernel/sources.mk	2011-11-14 18:40:38 +0000
@@ -1,5 +1,4 @@
--libkernel_a_SOURCES = templates.h		\
--                      barrier.c                 \
++libkernel_a_SOURCES = barrier.c                 \
                        get_global_size.c		\
                        get_global_id.c		\
                        get_local_id.c		\
 === modified file 'lib/kernel/tce/Makefile.am'
 --- lib/kernel/tce/Makefile.am	2011-11-07 18:06:12 +0000
 +++ lib/kernel/tce/Makefile.am	2011-11-14 18:40:38 +0000
@@ -42,5 +42,5 @@
  .c.o:
  	$(CLANG) $(AM_CPPFLAGS) $(CLANGFLAGS) -ccc-host-triple tce-tut-llvm -c -emit-llvm -include $(top_srcdir)/include/_kernel.h -o $@ $<
--$(libkernel_a_SOURCES:.c=.o):  $(top_srcdir)/include/_kernel.h ../templates.h
++$(libkernel_a_SOURCES:.c=.o):  $(top_srcdir)/include/_kernel.h
  $(libkernel_a_SOURCES:.cl=.o):  $(top_srcdir)/include/_kernel.h ../templates.h
 === modified file 'lib/kernel/templates.h'
 --- lib/kernel/templates.h	2011-11-05 00:10:25 +0000
 +++ lib/kernel/templates.h	2011-11-14 18:40:38 +0000
@@ -27,41 +27,28 @@
    {                                                     \
      return (VTYPE)(NAME(a.LO), NAME(a.HI));             \
+   }
--#ifdef cl_khr_fp64
  #define DEFINE_BUILTIN_V_V(NAME)                \
    float __attribute__ ((overloadable))          \
    NAME(float a)                                 \
    {                                             \
      return __builtin_##NAME##f(a);              \
    }                                             \
++  IMPLEMENT_BUILTIN_V_V(NAME, float2  , lo, hi) \
++  IMPLEMENT_BUILTIN_V_V(NAME, float4  , lo, hi) \
++  IMPLEMENT_BUILTIN_V_V(NAME, float3  , lo, s2) \
++  IMPLEMENT_BUILTIN_V_V(NAME, float8  , lo, hi) \
++  IMPLEMENT_BUILTIN_V_V(NAME, float16 , lo, hi) \
++  __IF_FP64(                                    \
    double __attribute__ ((overloadable))         \
    NAME(double a)                                \
    {                                             \
      return __builtin_##NAME(a);                 \
    }                                             \
--  IMPLEMENT_BUILTIN_V_V(NAME, float2  , lo, hi) \
--  IMPLEMENT_BUILTIN_V_V(NAME, float4  , lo, hi) \
--  IMPLEMENT_BUILTIN_V_V(NAME, float3  , lo, s2) \
--  IMPLEMENT_BUILTIN_V_V(NAME, float8  , lo, hi) \
--  IMPLEMENT_BUILTIN_V_V(NAME, float16 , lo, hi) \
    IMPLEMENT_BUILTIN_V_V(NAME, double2 , lo, hi) \
    IMPLEMENT_BUILTIN_V_V(NAME, double3 , lo, s2) \
    IMPLEMENT_BUILTIN_V_V(NAME, double4 , lo, hi) \
    IMPLEMENT_BUILTIN_V_V(NAME, double8 , lo, hi) \
--  IMPLEMENT_BUILTIN_V_V(NAME, double16, lo, hi)
--#else
--#define DEFINE_BUILTIN_V_V(NAME)                \
--  float __attribute__ ((overloadable))          \
--  NAME(float a)                                 \
--  {                                             \
--    return __builtin_##NAME##f(a);              \
--  }                                             \
--  IMPLEMENT_BUILTIN_V_V(NAME, float2  , lo, hi) \
--  IMPLEMENT_BUILTIN_V_V(NAME, float4  , lo, hi) \
--  IMPLEMENT_BUILTIN_V_V(NAME, float3  , lo, s2) \
--  IMPLEMENT_BUILTIN_V_V(NAME, float8  , lo, hi) \
--  IMPLEMENT_BUILTIN_V_V(NAME, float16 , lo, hi)
--#endif
++  IMPLEMENT_BUILTIN_V_V(NAME, double16, lo, hi))
  #define IMPLEMENT_BUILTIN_V_VV(NAME, VTYPE, LO, HI)     \
    VTYPE __attribute__ ((overloadable))                  \
@@ -69,41 +56,28 @@
    {                                                     \
      return (VTYPE)(NAME(a.LO, b.LO), NAME(a.HI, b.HI)); \
+   }
--#ifdef cl_khr_fp64
  #define DEFINE_BUILTIN_V_VV(NAME)                       \
    float __attribute__ ((overloadable))                  \
    NAME(float a, float b)                                \
    {                                                     \
      return __builtin_##NAME##f(a, b);                   \
    }                                                     \
++  IMPLEMENT_BUILTIN_V_VV(NAME, float2  , lo, hi)        \
++  IMPLEMENT_BUILTIN_V_VV(NAME, float3  , lo, s2)        \
++  IMPLEMENT_BUILTIN_V_VV(NAME, float4  , lo, hi)        \
++  IMPLEMENT_BUILTIN_V_VV(NAME, float8  , lo, hi)        \
++  IMPLEMENT_BUILTIN_V_VV(NAME, float16 , lo, hi)        \
++  __IF_FP64(                                            \
    double __attribute__ ((overloadable))                 \
    NAME(double a, double b)                              \
    {                                                     \
      return __builtin_##NAME(a, b);                      \
    }                                                     \
--  IMPLEMENT_BUILTIN_V_VV(NAME, float2  , lo, hi)        \
--  IMPLEMENT_BUILTIN_V_VV(NAME, float3  , lo, s2)        \
--  IMPLEMENT_BUILTIN_V_VV(NAME, float4  , lo, hi)        \
--  IMPLEMENT_BUILTIN_V_VV(NAME, float8  , lo, hi)        \
--  IMPLEMENT_BUILTIN_V_VV(NAME, float16 , lo, hi)        \
    IMPLEMENT_BUILTIN_V_VV(NAME, double2 , lo, hi)        \
    IMPLEMENT_BUILTIN_V_VV(NAME, double3 , lo, s2)        \
    IMPLEMENT_BUILTIN_V_VV(NAME, double4 , lo, hi)        \
    IMPLEMENT_BUILTIN_V_VV(NAME, double8 , lo, hi)        \
--  IMPLEMENT_BUILTIN_V_VV(NAME, double16, lo, hi)
--#else
--#define DEFINE_BUILTIN_V_VV(NAME)                       \
--  float __attribute__ ((overloadable))                  \
--  NAME(float a, float b)                                \
--  {                                                     \
--    return __builtin_##NAME##f(a, b);                   \
--  }                                                     \
--  IMPLEMENT_BUILTIN_V_VV(NAME, float2  , lo, hi)        \
--  IMPLEMENT_BUILTIN_V_VV(NAME, float3  , lo, s2)        \
--  IMPLEMENT_BUILTIN_V_VV(NAME, float4  , lo, hi)        \
--  IMPLEMENT_BUILTIN_V_VV(NAME, float8  , lo, hi)        \
--  IMPLEMENT_BUILTIN_V_VV(NAME, float16 , lo, hi)
--#endif
++  IMPLEMENT_BUILTIN_V_VV(NAME, double16, lo, hi))
  #define IMPLEMENT_BUILTIN_V_VVV(NAME, VTYPE, LO, HI)                    \
    VTYPE __attribute__ ((overloadable))                                  \
@@ -111,41 +85,28 @@
    {                                                                     \
      return (VTYPE)(NAME(a.LO, b.LO, c.LO), NAME(a.HI, b.HI, c.HI));     \
+   }
--#ifdef cl_khr_fp64
  #define DEFINE_BUILTIN_V_VVV(NAME)                      \
    float __attribute__ ((overloadable))                  \
    NAME(float a, float b, float c)                       \
    {                                                     \
      return __builtin_##NAME##f(a, b, c);                \
    }                                                     \
++  IMPLEMENT_BUILTIN_V_VVV(NAME, float2  , lo, hi)       \
++  IMPLEMENT_BUILTIN_V_VVV(NAME, float3  , lo, s2)       \
++  IMPLEMENT_BUILTIN_V_VVV(NAME, float4  , lo, hi)       \
++  IMPLEMENT_BUILTIN_V_VVV(NAME, float8  , lo, hi)       \
++  IMPLEMENT_BUILTIN_V_VVV(NAME, float16 , lo, hi)       \
++  __IF_FP64(                                            \
    double __attribute__ ((overloadable))                 \
    NAME(double a, double b, double c)                    \
    {                                                     \
      return __builtin_##NAME(a, b, c);                   \
    }                                                     \
--  IMPLEMENT_BUILTIN_V_VVV(NAME, float2  , lo, hi)       \
--  IMPLEMENT_BUILTIN_V_VVV(NAME, float3  , lo, s2)       \
--  IMPLEMENT_BUILTIN_V_VVV(NAME, float4  , lo, hi)       \
--  IMPLEMENT_BUILTIN_V_VVV(NAME, float8  , lo, hi)       \
--  IMPLEMENT_BUILTIN_V_VVV(NAME, float16 , lo, hi)       \
    IMPLEMENT_BUILTIN_V_VVV(NAME, double2 , lo, hi)       \
    IMPLEMENT_BUILTIN_V_VVV(NAME, double3 , lo, s2)       \
    IMPLEMENT_BUILTIN_V_VVV(NAME, double4 , lo, hi)       \
    IMPLEMENT_BUILTIN_V_VVV(NAME, double8 , lo, hi)       \
--  IMPLEMENT_BUILTIN_V_VVV(NAME, double16, lo, hi)
--#else
--#define DEFINE_BUILTIN_V_VVV(NAME)                      \
--  float __attribute__ ((overloadable))                  \
--  NAME(float a, float b, float c)                       \
--  {                                                     \
--    return __builtin_##NAME##f(a, b, c);                \
--  }                                                     \
--  IMPLEMENT_BUILTIN_V_VVV(NAME, float2  , lo, hi)       \
--  IMPLEMENT_BUILTIN_V_VVV(NAME, float3  , lo, s2)       \
--  IMPLEMENT_BUILTIN_V_VVV(NAME, float4  , lo, hi)       \
--  IMPLEMENT_BUILTIN_V_VVV(NAME, float8  , lo, hi)       \
--  IMPLEMENT_BUILTIN_V_VVV(NAME, float16 , lo, hi)
--#endif
++  IMPLEMENT_BUILTIN_V_VVV(NAME, double16, lo, hi))
  #define IMPLEMENT_BUILTIN_V_U(NAME, VTYPE, UTYPE, LO, HI)       \
    VTYPE __attribute__ ((overloadable))                          \
@@ -153,41 +114,28 @@
    {                                                             \
      return (VTYPE)(NAME(a.LO), NAME(a.HI));                     \
+   }
--#if defined(cl_khr_int64) && defined(cl_khr_fp64)
  #define DEFINE_BUILTIN_V_U(NAME)                        \
    float __attribute__ ((overloadable))                  \
    NAME(uint a)                                          \
    {                                                     \
      return __builtin_##NAME##f(a);                      \
    }                                                     \
++  IMPLEMENT_BUILTIN_V_U(NAME, float2  , uint2  , lo, hi) \
++  IMPLEMENT_BUILTIN_V_U(NAME, float3  , uint3  , lo, s2) \
++  IMPLEMENT_BUILTIN_V_U(NAME, float4  , uint4  , lo, hi) \
++  IMPLEMENT_BUILTIN_V_U(NAME, float8  , uint8  , lo, hi) \
++  IMPLEMENT_BUILTIN_V_U(NAME, float16 , uint16 , lo, hi) \
++  __IF_FP64(                                             \
    double __attribute__ ((overloadable))                 \
    NAME(ulong a)                                         \
    {                                                     \
      return __builtin_##NAME(a);                         \
    }                                                     \
--  IMPLEMENT_BUILTIN_V_U(NAME, float2  , uint2  , lo, hi) \
--  IMPLEMENT_BUILTIN_V_U(NAME, float3  , uint3  , lo, s2) \
--  IMPLEMENT_BUILTIN_V_U(NAME, float4  , uint4  , lo, hi) \
--  IMPLEMENT_BUILTIN_V_U(NAME, float8  , uint8  , lo, hi) \
--  IMPLEMENT_BUILTIN_V_U(NAME, float16 , uint16 , lo, hi) \
    IMPLEMENT_BUILTIN_V_U(NAME, double2 , ulong2 , lo, hi) \
    IMPLEMENT_BUILTIN_V_U(NAME, double3 , ulong3 , lo, s2) \
    IMPLEMENT_BUILTIN_V_U(NAME, double4 , ulong4 , lo, hi) \
    IMPLEMENT_BUILTIN_V_U(NAME, double8 , ulong8 , lo, hi) \
--  IMPLEMENT_BUILTIN_V_U(NAME, double16, ulong16, lo, hi)
--#else
--#define DEFINE_BUILTIN_V_U(NAME)                        \
--  float __attribute__ ((overloadable))                  \
--  NAME(uint a)                                          \
--  {                                                     \
--    return __builtin_##NAME##f(a);                      \
--  }                                                     \
--  IMPLEMENT_BUILTIN_V_U(NAME, float2  , uint2  , lo, hi) \
--  IMPLEMENT_BUILTIN_V_U(NAME, float3  , uint3  , lo, s2) \
--  IMPLEMENT_BUILTIN_V_U(NAME, float4  , uint4  , lo, hi) \
--  IMPLEMENT_BUILTIN_V_U(NAME, float8  , uint8  , lo, hi) \
--  IMPLEMENT_BUILTIN_V_U(NAME, float16 , uint16 , lo, hi)
--#endif
++  IMPLEMENT_BUILTIN_V_U(NAME, double16, ulong16, lo, hi))
  #define IMPLEMENT_BUILTIN_J_VV(NAME, VTYPE, JTYPE, LO, HI)      \
    JTYPE __attribute__ ((overloadable))                          \
@@ -195,58 +143,29 @@
    {                                                             \
      return (JTYPE)(NAME(a.LO, b.LO), NAME(a.HI, b.HI));         \
+   }
--#if defined(cl_khr_int64) && defined(cl_khr_fp64)
  #define DEFINE_BUILTIN_J_VV(NAME)                               \
    int __attribute__ ((overloadable))                            \
    NAME(float a, float b)                                        \
    {                                                             \
      return __builtin_##NAME##f(a, b);                           \
    }                                                             \
--  int __attribute__ ((overloadable))                            \
--  NAME(double a, double b)                                      \
--  {                                                             \
--    return __builtin_##NAME(a, b);                              \
--  }                                                             \
    IMPLEMENT_BUILTIN_J_VV(NAME, float2  , int2  , lo, hi)        \
    IMPLEMENT_BUILTIN_J_VV(NAME, float3  , int3  , lo, s2)        \
    IMPLEMENT_BUILTIN_J_VV(NAME, float4  , int4  , lo, hi)        \
    IMPLEMENT_BUILTIN_J_VV(NAME, float8  , int8  , lo, hi)        \
    IMPLEMENT_BUILTIN_J_VV(NAME, float16 , int16 , lo, hi)        \
++  __IF_FP64(                                                    \
++  int __attribute__ ((overloadable))                            \
++  NAME(double a, double b)                                      \
++  {                                                             \
++    return __builtin_##NAME(a, b);                              \
++  }                                                             \
++  __IF_INT64(                                                   \
    IMPLEMENT_BUILTIN_J_VV(NAME, double2 , long2 , lo, hi)        \
    IMPLEMENT_BUILTIN_J_VV(NAME, double3 , long3 , lo, s2)        \
    IMPLEMENT_BUILTIN_J_VV(NAME, double4 , long4 , lo, hi)        \
    IMPLEMENT_BUILTIN_J_VV(NAME, double8 , long8 , lo, hi)        \
--  IMPLEMENT_BUILTIN_J_VV(NAME, double16, long16, lo, hi)
--#elif defined(cl_khr_fp64)
--#define DEFINE_BUILTIN_J_VV(NAME)                               \
--  int __attribute__ ((overloadable))                            \
--  NAME(float a, float b)                                        \
--  {                                                             \
--    return __builtin_##NAME##f(a, b);                           \
--  }                                                             \
--  int __attribute__ ((overloadable))                            \
--  NAME(double a, double b)                                      \
--  {                                                             \
--    return __builtin_##NAME(a, b);                              \
--  }                                                             \
--  IMPLEMENT_BUILTIN_J_VV(NAME, float2  , int2  , lo, hi)        \
--  IMPLEMENT_BUILTIN_J_VV(NAME, float3  , int3  , lo, s2)        \
--  IMPLEMENT_BUILTIN_J_VV(NAME, float4  , int4  , lo, hi)        \
--  IMPLEMENT_BUILTIN_J_VV(NAME, float8  , int8  , lo, hi)        \
--  IMPLEMENT_BUILTIN_J_VV(NAME, float16 , int16 , lo, hi)
--#else
--#define DEFINE_BUILTIN_J_VV(NAME)                               \
--  int __attribute__ ((overloadable))                            \
--  NAME(float a, float b)                                        \
--  {                                                             \
--    return __builtin_##NAME##f(a, b);                           \
--  }                                                             \
--  IMPLEMENT_BUILTIN_J_VV(NAME, float2  , int2  , lo, hi)        \
--  IMPLEMENT_BUILTIN_J_VV(NAME, float3  , int3  , lo, s2)        \
--  IMPLEMENT_BUILTIN_J_VV(NAME, float4  , int4  , lo, hi)        \
--  IMPLEMENT_BUILTIN_J_VV(NAME, float8  , int8  , lo, hi)        \
--  IMPLEMENT_BUILTIN_J_VV(NAME, float16 , int16 , lo, hi)
--#endif
++  IMPLEMENT_BUILTIN_J_VV(NAME, double16, long16, lo, hi)))
  #define IMPLEMENT_BUILTIN_V_VJ(NAME, VTYPE, JTYPE, LO, HI)      \
    VTYPE __attribute__ ((overloadable))                          \
@@ -254,41 +173,28 @@
    {                                                             \
      return (VTYPE)(NAME(a.LO, b.LO), NAME(a.HI, b.HI));         \
+   }
--#ifdef cl_khr_fp64
  #define DEFINE_BUILTIN_V_VJ(NAME)                       \
    float __attribute__ ((overloadable))                  \
    NAME(float a, int b)                                  \
    {                                                     \
      return __builtin_##NAME##f(a, b);                   \
    }                                                     \
++  IMPLEMENT_BUILTIN_V_VJ(NAME, float2  , int2 , lo, hi) \
++  IMPLEMENT_BUILTIN_V_VJ(NAME, float3  , int3 , lo, s2) \
++  IMPLEMENT_BUILTIN_V_VJ(NAME, float4  , int4 , lo, hi) \
++  IMPLEMENT_BUILTIN_V_VJ(NAME, float8  , int8 , lo, hi) \
++  IMPLEMENT_BUILTIN_V_VJ(NAME, float16 , int16, lo, hi) \
++  __IF_FP64(                                            \
    double __attribute__ ((overloadable))                 \
    NAME(double a, int b)                                 \
    {                                                     \
      return __builtin_##NAME(a, b);                      \
    }                                                     \
--  IMPLEMENT_BUILTIN_V_VJ(NAME, float2  , int2 , lo, hi) \
--  IMPLEMENT_BUILTIN_V_VJ(NAME, float3  , int3 , lo, s2) \
--  IMPLEMENT_BUILTIN_V_VJ(NAME, float4  , int4 , lo, hi) \
--  IMPLEMENT_BUILTIN_V_VJ(NAME, float8  , int8 , lo, hi) \
--  IMPLEMENT_BUILTIN_V_VJ(NAME, float16 , int16, lo, hi) \
    IMPLEMENT_BUILTIN_V_VJ(NAME, double2 , int2 , lo, hi) \
    IMPLEMENT_BUILTIN_V_VJ(NAME, double3 , int3 , lo, s2) \
    IMPLEMENT_BUILTIN_V_VJ(NAME, double4 , int4 , lo, hi) \
    IMPLEMENT_BUILTIN_V_VJ(NAME, double8 , int8 , lo, hi) \
--  IMPLEMENT_BUILTIN_V_VJ(NAME, double16, int16, lo, hi)
--#else
--#define DEFINE_BUILTIN_V_VJ(NAME)                       \
--  float __attribute__ ((overloadable))                  \
--  NAME(float a, int b)                                  \
--  {                                                     \
--    return __builtin_##NAME##f(a, b);                   \
--  }                                                     \
--  IMPLEMENT_BUILTIN_V_VJ(NAME, float2  , int2 , lo, hi) \
--  IMPLEMENT_BUILTIN_V_VJ(NAME, float3  , int3 , lo, s2) \
--  IMPLEMENT_BUILTIN_V_VJ(NAME, float4  , int4 , lo, hi) \
--  IMPLEMENT_BUILTIN_V_VJ(NAME, float8  , int8 , lo, hi) \
--  IMPLEMENT_BUILTIN_V_VJ(NAME, float16 , int16, lo, hi)
--#endif
++  IMPLEMENT_BUILTIN_V_VJ(NAME, double16, int16, lo, hi))
  #define IMPLEMENT_BUILTIN_V_VI(NAME, VTYPE, ITYPE, LO, HI)      \
    VTYPE __attribute__ ((overloadable))                          \
@@ -296,26 +202,18 @@
    {                                                             \
      return (VTYPE)(NAME(a.LO, b), NAME(a.HI, b));               \
+   }
--#ifdef cl_khr_fp64
  #define DEFINE_BUILTIN_V_VI(NAME)                       \
    IMPLEMENT_BUILTIN_V_VI(NAME, float2  , int, lo, hi)   \
    IMPLEMENT_BUILTIN_V_VI(NAME, float3  , int, lo, s2)   \
    IMPLEMENT_BUILTIN_V_VI(NAME, float4  , int, lo, hi)   \
    IMPLEMENT_BUILTIN_V_VI(NAME, float8  , int, lo, hi)   \
    IMPLEMENT_BUILTIN_V_VI(NAME, float16 , int, lo, hi)   \
++  __IF_FP64(                                            \
    IMPLEMENT_BUILTIN_V_VI(NAME, double2 , int, lo, hi)   \
    IMPLEMENT_BUILTIN_V_VI(NAME, double3 , int, lo, s2)   \
    IMPLEMENT_BUILTIN_V_VI(NAME, double4 , int, lo, hi)   \
    IMPLEMENT_BUILTIN_V_VI(NAME, double8 , int, lo, hi)   \
--  IMPLEMENT_BUILTIN_V_VI(NAME, double16, int, lo, hi)
--#else
--#define DEFINE_BUILTIN_V_VI(NAME)                       \
--  IMPLEMENT_BUILTIN_V_VI(NAME, float2  , int, lo, hi)   \
--  IMPLEMENT_BUILTIN_V_VI(NAME, float3  , int, lo, s2)   \
--  IMPLEMENT_BUILTIN_V_VI(NAME, float4  , int, lo, hi)   \
--  IMPLEMENT_BUILTIN_V_VI(NAME, float8  , int, lo, hi)   \
--  IMPLEMENT_BUILTIN_V_VI(NAME, float16 , int, lo, hi)
--#endif
++  IMPLEMENT_BUILTIN_V_VI(NAME, double16, int, lo, hi))
  #define IMPLEMENT_BUILTIN_J_V(NAME, JTYPE, VTYPE, LO, HI)       \
    JTYPE __attribute__ ((overloadable))                          \
@@ -323,41 +221,28 @@
    {                                                             \
      return (JTYPE)(NAME(a.LO), NAME(a.HI));                     \
+   }
--#ifdef cl_khr_fp64
  #define DEFINE_BUILTIN_J_V(NAME)                        \
    int __attribute__ ((overloadable))                    \
    NAME(float a)                                         \
    {                                                     \
      return __builtin_##NAME##f(a);                      \
    }                                                     \
--  int __attribute__ ((overloadable))                    \
--  NAME(double a)                                        \
--  {                                                     \
--    return __builtin_##NAME(a);                         \
--  }                                                     \
    IMPLEMENT_BUILTIN_J_V(NAME, int2 , float2  , lo, hi)  \
    IMPLEMENT_BUILTIN_J_V(NAME, int3 , float3  , lo, s2)  \
    IMPLEMENT_BUILTIN_J_V(NAME, int4 , float4  , lo, hi)  \
    IMPLEMENT_BUILTIN_J_V(NAME, int8 , float8  , lo, hi)  \
    IMPLEMENT_BUILTIN_J_V(NAME, int16, float16 , lo, hi)  \
++  __IF_FP64(                                            \
++  int __attribute__ ((overloadable))                    \
++  NAME(double a)                                        \
++  {                                                     \
++    return __builtin_##NAME(a);                         \
++  }                                                     \
    IMPLEMENT_BUILTIN_J_V(NAME, int2 , double2 , lo, hi)  \
    IMPLEMENT_BUILTIN_J_V(NAME, int3 , double3 , lo, s2)  \
    IMPLEMENT_BUILTIN_J_V(NAME, int4 , double4 , lo, hi)  \
    IMPLEMENT_BUILTIN_J_V(NAME, int8 , double8 , lo, hi)  \
--  IMPLEMENT_BUILTIN_J_V(NAME, int16, double16, lo, hi)
--#else
--#define DEFINE_BUILTIN_J_V(NAME)                        \
--  int __attribute__ ((overloadable))                    \
--  NAME(float a)                                         \
--  {                                                     \
--    return __builtin_##NAME##f(a);                      \
--  }                                                     \
--  IMPLEMENT_BUILTIN_J_V(NAME, int2 , float2  , lo, hi)  \
--  IMPLEMENT_BUILTIN_J_V(NAME, int3 , float3  , lo, s2)  \
--  IMPLEMENT_BUILTIN_J_V(NAME, int4 , float4  , lo, hi)  \
--  IMPLEMENT_BUILTIN_J_V(NAME, int8 , float8  , lo, hi)  \
--  IMPLEMENT_BUILTIN_J_V(NAME, int16, float16 , lo, hi)
--#endif
++  IMPLEMENT_BUILTIN_J_V(NAME, int16, double16, lo, hi))
  #define IMPLEMENT_BUILTIN_K_V(NAME, JTYPE, VTYPE, LO, HI)       \
    JTYPE __attribute__ ((overloadable))                          \
@@ -365,41 +250,31 @@
    {                                                             \
      return (JTYPE)(NAME(a.LO), NAME(a.HI));                     \
+   }
--#ifdef cl_khr_fp64
  #define DEFINE_BUILTIN_K_V(NAME)                        \
    int __attribute__ ((overloadable))                    \
    NAME(float a)                                         \
    {                                                     \
      return __builtin_##NAME##f(a);                      \
    }                                                     \
--  int __attribute__ ((overloadable))                    \
--  NAME(double a)                                        \
--  {                                                     \
--    return __builtin_##NAME(a);                         \
--  }                                                     \
    IMPLEMENT_BUILTIN_K_V(NAME, int2  , float2  , lo, hi) \
    IMPLEMENT_BUILTIN_K_V(NAME, int3  , float3  , lo, s2) \
    IMPLEMENT_BUILTIN_K_V(NAME, int4  , float4  , lo, hi) \
    IMPLEMENT_BUILTIN_K_V(NAME, int8  , float8  , lo, hi) \
    IMPLEMENT_BUILTIN_K_V(NAME, int16 , float16 , lo, hi) \
++  __IF_FP64(                                            \
++  int __attribute__ ((overloadable))                    \
++  NAME(double a)                                        \
++  {                                                     \
++    return __builtin_##NAME(a);                         \
++  }                                                     \
++  __IF_INT64(                                           \
    IMPLEMENT_BUILTIN_K_V(NAME, long2 , double2 , lo, hi) \
    IMPLEMENT_BUILTIN_K_V(NAME, long3 , double3 , lo, s2) \
    IMPLEMENT_BUILTIN_K_V(NAME, long4 , double4 , lo, hi) \
    IMPLEMENT_BUILTIN_K_V(NAME, long8 , double8 , lo, hi) \
--  IMPLEMENT_BUILTIN_K_V(NAME, long16, double16, lo, hi)
--#else
--#define DEFINE_BUILTIN_K_V(NAME)                        \
--  int __attribute__ ((overloadable))                    \
--  NAME(float a)                                         \
--  {                                                     \
--    return __builtin_##NAME##f(a);                      \
--  }                                                     \
--  IMPLEMENT_BUILTIN_K_V(NAME, int2 , float2  , lo, hi)  \
--  IMPLEMENT_BUILTIN_K_V(NAME, int3 , float3  , lo, s2)  \
--  IMPLEMENT_BUILTIN_K_V(NAME, int4 , float4  , lo, hi)  \
--  IMPLEMENT_BUILTIN_K_V(NAME, int8 , float8  , lo, hi)  \
--  IMPLEMENT_BUILTIN_K_V(NAME, int16, float16 , lo, hi)
--#endif
++  IMPLEMENT_BUILTIN_K_V(NAME, long16, double16, lo, hi)))
++
++/******************************************************************************/
  #define IMPLEMENT_EXPR_V_V(NAME, EXPR, VTYPE, STYPE)    \
    VTYPE __attribute__ ((overloadable))                  \
@@ -409,7 +284,6 @@
      typedef STYPE stype;                                \
      return EXPR;                                        \
+   }
--#ifdef cl_khr_fp64
  #define DEFINE_EXPR_V_V(NAME, EXPR)                     \
    IMPLEMENT_EXPR_V_V(NAME, EXPR, float   , float )      \
    IMPLEMENT_EXPR_V_V(NAME, EXPR, float2  , float )      \
@@ -417,21 +291,13 @@
    IMPLEMENT_EXPR_V_V(NAME, EXPR, float4  , float )      \
    IMPLEMENT_EXPR_V_V(NAME, EXPR, float8  , float )      \
    IMPLEMENT_EXPR_V_V(NAME, EXPR, float16 , float )      \
++  __IF_FP64(                                            \
    IMPLEMENT_EXPR_V_V(NAME, EXPR, double  , double)      \
    IMPLEMENT_EXPR_V_V(NAME, EXPR, double2 , double)      \
    IMPLEMENT_EXPR_V_V(NAME, EXPR, double3 , double)      \
    IMPLEMENT_EXPR_V_V(NAME, EXPR, double4 , double)      \
    IMPLEMENT_EXPR_V_V(NAME, EXPR, double8 , double)      \
--  IMPLEMENT_EXPR_V_V(NAME, EXPR, double16, double)
--#else
--#define DEFINE_EXPR_V_V(NAME, EXPR)                     \
--  IMPLEMENT_EXPR_V_V(NAME, EXPR, float   , float )      \
--  IMPLEMENT_EXPR_V_V(NAME, EXPR, float2  , float )      \
--  IMPLEMENT_EXPR_V_V(NAME, EXPR, float3  , float )      \
--  IMPLEMENT_EXPR_V_V(NAME, EXPR, float4  , float )      \
--  IMPLEMENT_EXPR_V_V(NAME, EXPR, float8  , float )      \
--  IMPLEMENT_EXPR_V_V(NAME, EXPR, float16 , float )
--#endif
++  IMPLEMENT_EXPR_V_V(NAME, EXPR, double16, double))
  #define IMPLEMENT_EXPR_V_VV(NAME, EXPR, VTYPE, STYPE, JTYPE)    \
    VTYPE __attribute__ ((overloadable))                          \
@@ -442,7 +308,6 @@
      typedef JTYPE jtype;                                        \
      return EXPR;                                                \
+   }
--#ifdef cl_khr_fp64
  #define DEFINE_EXPR_V_VV(NAME, EXPR)                            \
    IMPLEMENT_EXPR_V_VV(NAME, EXPR, float   , float , int   )     \
    IMPLEMENT_EXPR_V_VV(NAME, EXPR, float2  , float , int2  )     \
@@ -450,21 +315,13 @@
    IMPLEMENT_EXPR_V_VV(NAME, EXPR, float4  , float , int4  )     \
    IMPLEMENT_EXPR_V_VV(NAME, EXPR, float8  , float , int8  )     \
    IMPLEMENT_EXPR_V_VV(NAME, EXPR, float16 , float , int16 )     \
++  __IF_FP64(                                                    \
    IMPLEMENT_EXPR_V_VV(NAME, EXPR, double  , double, long  )     \
    IMPLEMENT_EXPR_V_VV(NAME, EXPR, double2 , double, long2 )     \
    IMPLEMENT_EXPR_V_VV(NAME, EXPR, double3 , double, long3 )     \
    IMPLEMENT_EXPR_V_VV(NAME, EXPR, double4 , double, long4 )     \
    IMPLEMENT_EXPR_V_VV(NAME, EXPR, double8 , double, long8 )     \
--  IMPLEMENT_EXPR_V_VV(NAME, EXPR, double16, double, long16)
--#else
--#define DEFINE_EXPR_V_VV(NAME, EXPR)                            \
--  IMPLEMENT_EXPR_V_VV(NAME, EXPR, float   , float , int   )     \
--  IMPLEMENT_EXPR_V_VV(NAME, EXPR, float2  , float , int2  )     \
--  IMPLEMENT_EXPR_V_VV(NAME, EXPR, float3  , float , int3  )     \
--  IMPLEMENT_EXPR_V_VV(NAME, EXPR, float4  , float , int4  )     \
--  IMPLEMENT_EXPR_V_VV(NAME, EXPR, float8  , float , int8  )     \
--  IMPLEMENT_EXPR_V_VV(NAME, EXPR, float16 , float , int16 )
--#endif
++  IMPLEMENT_EXPR_V_VV(NAME, EXPR, double16, double, long16))
  #define IMPLEMENT_EXPR_V_VVV(NAME, EXPR, VTYPE, STYPE, JTYPE)   \
    VTYPE __attribute__ ((overloadable))                          \
@@ -475,7 +332,6 @@
      typedef JTYPE jtype;                                        \
      return EXPR;                                                \
+   }
--#if defined(cl_khr_int64) && defined(cl_khr_fp64)
  #define DEFINE_EXPR_V_VVV(NAME, EXPR)                           \
    IMPLEMENT_EXPR_V_VVV(NAME, EXPR, float   , float , int   )    \
    IMPLEMENT_EXPR_V_VVV(NAME, EXPR, float2  , float , int2  )    \
@@ -483,21 +339,13 @@
    IMPLEMENT_EXPR_V_VVV(NAME, EXPR, float4  , float , int4  )    \
    IMPLEMENT_EXPR_V_VVV(NAME, EXPR, float8  , float , int8  )    \
    IMPLEMENT_EXPR_V_VVV(NAME, EXPR, float16 , float , int16 )    \
++  __IF_FP64(                                                    \
    IMPLEMENT_EXPR_V_VVV(NAME, EXPR, double  , double, long  )    \
    IMPLEMENT_EXPR_V_VVV(NAME, EXPR, double2 , double, long2 )    \
    IMPLEMENT_EXPR_V_VVV(NAME, EXPR, double3 , double, long3 )    \
    IMPLEMENT_EXPR_V_VVV(NAME, EXPR, double4 , double, long4 )    \
    IMPLEMENT_EXPR_V_VVV(NAME, EXPR, double8 , double, long8 )    \
--  IMPLEMENT_EXPR_V_VVV(NAME, EXPR, double16, double, long16)
--#else
--#define DEFINE_EXPR_V_VVV(NAME, EXPR)                           \
--  IMPLEMENT_EXPR_V_VVV(NAME, EXPR, float   , float , int   )    \
--  IMPLEMENT_EXPR_V_VVV(NAME, EXPR, float2  , float , int2  )    \
--  IMPLEMENT_EXPR_V_VVV(NAME, EXPR, float3  , float , int3  )    \
--  IMPLEMENT_EXPR_V_VVV(NAME, EXPR, float4  , float , int4  )    \
--  IMPLEMENT_EXPR_V_VVV(NAME, EXPR, float8  , float , int8  )    \
--  IMPLEMENT_EXPR_V_VVV(NAME, EXPR, float16 , float , int16 )
--#endif
++  IMPLEMENT_EXPR_V_VVV(NAME, EXPR, double16, double, long16))
  #define IMPLEMENT_EXPR_S_VV(NAME, EXPR, VTYPE, STYPE, JTYPE)    \
    STYPE __attribute__ ((overloadable))                          \
@@ -508,7 +356,6 @@
      typedef JTYPE jtype;                                        \
      return EXPR;                                                \
+   }
--#if defined(cl_khr_int64) && defined(cl_khr_fp64)
  #define DEFINE_EXPR_S_VV(NAME, EXPR)                            \
    IMPLEMENT_EXPR_S_VV(NAME, EXPR, float   , float , int   )     \
    IMPLEMENT_EXPR_S_VV(NAME, EXPR, float2  , float , int2  )     \
@@ -516,21 +363,13 @@
    IMPLEMENT_EXPR_S_VV(NAME, EXPR, float4  , float , int4  )     \
    IMPLEMENT_EXPR_S_VV(NAME, EXPR, float8  , float , int8  )     \
    IMPLEMENT_EXPR_S_VV(NAME, EXPR, float16 , float , int16 )     \
++  __IF_FP64(                                                    \
    IMPLEMENT_EXPR_S_VV(NAME, EXPR, double  , double, long  )     \
    IMPLEMENT_EXPR_S_VV(NAME, EXPR, double2 , double, long2 )     \
    IMPLEMENT_EXPR_S_VV(NAME, EXPR, double3 , double, long3 )     \
    IMPLEMENT_EXPR_S_VV(NAME, EXPR, double4 , double, long4 )     \
    IMPLEMENT_EXPR_S_VV(NAME, EXPR, double8 , double, long8 )     \
--  IMPLEMENT_EXPR_S_VV(NAME, EXPR, double16, double, long16)
--#else
--#define DEFINE_EXPR_S_VV(NAME, EXPR)                            \
--  IMPLEMENT_EXPR_S_VV(NAME, EXPR, float   , float , int   )     \
--  IMPLEMENT_EXPR_S_VV(NAME, EXPR, float2  , float , int2  )     \
--  IMPLEMENT_EXPR_S_VV(NAME, EXPR, float3  , float , int3  )     \
--  IMPLEMENT_EXPR_S_VV(NAME, EXPR, float4  , float , int4  )     \
--  IMPLEMENT_EXPR_S_VV(NAME, EXPR, float8  , float , int8  )     \
--  IMPLEMENT_EXPR_S_VV(NAME, EXPR, float16 , float , int16 )
--#endif
++  IMPLEMENT_EXPR_S_VV(NAME, EXPR, double16, double, long16))
  #define IMPLEMENT_EXPR_V_VVS(NAME, EXPR, VTYPE, STYPE)  \
    VTYPE __attribute__ ((overloadable))                  \
@@ -540,26 +379,18 @@
      typedef STYPE stype;                                \
      return EXPR;                                        \
+   }
--#ifdef cl_khr_fp64
  #define DEFINE_EXPR_V_VVS(NAME, EXPR)                   \
    IMPLEMENT_EXPR_V_VVS(NAME, EXPR, float2  , float )    \
    IMPLEMENT_EXPR_V_VVS(NAME, EXPR, float3  , float )    \
    IMPLEMENT_EXPR_V_VVS(NAME, EXPR, float4  , float )    \
    IMPLEMENT_EXPR_V_VVS(NAME, EXPR, float8  , float )    \
    IMPLEMENT_EXPR_V_VVS(NAME, EXPR, float16 , float )    \
++  __IF_FP64(                                            \
    IMPLEMENT_EXPR_V_VVS(NAME, EXPR, double2 , double)    \
    IMPLEMENT_EXPR_V_VVS(NAME, EXPR, double3 , double)    \
    IMPLEMENT_EXPR_V_VVS(NAME, EXPR, double4 , double)    \
    IMPLEMENT_EXPR_V_VVS(NAME, EXPR, double8 , double)    \
--  IMPLEMENT_EXPR_V_VVS(NAME, EXPR, double16, double)
--#else
--#define DEFINE_EXPR_V_VVS(NAME, EXPR)                   \
--  IMPLEMENT_EXPR_V_VVS(NAME, EXPR, float2  , float )    \
--  IMPLEMENT_EXPR_V_VVS(NAME, EXPR, float3  , float )    \
--  IMPLEMENT_EXPR_V_VVS(NAME, EXPR, float4  , float )    \
--  IMPLEMENT_EXPR_V_VVS(NAME, EXPR, float8  , float )    \
--  IMPLEMENT_EXPR_V_VVS(NAME, EXPR, float16 , float )
--#endif
++  IMPLEMENT_EXPR_V_VVS(NAME, EXPR, double16, double))
  #define IMPLEMENT_EXPR_V_VSS(NAME, EXPR, VTYPE, STYPE)  \
    VTYPE __attribute__ ((overloadable))                  \
@@ -569,26 +400,18 @@
      typedef STYPE stype;                                \
      return EXPR;                                        \
+   }
--#ifdef cl_khr_fp64
  #define DEFINE_EXPR_V_VSS(NAME, EXPR)                   \
    IMPLEMENT_EXPR_V_VSS(NAME, EXPR, float2  , float )    \
    IMPLEMENT_EXPR_V_VSS(NAME, EXPR, float3  , float )    \
    IMPLEMENT_EXPR_V_VSS(NAME, EXPR, float4  , float )    \
    IMPLEMENT_EXPR_V_VSS(NAME, EXPR, float8  , float )    \
    IMPLEMENT_EXPR_V_VSS(NAME, EXPR, float16 , float )    \
++  __IF_FP64(                                            \
    IMPLEMENT_EXPR_V_VSS(NAME, EXPR, double2 , double)    \
    IMPLEMENT_EXPR_V_VSS(NAME, EXPR, double3 , double)    \
    IMPLEMENT_EXPR_V_VSS(NAME, EXPR, double4 , double)    \
    IMPLEMENT_EXPR_V_VSS(NAME, EXPR, double8 , double)    \
--  IMPLEMENT_EXPR_V_VSS(NAME, EXPR, double16, double)
--#else
--#define DEFINE_EXPR_V_VSS(NAME, EXPR)                   \
--  IMPLEMENT_EXPR_V_VSS(NAME, EXPR, float2  , float )    \
--  IMPLEMENT_EXPR_V_VSS(NAME, EXPR, float3  , float )    \
--  IMPLEMENT_EXPR_V_VSS(NAME, EXPR, float4  , float )    \
--  IMPLEMENT_EXPR_V_VSS(NAME, EXPR, float8  , float )    \
--  IMPLEMENT_EXPR_V_VSS(NAME, EXPR, float16 , float )
--#endif
++  IMPLEMENT_EXPR_V_VSS(NAME, EXPR, double16, double))
  #define IMPLEMENT_EXPR_V_SSV(NAME, EXPR, VTYPE, STYPE)  \
    VTYPE __attribute__ ((overloadable))                  \
@@ -598,26 +421,18 @@
      typedef STYPE stype;                                \
      return EXPR;                                        \
+   }
--#ifdef cl_khr_fp64
  #define DEFINE_EXPR_V_SSV(NAME, EXPR)                   \
    IMPLEMENT_EXPR_V_SSV(NAME, EXPR, float2  , float )    \
    IMPLEMENT_EXPR_V_SSV(NAME, EXPR, float3  , float )    \
    IMPLEMENT_EXPR_V_SSV(NAME, EXPR, float4  , float )    \
    IMPLEMENT_EXPR_V_SSV(NAME, EXPR, float8  , float )    \
    IMPLEMENT_EXPR_V_SSV(NAME, EXPR, float16 , float )    \
++  __IF_FP64(                                            \
    IMPLEMENT_EXPR_V_SSV(NAME, EXPR, double2 , double)    \
    IMPLEMENT_EXPR_V_SSV(NAME, EXPR, double3 , double)    \
    IMPLEMENT_EXPR_V_SSV(NAME, EXPR, double4 , double)    \
    IMPLEMENT_EXPR_V_SSV(NAME, EXPR, double8 , double)    \
--  IMPLEMENT_EXPR_V_SSV(NAME, EXPR, double16, double)
--#else
--#define DEFINE_EXPR_V_SSV(NAME, EXPR)                   \
--  IMPLEMENT_EXPR_V_SSV(NAME, EXPR, float2  , float )    \
--  IMPLEMENT_EXPR_V_SSV(NAME, EXPR, float3  , float )    \
--  IMPLEMENT_EXPR_V_SSV(NAME, EXPR, float4  , float )    \
--  IMPLEMENT_EXPR_V_SSV(NAME, EXPR, float8  , float )    \
--  IMPLEMENT_EXPR_V_SSV(NAME, EXPR, float16 , float )
--#endif
++  IMPLEMENT_EXPR_V_SSV(NAME, EXPR, double16, double))
  #define IMPLEMENT_EXPR_V_VVJ(NAME, EXPR, VTYPE, STYPE, JTYPE)   \
    VTYPE __attribute__ ((overloadable))                          \
@@ -628,7 +443,6 @@
      typedef JTYPE jtype;                                        \
      return EXPR;                                                \
+   }
--#if defined(cl_khr_int64) && defined(cl_khr_fp64)
  #define DEFINE_EXPR_V_VVJ(NAME, EXPR)                           \
    IMPLEMENT_EXPR_V_VVJ(NAME, EXPR, float   , float , int   )    \
    IMPLEMENT_EXPR_V_VVJ(NAME, EXPR, float2  , float , int2  )    \
@@ -636,21 +450,13 @@
    IMPLEMENT_EXPR_V_VVJ(NAME, EXPR, float4  , float , int4  )    \
    IMPLEMENT_EXPR_V_VVJ(NAME, EXPR, float8  , float , int8  )    \
    IMPLEMENT_EXPR_V_VVJ(NAME, EXPR, float16 , float , int16 )    \
++  __IF_INT64(__IF_FP64(                                         \
    IMPLEMENT_EXPR_V_VVJ(NAME, EXPR, double  , double, long  )    \
    IMPLEMENT_EXPR_V_VVJ(NAME, EXPR, double2 , double, long2 )    \
    IMPLEMENT_EXPR_V_VVJ(NAME, EXPR, double3 , double, long3 )    \
    IMPLEMENT_EXPR_V_VVJ(NAME, EXPR, double4 , double, long4 )    \
    IMPLEMENT_EXPR_V_VVJ(NAME, EXPR, double8 , double, long8 )    \
--  IMPLEMENT_EXPR_V_VVJ(NAME, EXPR, double16, double, long16)
--#else
--#define DEFINE_EXPR_V_VVJ(NAME, EXPR)                           \
--  IMPLEMENT_EXPR_V_VVJ(NAME, EXPR, float   , float , int   )    \
--  IMPLEMENT_EXPR_V_VVJ(NAME, EXPR, float2  , float , int2  )    \
--  IMPLEMENT_EXPR_V_VVJ(NAME, EXPR, float3  , float , int3  )    \
--  IMPLEMENT_EXPR_V_VVJ(NAME, EXPR, float4  , float , int4  )    \
--  IMPLEMENT_EXPR_V_VVJ(NAME, EXPR, float8  , float , int8  )    \
--  IMPLEMENT_EXPR_V_VVJ(NAME, EXPR, float16 , float , int16 )
--#endif
++  IMPLEMENT_EXPR_V_VVJ(NAME, EXPR, double16, double, long16)))
  #define IMPLEMENT_EXPR_V_U(NAME, EXPR, VTYPE, STYPE, UTYPE)     \
    VTYPE __attribute__ ((overloadable))                          \
@@ -661,7 +467,6 @@
      typedef UTYPE utype;                                        \
      return EXPR;                                                \
+   }
--#if defined(cl_khr_int64) && defined(cl_khr_fp64)
  #define DEFINE_EXPR_V_U(NAME, EXPR)                             \
    IMPLEMENT_EXPR_V_U(NAME, EXPR, float   , float , uint   )     \
    IMPLEMENT_EXPR_V_U(NAME, EXPR, float2  , float , uint2  )     \
@@ -669,21 +474,13 @@
    IMPLEMENT_EXPR_V_U(NAME, EXPR, float4  , float , uint4  )     \
    IMPLEMENT_EXPR_V_U(NAME, EXPR, float8  , float , uint8  )     \
    IMPLEMENT_EXPR_V_U(NAME, EXPR, float16 , float , uint16 )     \
++  __IF_INT64(__IF_FP64(                                         \
    IMPLEMENT_EXPR_V_U(NAME, EXPR, double  , double, ulong  )     \
    IMPLEMENT_EXPR_V_U(NAME, EXPR, double2 , double, ulong2 )     \
    IMPLEMENT_EXPR_V_U(NAME, EXPR, double3 , double, ulong3 )     \
    IMPLEMENT_EXPR_V_U(NAME, EXPR, double4 , double, ulong4 )     \
    IMPLEMENT_EXPR_V_U(NAME, EXPR, double8 , double, ulong8 )     \
--  IMPLEMENT_EXPR_V_U(NAME, EXPR, double16, double, ulong16)
--#else
--#define DEFINE_EXPR_V_U(NAME, EXPR)                             \
--  IMPLEMENT_EXPR_V_U(NAME, EXPR, float   , float , uint   )     \
--  IMPLEMENT_EXPR_V_U(NAME, EXPR, float2  , float , uint2  )     \
--  IMPLEMENT_EXPR_V_U(NAME, EXPR, float3  , float , uint3  )     \
--  IMPLEMENT_EXPR_V_U(NAME, EXPR, float4  , float , uint4  )     \
--  IMPLEMENT_EXPR_V_U(NAME, EXPR, float8  , float , uint8  )     \
--  IMPLEMENT_EXPR_V_U(NAME, EXPR, float16 , float , uint16 )
--#endif
++  IMPLEMENT_EXPR_V_U(NAME, EXPR, double16, double, ulong16)))
  #define IMPLEMENT_EXPR_V_VS(NAME, EXPR, VTYPE, STYPE)   \
    VTYPE __attribute__ ((overloadable))                  \
@@ -693,26 +490,18 @@
      typedef STYPE stype;                                \
      return EXPR;                                        \
+   }
--#ifdef cl_khr_fp64
  #define DEFINE_EXPR_V_VS(NAME, EXPR)                    \
    IMPLEMENT_EXPR_V_VS(NAME, EXPR, float2  , float )     \
    IMPLEMENT_EXPR_V_VS(NAME, EXPR, float3  , float )     \
    IMPLEMENT_EXPR_V_VS(NAME, EXPR, float4  , float )     \
    IMPLEMENT_EXPR_V_VS(NAME, EXPR, float8  , float )     \
    IMPLEMENT_EXPR_V_VS(NAME, EXPR, float16 , float )     \
++  __IF_FP64(                                            \
    IMPLEMENT_EXPR_V_VS(NAME, EXPR, double2 , double)     \
    IMPLEMENT_EXPR_V_VS(NAME, EXPR, double3 , double)     \
    IMPLEMENT_EXPR_V_VS(NAME, EXPR, double4 , double)     \
    IMPLEMENT_EXPR_V_VS(NAME, EXPR, double8 , double)     \
--  IMPLEMENT_EXPR_V_VS(NAME, EXPR, double16, double)
--#else
--#define DEFINE_EXPR_V_VS(NAME, EXPR)                    \
--  IMPLEMENT_EXPR_V_VS(NAME, EXPR, float2  , float )     \
--  IMPLEMENT_EXPR_V_VS(NAME, EXPR, float3  , float )     \
--  IMPLEMENT_EXPR_V_VS(NAME, EXPR, float4  , float )     \
--  IMPLEMENT_EXPR_V_VS(NAME, EXPR, float8  , float )     \
--  IMPLEMENT_EXPR_V_VS(NAME, EXPR, float16 , float )
--#endif
++  IMPLEMENT_EXPR_V_VS(NAME, EXPR, double16, double))
  #define IMPLEMENT_EXPR_V_VJ(NAME, EXPR, VTYPE, STYPE, JTYPE)    \
    VTYPE __attribute__ ((overloadable))                          \
@@ -723,7 +512,6 @@
      typedef JTYPE jtype;                                        \
      return EXPR;                                                \
+   }
--#ifdef cl_khr_fp64
  #define DEFINE_EXPR_V_VJ(NAME, EXPR)                            \
    IMPLEMENT_EXPR_V_VJ(NAME, EXPR, float   , float , int  )      \
    IMPLEMENT_EXPR_V_VJ(NAME, EXPR, float2  , float , int2 )      \
@@ -731,21 +519,13 @@
    IMPLEMENT_EXPR_V_VJ(NAME, EXPR, float4  , float , int4 )      \
    IMPLEMENT_EXPR_V_VJ(NAME, EXPR, float8  , float , int8 )      \
    IMPLEMENT_EXPR_V_VJ(NAME, EXPR, float16 , float , int16)      \
++  __IF_FP64(                                                    \
    IMPLEMENT_EXPR_V_VJ(NAME, EXPR, double  , double, int  )      \
    IMPLEMENT_EXPR_V_VJ(NAME, EXPR, double2 , double, int2 )      \
    IMPLEMENT_EXPR_V_VJ(NAME, EXPR, double3 , double, int3 )      \
    IMPLEMENT_EXPR_V_VJ(NAME, EXPR, double4 , double, int4 )      \
    IMPLEMENT_EXPR_V_VJ(NAME, EXPR, double8 , double, int8 )      \
--  IMPLEMENT_EXPR_V_VJ(NAME, EXPR, double16, double, int16)
--#else
--#define DEFINE_EXPR_V_VJ(NAME, EXPR)                            \
--  IMPLEMENT_EXPR_V_VJ(NAME, EXPR, float   , float , int  )      \
--  IMPLEMENT_EXPR_V_VJ(NAME, EXPR, float2  , float , int2 )      \
--  IMPLEMENT_EXPR_V_VJ(NAME, EXPR, float3  , float , int3 )      \
--  IMPLEMENT_EXPR_V_VJ(NAME, EXPR, float4  , float , int4 )      \
--  IMPLEMENT_EXPR_V_VJ(NAME, EXPR, float8  , float , int8 )      \
--  IMPLEMENT_EXPR_V_VJ(NAME, EXPR, float16 , float , int16)
--#endif
++  IMPLEMENT_EXPR_V_VJ(NAME, EXPR, double16, double, int16))
  #define IMPLEMENT_EXPR_V_VI(NAME, EXPR, VTYPE, STYPE, ITYPE)    \
    VTYPE __attribute__ ((overloadable))                          \
@@ -756,26 +536,18 @@
      typedef ITYPE itype;                                        \
      return EXPR;                                                \
+   }
--#ifdef cl_khr_fp64
  #define DEFINE_EXPR_V_VI(NAME, EXPR)                            \
    IMPLEMENT_EXPR_V_VI(NAME, EXPR, float2  , float , int)        \
    IMPLEMENT_EXPR_V_VI(NAME, EXPR, float3  , float , int)        \
    IMPLEMENT_EXPR_V_VI(NAME, EXPR, float4  , float , int)        \
    IMPLEMENT_EXPR_V_VI(NAME, EXPR, float8  , float , int)        \
    IMPLEMENT_EXPR_V_VI(NAME, EXPR, float16 , float , int)        \
--  IMPLEMENT_EXPR_V_VI(NAME, EXPR, double2 , double , int)       \
++  __IF_FP64(                                                    \
++  IMPLEMENT_EXPR_V_VI(NAME, EXPR, double2 , double, int)        \
    IMPLEMENT_EXPR_V_VI(NAME, EXPR, double3 , double, int)        \
    IMPLEMENT_EXPR_V_VI(NAME, EXPR, double4 , double, int)        \
    IMPLEMENT_EXPR_V_VI(NAME, EXPR, double8 , double, int)        \
--  IMPLEMENT_EXPR_V_VI(NAME, EXPR, double16, double, int)
--#else
--#define DEFINE_EXPR_V_VI(NAME, EXPR)                            \
--  IMPLEMENT_EXPR_V_VI(NAME, EXPR, float2  , float , int)        \
--  IMPLEMENT_EXPR_V_VI(NAME, EXPR, float3  , float , int)        \
--  IMPLEMENT_EXPR_V_VI(NAME, EXPR, float4  , float , int)        \
--  IMPLEMENT_EXPR_V_VI(NAME, EXPR, float8  , float , int)        \
--  IMPLEMENT_EXPR_V_VI(NAME, EXPR, float16 , float , int)
--#endif
++  IMPLEMENT_EXPR_V_VI(NAME, EXPR, double16, double, int))
  #define IMPLEMENT_EXPR_V_VPV(NAME, EXPR, VTYPE, STYPE)  \
    VTYPE __attribute__ ((overloadable))                  \
@@ -801,7 +573,6 @@
      return EXPR;                                        \
      }                                                   \
    */
--#ifdef cl_khr_fp64
  #define DEFINE_EXPR_V_VPV(NAME, EXPR)                   \
    IMPLEMENT_EXPR_V_VPV(NAME, EXPR, float   , float )    \
    IMPLEMENT_EXPR_V_VPV(NAME, EXPR, float2  , float )    \
@@ -809,21 +580,13 @@
    IMPLEMENT_EXPR_V_VPV(NAME, EXPR, float4  , float )    \
    IMPLEMENT_EXPR_V_VPV(NAME, EXPR, float8  , float )    \
    IMPLEMENT_EXPR_V_VPV(NAME, EXPR, float16 , float )    \
++  __IF_FP64(                                            \
    IMPLEMENT_EXPR_V_VPV(NAME, EXPR, double  , double)    \
    IMPLEMENT_EXPR_V_VPV(NAME, EXPR, double2 , double)    \
    IMPLEMENT_EXPR_V_VPV(NAME, EXPR, double3 , double)    \
    IMPLEMENT_EXPR_V_VPV(NAME, EXPR, double4 , double)    \
    IMPLEMENT_EXPR_V_VPV(NAME, EXPR, double8 , double)    \
--  IMPLEMENT_EXPR_V_VPV(NAME, EXPR, double16, double)
--#else
--#define DEFINE_EXPR_V_VPV(NAME, EXPR)                   \
--  IMPLEMENT_EXPR_V_VPV(NAME, EXPR, float   , float )    \
--  IMPLEMENT_EXPR_V_VPV(NAME, EXPR, float2  , float )    \
--  IMPLEMENT_EXPR_V_VPV(NAME, EXPR, float3  , float )    \
--  IMPLEMENT_EXPR_V_VPV(NAME, EXPR, float4  , float )    \
--  IMPLEMENT_EXPR_V_VPV(NAME, EXPR, float8  , float )    \
--  IMPLEMENT_EXPR_V_VPV(NAME, EXPR, float16 , float )
--#endif
++  IMPLEMENT_EXPR_V_VPV(NAME, EXPR, double16, double))
  #define IMPLEMENT_EXPR_V_SV(NAME, EXPR, VTYPE, STYPE)   \
    VTYPE __attribute__ ((overloadable))                  \
@@ -833,26 +596,19 @@
      typedef STYPE stype;                                \
      return EXPR;                                        \
+   }
--#ifdef cl_khr_fp64
  #define DEFINE_EXPR_V_SV(NAME, EXPR)                    \
    IMPLEMENT_EXPR_V_SV(NAME, EXPR, float2  , float )     \
    IMPLEMENT_EXPR_V_SV(NAME, EXPR, float3  , float )     \
    IMPLEMENT_EXPR_V_SV(NAME, EXPR, float4  , float )     \
    IMPLEMENT_EXPR_V_SV(NAME, EXPR, float8  , float )     \
    IMPLEMENT_EXPR_V_SV(NAME, EXPR, float16 , float )     \
++  __IF_FP64(                                            \
    IMPLEMENT_EXPR_V_SV(NAME, EXPR, double2 , double)     \
    IMPLEMENT_EXPR_V_SV(NAME, EXPR, double3 , double)     \
    IMPLEMENT_EXPR_V_SV(NAME, EXPR, double4 , double)     \
    IMPLEMENT_EXPR_V_SV(NAME, EXPR, double8 , double)     \
--  IMPLEMENT_EXPR_V_SV(NAME, EXPR, double16, double)
--#else
--#define DEFINE_EXPR_V_SV(NAME, EXPR)                    \
--  IMPLEMENT_EXPR_V_SV(NAME, EXPR, float2  , float )     \
--  IMPLEMENT_EXPR_V_SV(NAME, EXPR, float3  , float )     \
--  IMPLEMENT_EXPR_V_SV(NAME, EXPR, float4  , float )     \
--  IMPLEMENT_EXPR_V_SV(NAME, EXPR, float8  , float )     \
--  IMPLEMENT_EXPR_V_SV(NAME, EXPR, float16 , float )
--#endif
++  IMPLEMENT_EXPR_V_SV(NAME, EXPR, double16, double))
++
  #define IMPLEMENT_BUILTIN_G_G(NAME, GTYPE, UGTYPE, LO, HI)      \
@@ -861,7 +617,6 @@
    {                                                             \
      return (GTYPE)(NAME(a.LO), NAME(a.HI));                     \
+   }
--#ifdef cl_khr_int64
  #define DEFINE_BUILTIN_G_G(NAME)                                \
    char __attribute__ ((overloadable))                           \
    NAME(char a)                                                  \
@@ -893,6 +648,7 @@
    {                                                             \
      return __builtin_##NAME##u(a);                              \
    }                                                             \
++  __IF_INT64(                                                   \
    long __attribute__ ((overloadable))                           \
    NAME(long a)                                                  \
    {                                                             \
@@ -902,7 +658,7 @@
    NAME(ulong a)                                                 \
    {                                                             \
      return __builtin_##NAME##ul(a);                             \
--  }                                                             \
++  })                                                            \
    IMPLEMENT_BUILTIN_G_G(NAME, char2   , uchar2  , lo, hi)       \
    IMPLEMENT_BUILTIN_G_G(NAME, char3   , uchar3  , lo, s2)       \
    IMPLEMENT_BUILTIN_G_G(NAME, char4   , uchar4  , lo, hi)       \
@@ -933,6 +689,7 @@
    IMPLEMENT_BUILTIN_G_G(NAME, uint4   , uint4   , lo, hi)       \
    IMPLEMENT_BUILTIN_G_G(NAME, uint8   , uint8   , lo, hi)       \
    IMPLEMENT_BUILTIN_G_G(NAME, uint16  , uint16  , lo, hi)       \
++  __IF_INT64(                                                   \
    IMPLEMENT_BUILTIN_G_G(NAME, long2   , ulong2  , lo, hi)       \
    IMPLEMENT_BUILTIN_G_G(NAME, long3   , ulong3  , lo, s2)       \
    IMPLEMENT_BUILTIN_G_G(NAME, long4   , ulong4  , lo, hi)       \
@@ -942,70 +699,7 @@
    IMPLEMENT_BUILTIN_G_G(NAME, ulong3  , ulong3  , lo, s2)       \
    IMPLEMENT_BUILTIN_G_G(NAME, ulong4  , ulong4  , lo, hi)       \
    IMPLEMENT_BUILTIN_G_G(NAME, ulong8  , ulong8  , lo, hi)       \
--  IMPLEMENT_BUILTIN_G_G(NAME, ulong16 , ulong16 , lo, hi)
--#else
--#define DEFINE_BUILTIN_G_G(NAME)                                \
--  char __attribute__ ((overloadable))                           \
--  NAME(char a)                                                  \
--  {                                                             \
--    return __builtin_##NAME##hh(a);                             \
--  }                                                             \
--  uchar __attribute__ ((overloadable))                          \
--  NAME(uchar a)                                                 \
--  {                                                             \
--    return __builtin_##NAME##uhh(a);                            \
--  }                                                             \
--  short __attribute__ ((overloadable))                          \
--  NAME(short a)                                                 \
--  {                                                             \
--    return __builtin_##NAME##h(a);                              \
--  }                                                             \
--  ushort __attribute__ ((overloadable))                         \
--  NAME(ushort a)                                                \
--  {                                                             \
--    return __builtin_##NAME##uh(a);                             \
--  }                                                             \
--  int __attribute__ ((overloadable))                            \
--  NAME(int a)                                                   \
--  {                                                             \
--    return __builtin_##NAME(a);                                 \
--  }                                                             \
--  uint __attribute__ ((overloadable))                           \
--  NAME(uint a)                                                  \
--  {                                                             \
--    return __builtin_##NAME##u(a);                              \
--  }                                                             \
--  IMPLEMENT_BUILTIN_G_G(NAME, char2   , uchar2  , lo, hi)       \
--  IMPLEMENT_BUILTIN_G_G(NAME, char3   , uchar3  , lo, s2)       \
--  IMPLEMENT_BUILTIN_G_G(NAME, char4   , uchar4  , lo, hi)       \
--  IMPLEMENT_BUILTIN_G_G(NAME, char8   , uchar8  , lo, hi)       \
--  IMPLEMENT_BUILTIN_G_G(NAME, char16  , uchar16 , lo, hi)       \
--  IMPLEMENT_BUILTIN_G_G(NAME, uchar2  , uchar2  , lo, hi)       \
--  IMPLEMENT_BUILTIN_G_G(NAME, uchar3  , uchar3  , lo, s2)       \
--  IMPLEMENT_BUILTIN_G_G(NAME, uchar4  , uchar4  , lo, hi)       \
--  IMPLEMENT_BUILTIN_G_G(NAME, uchar8  , uchar8  , lo, hi)       \
--  IMPLEMENT_BUILTIN_G_G(NAME, uchar16 , uchar16 , lo, hi)       \
--  IMPLEMENT_BUILTIN_G_G(NAME, short2  , ushort2 , lo, hi)       \
--  IMPLEMENT_BUILTIN_G_G(NAME, short3  , ushort3 , lo, s2)       \
--  IMPLEMENT_BUILTIN_G_G(NAME, short4  , ushort4 , lo, hi)       \
--  IMPLEMENT_BUILTIN_G_G(NAME, short8  , ushort8 , lo, hi)       \
--  IMPLEMENT_BUILTIN_G_G(NAME, short16 , ushort16, lo, hi)       \
--  IMPLEMENT_BUILTIN_G_G(NAME, ushort2 , ushort2 , lo, hi)       \
--  IMPLEMENT_BUILTIN_G_G(NAME, ushort3 , ushort3 , lo, s2)       \
--  IMPLEMENT_BUILTIN_G_G(NAME, ushort4 , ushort4 , lo, hi)       \
--  IMPLEMENT_BUILTIN_G_G(NAME, ushort8 , ushort8 , lo, hi)       \
--  IMPLEMENT_BUILTIN_G_G(NAME, ushort16, ushort16, lo, hi)       \
--  IMPLEMENT_BUILTIN_G_G(NAME, int2    , uint2   , lo, hi)       \
--  IMPLEMENT_BUILTIN_G_G(NAME, int3    , uint3   , lo, s2)       \
--  IMPLEMENT_BUILTIN_G_G(NAME, int4    , uint4   , lo, hi)       \
--  IMPLEMENT_BUILTIN_G_G(NAME, int8    , uint8   , lo, hi)       \
--  IMPLEMENT_BUILTIN_G_G(NAME, int16   , uint16  , lo, hi)       \
--  IMPLEMENT_BUILTIN_G_G(NAME, uint2   , uint2   , lo, hi)       \
--  IMPLEMENT_BUILTIN_G_G(NAME, uint3   , uint3   , lo, s2)       \
--  IMPLEMENT_BUILTIN_G_G(NAME, uint4   , uint4   , lo, hi)       \
--  IMPLEMENT_BUILTIN_G_G(NAME, uint8   , uint8   , lo, hi)       \
--  IMPLEMENT_BUILTIN_G_G(NAME, uint16  , uint16  , lo, hi)
--#endif
++  IMPLEMENT_BUILTIN_G_G(NAME, ulong16 , ulong16 , lo, hi))
  #define IMPLEMENT_BUILTIN_UG_G(NAME, GTYPE, UGTYPE, LO, HI)     \
    UGTYPE __attribute__ ((overloadable))                         \
@@ -1013,7 +707,6 @@
    {                                                             \
      return (UGTYPE)(NAME(a.LO), NAME(a.HI));                    \
+   }
--#ifdef cl_khr_int64
  #define DEFINE_BUILTIN_UG_G(NAME)                               \
    uchar __attribute__ ((overloadable))                          \
    NAME(char a)                                                  \
@@ -1045,6 +738,7 @@
    {                                                             \
      return __builtin_##NAME##u(a);                              \
    }                                                             \
++  __IF_INT64(                                                   \
    ulong __attribute__ ((overloadable))                          \
    NAME(long a)                                                  \
    {                                                             \
@@ -1054,7 +748,7 @@
    NAME(ulong a)                                                 \
    {                                                             \
      return __builtin_##NAME##ul(a);                             \
--  }                                                             \
++  })                                                            \
    IMPLEMENT_BUILTIN_UG_G(NAME, char2   , uchar2  , lo, hi)      \
    IMPLEMENT_BUILTIN_UG_G(NAME, char3   , uchar3  , lo, s2)      \
    IMPLEMENT_BUILTIN_UG_G(NAME, char4   , uchar4  , lo, hi)      \
@@ -1085,6 +779,7 @@
    IMPLEMENT_BUILTIN_UG_G(NAME, uint4   , uint4   , lo, hi)      \
    IMPLEMENT_BUILTIN_UG_G(NAME, uint8   , uint8   , lo, hi)      \
    IMPLEMENT_BUILTIN_UG_G(NAME, uint16  , uint16  , lo, hi)      \
++  __IF_INT64(                                                   \
    IMPLEMENT_BUILTIN_UG_G(NAME, long2   , ulong2  , lo, hi)      \
    IMPLEMENT_BUILTIN_UG_G(NAME, long3   , ulong3  , lo, s2)      \
    IMPLEMENT_BUILTIN_UG_G(NAME, long4   , ulong4  , lo, hi)      \
@@ -1094,70 +789,7 @@
    IMPLEMENT_BUILTIN_UG_G(NAME, ulong3  , ulong3  , lo, s2)      \
    IMPLEMENT_BUILTIN_UG_G(NAME, ulong4  , ulong4  , lo, hi)      \
    IMPLEMENT_BUILTIN_UG_G(NAME, ulong8  , ulong8  , lo, hi)      \
--  IMPLEMENT_BUILTIN_UG_G(NAME, ulong16 , ulong16 , lo, hi)
--#else
--#define DEFINE_BUILTIN_UG_G(NAME)                               \
--  uchar __attribute__ ((overloadable))                          \
--  NAME(char a)                                                  \
--  {                                                             \
--    return __builtin_##NAME##h(a);                              \
--  }                                                             \
--  uchar __attribute__ ((overloadable))                          \
--  NAME(uchar a)                                                 \
--  {                                                             \
--    return __builtin_##NAME##uhh(a);                            \
--  }                                                             \
--  ushort __attribute__ ((overloadable))                         \
--  NAME(short a)                                                 \
--  {                                                             \
--    return __builtin_##NAME##h(a);                              \
--  }                                                             \
--  ushort __attribute__ ((overloadable))                         \
--  NAME(ushort a)                                                \
--  {                                                             \
--    return __builtin_##NAME##uh(a);                             \
--  }                                                             \
--  uint __attribute__ ((overloadable))                           \
--  NAME(int a)                                                   \
--  {                                                             \
--    return __builtin_##NAME(a);                                 \
--  }                                                             \
--  uint __attribute__ ((overloadable))                           \
--  NAME(uint a)                                                  \
--  {                                                             \
--    return __builtin_##NAME##u(a);                              \
--  }                                                             \
--  IMPLEMENT_BUILTIN_UG_G(NAME, char2   , uchar2  , lo, hi)      \
--  IMPLEMENT_BUILTIN_UG_G(NAME, char3   , uchar3  , lo, s2)      \
--  IMPLEMENT_BUILTIN_UG_G(NAME, char4   , uchar4  , lo, hi)      \
--  IMPLEMENT_BUILTIN_UG_G(NAME, char8   , uchar8  , lo, hi)      \
--  IMPLEMENT_BUILTIN_UG_G(NAME, char16  , uchar16 , lo, hi)      \
--  IMPLEMENT_BUILTIN_UG_G(NAME, uchar2  , uchar2  , lo, hi)      \
--  IMPLEMENT_BUILTIN_UG_G(NAME, uchar3  , uchar3  , lo, s2)      \
--  IMPLEMENT_BUILTIN_UG_G(NAME, uchar4  , uchar4  , lo, hi)      \
--  IMPLEMENT_BUILTIN_UG_G(NAME, uchar8  , uchar8  , lo, hi)      \
--  IMPLEMENT_BUILTIN_UG_G(NAME, uchar16 , uchar16 , lo, hi)      \
--  IMPLEMENT_BUILTIN_UG_G(NAME, short2  , ushort2 , lo, hi)      \
--  IMPLEMENT_BUILTIN_UG_G(NAME, short3  , ushort3 , lo, s2)      \
--  IMPLEMENT_BUILTIN_UG_G(NAME, short4  , ushort4 , lo, hi)      \
--  IMPLEMENT_BUILTIN_UG_G(NAME, short8  , ushort8 , lo, hi)      \
--  IMPLEMENT_BUILTIN_UG_G(NAME, short16 , ushort16, lo, hi)      \
--  IMPLEMENT_BUILTIN_UG_G(NAME, ushort2 , ushort2 , lo, hi)      \
--  IMPLEMENT_BUILTIN_UG_G(NAME, ushort3 , ushort3 , lo, s2)      \
--  IMPLEMENT_BUILTIN_UG_G(NAME, ushort4 , ushort4 , lo, hi)      \
--  IMPLEMENT_BUILTIN_UG_G(NAME, ushort8 , ushort8 , lo, hi)      \
--  IMPLEMENT_BUILTIN_UG_G(NAME, ushort16, ushort16, lo, hi)      \
--  IMPLEMENT_BUILTIN_UG_G(NAME, int2    , uint2   , lo, hi)      \
--  IMPLEMENT_BUILTIN_UG_G(NAME, int3    , uint3   , lo, s2)      \
--  IMPLEMENT_BUILTIN_UG_G(NAME, int4    , uint4   , lo, hi)      \
--  IMPLEMENT_BUILTIN_UG_G(NAME, int8    , uint8   , lo, hi)      \
--  IMPLEMENT_BUILTIN_UG_G(NAME, int16   , uint16  , lo, hi)      \
--  IMPLEMENT_BUILTIN_UG_G(NAME, uint2   , uint2   , lo, hi)      \
--  IMPLEMENT_BUILTIN_UG_G(NAME, uint3   , uint3   , lo, s2)      \
--  IMPLEMENT_BUILTIN_UG_G(NAME, uint4   , uint4   , lo, hi)      \
--  IMPLEMENT_BUILTIN_UG_G(NAME, uint8   , uint8   , lo, hi)      \
--  IMPLEMENT_BUILTIN_UG_G(NAME, uint16  , uint16  , lo, hi)
--#endif
++  IMPLEMENT_BUILTIN_UG_G(NAME, ulong16 , ulong16 , lo, hi))
  #define IMPLEMENT_EXPR_G_G(NAME, EXPR, GTYPE, SGTYPE, UGTYPE, SUGTYPE)  \
    GTYPE __attribute__ ((overloadable))                                  \
@@ -1169,7 +801,6 @@
      typedef SUGTYPE sugtype;                                            \
      return EXPR;                                                        \
+   }
--#ifdef cl_khr_int64
  #define DEFINE_EXPR_G_G(NAME, EXPR)                                     \
    IMPLEMENT_EXPR_G_G(NAME, EXPR, char    , char  , uchar   , uchar )    \
    IMPLEMENT_EXPR_G_G(NAME, EXPR, char2   , char  , uchar2  , uchar )    \
@@ -1207,6 +838,7 @@
    IMPLEMENT_EXPR_G_G(NAME, EXPR, uint4   , uint  , uint4   , uint  )    \
    IMPLEMENT_EXPR_G_G(NAME, EXPR, uint8   , uint  , uint8   , uint  )    \
    IMPLEMENT_EXPR_G_G(NAME, EXPR, uint16  , uint  , uint16  , uint  )    \
++  __IF_INT64(                                                           \
    IMPLEMENT_EXPR_G_G(NAME, EXPR, long    , long  , ulong   , ulong )    \
    IMPLEMENT_EXPR_G_G(NAME, EXPR, long2   , long  , ulong2  , ulong )    \
    IMPLEMENT_EXPR_G_G(NAME, EXPR, long3   , long  , ulong3  , ulong )    \
@@ -1218,46 +850,7 @@
    IMPLEMENT_EXPR_G_G(NAME, EXPR, ulong3  , ulong , ulong3  , ulong )    \
    IMPLEMENT_EXPR_G_G(NAME, EXPR, ulong4  , ulong , ulong4  , ulong )    \
    IMPLEMENT_EXPR_G_G(NAME, EXPR, ulong8  , ulong , ulong8  , ulong )    \
--  IMPLEMENT_EXPR_G_G(NAME, EXPR, ulong16 , ulong , ulong16 , ulong )
--#else
--#define DEFINE_EXPR_G_G(NAME, EXPR)                                     \
--  IMPLEMENT_EXPR_G_G(NAME, EXPR, char    , char  , uchar   , uchar )    \
--  IMPLEMENT_EXPR_G_G(NAME, EXPR, char2   , char  , uchar2  , uchar )    \
--  IMPLEMENT_EXPR_G_G(NAME, EXPR, char3   , char  , uchar3  , uchar )    \
--  IMPLEMENT_EXPR_G_G(NAME, EXPR, char4   , char  , uchar4  , uchar )    \
--  IMPLEMENT_EXPR_G_G(NAME, EXPR, char8   , char  , uchar8  , uchar )    \
--  IMPLEMENT_EXPR_G_G(NAME, EXPR, char16  , char  , uchar16 , uchar )    \
--  IMPLEMENT_EXPR_G_G(NAME, EXPR, uchar   , uchar , uchar   , uchar )    \
--  IMPLEMENT_EXPR_G_G(NAME, EXPR, uchar2  , uchar , uchar2  , uchar )    \
--  IMPLEMENT_EXPR_G_G(NAME, EXPR, uchar3  , uchar , uchar3  , uchar )    \
--  IMPLEMENT_EXPR_G_G(NAME, EXPR, uchar4  , uchar , uchar4  , uchar )    \
--  IMPLEMENT_EXPR_G_G(NAME, EXPR, uchar8  , uchar , uchar8  , uchar )    \
--  IMPLEMENT_EXPR_G_G(NAME, EXPR, uchar16 , uchar , uchar16 , uchar )    \
--  IMPLEMENT_EXPR_G_G(NAME, EXPR, short   , short , ushort  , ushort)    \
--  IMPLEMENT_EXPR_G_G(NAME, EXPR, short2  , short , ushort2 , ushort)    \
--  IMPLEMENT_EXPR_G_G(NAME, EXPR, short3  , short , ushort3 , ushort)    \
--  IMPLEMENT_EXPR_G_G(NAME, EXPR, short4  , short , ushort4 , ushort)    \
--  IMPLEMENT_EXPR_G_G(NAME, EXPR, short8  , short , ushort8 , ushort)    \
--  IMPLEMENT_EXPR_G_G(NAME, EXPR, short16 , short , ushort16, ushort)    \
--  IMPLEMENT_EXPR_G_G(NAME, EXPR, ushort  , ushort, ushort  , ushort)    \
--  IMPLEMENT_EXPR_G_G(NAME, EXPR, ushort2 , ushort, ushort2 , ushort)    \
--  IMPLEMENT_EXPR_G_G(NAME, EXPR, ushort3 , ushort, ushort3 , ushort)    \
--  IMPLEMENT_EXPR_G_G(NAME, EXPR, ushort4 , ushort, ushort4 , ushort)    \
--  IMPLEMENT_EXPR_G_G(NAME, EXPR, ushort8 , ushort, ushort8 , ushort)    \
--  IMPLEMENT_EXPR_G_G(NAME, EXPR, ushort16, ushort, ushort16, ushort)    \
--  IMPLEMENT_EXPR_G_G(NAME, EXPR, int     , int   , uint    , uint  )    \
--  IMPLEMENT_EXPR_G_G(NAME, EXPR, int2    , int   , uint2   , uint  )    \
--  IMPLEMENT_EXPR_G_G(NAME, EXPR, int3    , int   , uint3   , uint  )    \
--  IMPLEMENT_EXPR_G_G(NAME, EXPR, int4    , int   , uint4   , uint  )    \
--  IMPLEMENT_EXPR_G_G(NAME, EXPR, int8    , int   , uint8   , uint  )    \
--  IMPLEMENT_EXPR_G_G(NAME, EXPR, int16   , int   , uint16  , uint  )    \
--  IMPLEMENT_EXPR_G_G(NAME, EXPR, uint    , uint  , uint    , uint  )    \
--  IMPLEMENT_EXPR_G_G(NAME, EXPR, uint2   , uint  , uint2   , uint  )    \
--  IMPLEMENT_EXPR_G_G(NAME, EXPR, uint3   , uint  , uint3   , uint  )    \
--  IMPLEMENT_EXPR_G_G(NAME, EXPR, uint4   , uint  , uint4   , uint  )    \
--  IMPLEMENT_EXPR_G_G(NAME, EXPR, uint8   , uint  , uint8   , uint  )    \
--  IMPLEMENT_EXPR_G_G(NAME, EXPR, uint16  , uint  , uint16  , uint  )
--#endif
++  IMPLEMENT_EXPR_G_G(NAME, EXPR, ulong16 , ulong , ulong16 , ulong ))
  #define IMPLEMENT_EXPR_UG_G(NAME, EXPR, GTYPE, SGTYPE, UGTYPE, SUGTYPE) \
    UGTYPE __attribute__ ((overloadable))                                 \
@@ -1269,7 +862,6 @@
      typedef SUGTYPE sugtype;                                            \
      return EXPR;                                                        \
+   }
--#ifdef cl_khr_int64
  #define DEFINE_EXPR_UG_G(NAME, EXPR)                                    \
    IMPLEMENT_EXPR_UG_G(NAME, EXPR, char    , char  , uchar   , uchar )   \
    IMPLEMENT_EXPR_UG_G(NAME, EXPR, char2   , char  , uchar2  , uchar )   \
@@ -1307,6 +899,7 @@
    IMPLEMENT_EXPR_UG_G(NAME, EXPR, uint4   , uint  , uint4   , uint  )   \
    IMPLEMENT_EXPR_UG_G(NAME, EXPR, uint8   , uint  , uint8   , uint  )   \
    IMPLEMENT_EXPR_UG_G(NAME, EXPR, uint16  , uint  , uint16  , uint  )   \
++  __IF_INT64(                                                           \
    IMPLEMENT_EXPR_UG_G(NAME, EXPR, long    , long  , ulong   , ulong )   \
    IMPLEMENT_EXPR_UG_G(NAME, EXPR, long2   , long  , ulong2  , ulong )   \
    IMPLEMENT_EXPR_UG_G(NAME, EXPR, long3   , long  , ulong3  , ulong )   \
@@ -1318,46 +911,7 @@
    IMPLEMENT_EXPR_UG_G(NAME, EXPR, ulong3  , ulong , ulong3  , ulong )   \
    IMPLEMENT_EXPR_UG_G(NAME, EXPR, ulong4  , ulong , ulong4  , ulong )   \
    IMPLEMENT_EXPR_UG_G(NAME, EXPR, ulong8  , ulong , ulong8  , ulong )   \
--  IMPLEMENT_EXPR_UG_G(NAME, EXPR, ulong16 , ulong , ulong16 , ulong )
--#else
--#define DEFINE_EXPR_UG_G(NAME, EXPR)                                    \
--  IMPLEMENT_EXPR_UG_G(NAME, EXPR, char    , char  , uchar   , uchar )   \
--  IMPLEMENT_EXPR_UG_G(NAME, EXPR, char2   , char  , uchar2  , uchar )   \
--  IMPLEMENT_EXPR_UG_G(NAME, EXPR, char3   , char  , uchar3  , uchar )   \
--  IMPLEMENT_EXPR_UG_G(NAME, EXPR, char4   , char  , uchar4  , uchar )   \
--  IMPLEMENT_EXPR_UG_G(NAME, EXPR, char8   , char  , uchar8  , uchar )   \
--  IMPLEMENT_EXPR_UG_G(NAME, EXPR, char16  , char  , uchar16 , uchar )   \
--  IMPLEMENT_EXPR_UG_G(NAME, EXPR, uchar   , uchar , uchar   , uchar )   \
--  IMPLEMENT_EXPR_UG_G(NAME, EXPR, uchar2  , uchar , uchar2  , uchar )   \
--  IMPLEMENT_EXPR_UG_G(NAME, EXPR, uchar3  , uchar , uchar3  , uchar )   \
--  IMPLEMENT_EXPR_UG_G(NAME, EXPR, uchar4  , uchar , uchar4  , uchar )   \
--  IMPLEMENT_EXPR_UG_G(NAME, EXPR, uchar8  , uchar , uchar8  , uchar )   \
--  IMPLEMENT_EXPR_UG_G(NAME, EXPR, uchar16 , uchar , uchar16 , uchar )   \
--  IMPLEMENT_EXPR_UG_G(NAME, EXPR, short   , short , ushort  , ushort)   \
--  IMPLEMENT_EXPR_UG_G(NAME, EXPR, short2  , short , ushort2 , ushort)   \
--  IMPLEMENT_EXPR_UG_G(NAME, EXPR, short3  , short , ushort3 , ushort)   \
--  IMPLEMENT_EXPR_UG_G(NAME, EXPR, short4  , short , ushort4 , ushort)   \
--  IMPLEMENT_EXPR_UG_G(NAME, EXPR, short8  , short , ushort8 , ushort)   \
--  IMPLEMENT_EXPR_UG_G(NAME, EXPR, short16 , short , ushort16, ushort)   \
--  IMPLEMENT_EXPR_UG_G(NAME, EXPR, ushort  , ushort, ushort  , ushort)   \
--  IMPLEMENT_EXPR_UG_G(NAME, EXPR, ushort2 , ushort, ushort2 , ushort)   \
--  IMPLEMENT_EXPR_UG_G(NAME, EXPR, ushort3 , ushort, ushort3 , ushort)   \
--  IMPLEMENT_EXPR_UG_G(NAME, EXPR, ushort4 , ushort, ushort4 , ushort)   \
--  IMPLEMENT_EXPR_UG_G(NAME, EXPR, ushort8 , ushort, ushort8 , ushort)   \
--  IMPLEMENT_EXPR_UG_G(NAME, EXPR, ushort16, ushort, ushort16, ushort)   \
--  IMPLEMENT_EXPR_UG_G(NAME, EXPR, int     , int   , uint    , uint  )   \
--  IMPLEMENT_EXPR_UG_G(NAME, EXPR, int2    , int   , uint2   , uint  )   \
--  IMPLEMENT_EXPR_UG_G(NAME, EXPR, int3    , int   , uint3   , uint  )   \
--  IMPLEMENT_EXPR_UG_G(NAME, EXPR, int4    , int   , uint4   , uint  )   \
--  IMPLEMENT_EXPR_UG_G(NAME, EXPR, int8    , int   , uint8   , uint  )   \
--  IMPLEMENT_EXPR_UG_G(NAME, EXPR, int16   , int   , uint16  , uint  )   \
--  IMPLEMENT_EXPR_UG_G(NAME, EXPR, uint    , uint  , uint    , uint  )   \
--  IMPLEMENT_EXPR_UG_G(NAME, EXPR, uint2   , uint  , uint2   , uint  )   \
--  IMPLEMENT_EXPR_UG_G(NAME, EXPR, uint3   , uint  , uint3   , uint  )   \
--  IMPLEMENT_EXPR_UG_G(NAME, EXPR, uint4   , uint  , uint4   , uint  )   \
--  IMPLEMENT_EXPR_UG_G(NAME, EXPR, uint8   , uint  , uint8   , uint  )   \
--  IMPLEMENT_EXPR_UG_G(NAME, EXPR, uint16  , uint  , uint16  , uint  )
--#endif
++  IMPLEMENT_EXPR_UG_G(NAME, EXPR, ulong16 , ulong , ulong16 , ulong ))
  #define IMPLEMENT_EXPR_G_GG(NAME, EXPR, GTYPE, SGTYPE, UGTYPE, SUGTYPE) \
    GTYPE __attribute__ ((overloadable))                                  \
@@ -1369,7 +923,6 @@
      typedef SUGTYPE sugtype;                                            \
      return EXPR;                                                        \
+   }
--#ifdef cl_khr_int64
  #define DEFINE_EXPR_G_GG(NAME, EXPR)                                    \
    IMPLEMENT_EXPR_G_GG(NAME, EXPR, char    , char  , uchar   , uchar )   \
    IMPLEMENT_EXPR_G_GG(NAME, EXPR, char2   , char  , uchar2  , uchar )   \
@@ -1407,6 +960,7 @@
    IMPLEMENT_EXPR_G_GG(NAME, EXPR, uint4   , uint  , uint4   , uint  )   \
    IMPLEMENT_EXPR_G_GG(NAME, EXPR, uint8   , uint  , uint8   , uint  )   \
    IMPLEMENT_EXPR_G_GG(NAME, EXPR, uint16  , uint  , uint16  , uint  )   \
++  __IF_INT64(                                                           \
    IMPLEMENT_EXPR_G_GG(NAME, EXPR, long    , long  , ulong   , ulong )   \
    IMPLEMENT_EXPR_G_GG(NAME, EXPR, long2   , long  , ulong2  , ulong )   \
    IMPLEMENT_EXPR_G_GG(NAME, EXPR, long3   , long  , ulong3  , ulong )   \
@@ -1418,46 +972,7 @@
    IMPLEMENT_EXPR_G_GG(NAME, EXPR, ulong3  , ulong , ulong3  , ulong )   \
    IMPLEMENT_EXPR_G_GG(NAME, EXPR, ulong4  , ulong , ulong4  , ulong )   \
    IMPLEMENT_EXPR_G_GG(NAME, EXPR, ulong8  , ulong , ulong8  , ulong )   \
--  IMPLEMENT_EXPR_G_GG(NAME, EXPR, ulong16 , ulong , ulong16 , ulong )
--#else
--#define DEFINE_EXPR_G_GG(NAME, EXPR)                                    \
--  IMPLEMENT_EXPR_G_GG(NAME, EXPR, char    , char  , uchar   , uchar )   \
--  IMPLEMENT_EXPR_G_GG(NAME, EXPR, char2   , char  , uchar2  , uchar )   \
--  IMPLEMENT_EXPR_G_GG(NAME, EXPR, char3   , char  , uchar3  , uchar )   \
--  IMPLEMENT_EXPR_G_GG(NAME, EXPR, char4   , char  , uchar4  , uchar )   \
--  IMPLEMENT_EXPR_G_GG(NAME, EXPR, char8   , char  , uchar8  , uchar )   \
--  IMPLEMENT_EXPR_G_GG(NAME, EXPR, char16  , char  , uchar16 , uchar )   \
--  IMPLEMENT_EXPR_G_GG(NAME, EXPR, uchar   , uchar , uchar   , uchar )   \
--  IMPLEMENT_EXPR_G_GG(NAME, EXPR, uchar2  , uchar , uchar2  , uchar )   \
--  IMPLEMENT_EXPR_G_GG(NAME, EXPR, uchar3  , uchar , uchar3  , uchar )   \
--  IMPLEMENT_EXPR_G_GG(NAME, EXPR, uchar4  , uchar , uchar4  , uchar )   \
--  IMPLEMENT_EXPR_G_GG(NAME, EXPR, uchar8  , uchar , uchar8  , uchar )   \
--  IMPLEMENT_EXPR_G_GG(NAME, EXPR, uchar16 , uchar , uchar16 , uchar )   \
--  IMPLEMENT_EXPR_G_GG(NAME, EXPR, short   , short , ushort  , ushort)   \
--  IMPLEMENT_EXPR_G_GG(NAME, EXPR, short2  , short , ushort2 , ushort)   \
--  IMPLEMENT_EXPR_G_GG(NAME, EXPR, short3  , short , ushort3 , ushort)   \
--  IMPLEMENT_EXPR_G_GG(NAME, EXPR, short4  , short , ushort4 , ushort)   \
--  IMPLEMENT_EXPR_G_GG(NAME, EXPR, short8  , short , ushort8 , ushort)   \
--  IMPLEMENT_EXPR_G_GG(NAME, EXPR, short16 , short , ushort16, ushort)   \
--  IMPLEMENT_EXPR_G_GG(NAME, EXPR, ushort  , ushort, ushort  , ushort)   \
--  IMPLEMENT_EXPR_G_GG(NAME, EXPR, ushort2 , ushort, ushort2 , ushort)   \
--  IMPLEMENT_EXPR_G_GG(NAME, EXPR, ushort3 , ushort, ushort3 , ushort)   \
--  IMPLEMENT_EXPR_G_GG(NAME, EXPR, ushort4 , ushort, ushort4 , ushort)   \
--  IMPLEMENT_EXPR_G_GG(NAME, EXPR, ushort8 , ushort, ushort8 , ushort)   \
--  IMPLEMENT_EXPR_G_GG(NAME, EXPR, ushort16, ushort, ushort16, ushort)   \
--  IMPLEMENT_EXPR_G_GG(NAME, EXPR, int     , int   , uint    , uint  )   \
--  IMPLEMENT_EXPR_G_GG(NAME, EXPR, int2    , int   , uint2   , uint  )   \
--  IMPLEMENT_EXPR_G_GG(NAME, EXPR, int3    , int   , uint3   , uint  )   \
--  IMPLEMENT_EXPR_G_GG(NAME, EXPR, int4    , int   , uint4   , uint  )   \
--  IMPLEMENT_EXPR_G_GG(NAME, EXPR, int8    , int   , uint8   , uint  )   \
--  IMPLEMENT_EXPR_G_GG(NAME, EXPR, int16   , int   , uint16  , uint  )   \
--  IMPLEMENT_EXPR_G_GG(NAME, EXPR, uint    , uint  , uint    , uint  )   \
--  IMPLEMENT_EXPR_G_GG(NAME, EXPR, uint2   , uint  , uint2   , uint  )   \
--  IMPLEMENT_EXPR_G_GG(NAME, EXPR, uint3   , uint  , uint3   , uint  )   \
--  IMPLEMENT_EXPR_G_GG(NAME, EXPR, uint4   , uint  , uint4   , uint  )   \
--  IMPLEMENT_EXPR_G_GG(NAME, EXPR, uint8   , uint  , uint8   , uint  )   \
--  IMPLEMENT_EXPR_G_GG(NAME, EXPR, uint16  , uint  , uint16  , uint  )
--#endif
++  IMPLEMENT_EXPR_G_GG(NAME, EXPR, ulong16 , ulong , ulong16 , ulong ))
  #define IMPLEMENT_EXPR_G_GGG(NAME, EXPR, GTYPE, SGTYPE, UGTYPE, SUGTYPE) \
    GTYPE __attribute__ ((overloadable))                                  \
@@ -1469,7 +984,6 @@
      typedef SUGTYPE sugtype;                                            \
      return EXPR;                                                        \
+   }
--#ifdef cl_khr_int64
  #define DEFINE_EXPR_G_GGG(NAME, EXPR)                                   \
    IMPLEMENT_EXPR_G_GGG(NAME, EXPR, char    , char  , uchar   , uchar )  \
    IMPLEMENT_EXPR_G_GGG(NAME, EXPR, char2   , char  , uchar2  , uchar )  \
@@ -1507,6 +1021,7 @@
    IMPLEMENT_EXPR_G_GGG(NAME, EXPR, uint4   , uint  , uint4   , uint  )  \
    IMPLEMENT_EXPR_G_GGG(NAME, EXPR, uint8   , uint  , uint8   , uint  )  \
    IMPLEMENT_EXPR_G_GGG(NAME, EXPR, uint16  , uint  , uint16  , uint  )  \
++  __IF_INT64(                                                           \
    IMPLEMENT_EXPR_G_GGG(NAME, EXPR, long    , long  , ulong   , ulong )  \
    IMPLEMENT_EXPR_G_GGG(NAME, EXPR, long2   , long  , ulong2  , ulong )  \
    IMPLEMENT_EXPR_G_GGG(NAME, EXPR, long3   , long  , ulong3  , ulong )  \
@@ -1518,46 +1033,7 @@
    IMPLEMENT_EXPR_G_GGG(NAME, EXPR, ulong3  , ulong , ulong3  , ulong )  \
    IMPLEMENT_EXPR_G_GGG(NAME, EXPR, ulong4  , ulong , ulong4  , ulong )  \
    IMPLEMENT_EXPR_G_GGG(NAME, EXPR, ulong8  , ulong , ulong8  , ulong )  \
--  IMPLEMENT_EXPR_G_GGG(NAME, EXPR, ulong16 , ulong , ulong16 , ulong )
--#else
--#define DEFINE_EXPR_G_GGG(NAME, EXPR)                                   \
--  IMPLEMENT_EXPR_G_GGG(NAME, EXPR, char    , char  , uchar   , uchar )  \
--  IMPLEMENT_EXPR_G_GGG(NAME, EXPR, char2   , char  , uchar2  , uchar )  \
--  IMPLEMENT_EXPR_G_GGG(NAME, EXPR, char3   , char  , uchar3  , uchar )  \
--  IMPLEMENT_EXPR_G_GGG(NAME, EXPR, char4   , char  , uchar4  , uchar )  \
--  IMPLEMENT_EXPR_G_GGG(NAME, EXPR, char8   , char  , uchar8  , uchar )  \
--  IMPLEMENT_EXPR_G_GGG(NAME, EXPR, char16  , char  , uchar16 , uchar )  \
--  IMPLEMENT_EXPR_G_GGG(NAME, EXPR, uchar   , uchar , uchar   , uchar )  \
--  IMPLEMENT_EXPR_G_GGG(NAME, EXPR, uchar2  , uchar , uchar2  , uchar )  \
--  IMPLEMENT_EXPR_G_GGG(NAME, EXPR, uchar3  , uchar , uchar3  , uchar )  \
--  IMPLEMENT_EXPR_G_GGG(NAME, EXPR, uchar4  , uchar , uchar4  , uchar )  \
--  IMPLEMENT_EXPR_G_GGG(NAME, EXPR, uchar8  , uchar , uchar8  , uchar )  \
--  IMPLEMENT_EXPR_G_GGG(NAME, EXPR, uchar16 , uchar , uchar16 , uchar )  \
--  IMPLEMENT_EXPR_G_GGG(NAME, EXPR, short   , short , ushort  , ushort)  \
--  IMPLEMENT_EXPR_G_GGG(NAME, EXPR, short2  , short , ushort2 , ushort)  \
--  IMPLEMENT_EXPR_G_GGG(NAME, EXPR, short3  , short , ushort3 , ushort)  \
--  IMPLEMENT_EXPR_G_GGG(NAME, EXPR, short4  , short , ushort4 , ushort)  \
--  IMPLEMENT_EXPR_G_GGG(NAME, EXPR, short8  , short , ushort8 , ushort)  \
--  IMPLEMENT_EXPR_G_GGG(NAME, EXPR, short16 , short , ushort16, ushort)  \
--  IMPLEMENT_EXPR_G_GGG(NAME, EXPR, ushort  , ushort, ushort  , ushort)  \
--  IMPLEMENT_EXPR_G_GGG(NAME, EXPR, ushort2 , ushort, ushort2 , ushort)  \
--  IMPLEMENT_EXPR_G_GGG(NAME, EXPR, ushort3 , ushort, ushort3 , ushort)  \
--  IMPLEMENT_EXPR_G_GGG(NAME, EXPR, ushort4 , ushort, ushort4 , ushort)  \
--  IMPLEMENT_EXPR_G_GGG(NAME, EXPR, ushort8 , ushort, ushort8 , ushort)  \
--  IMPLEMENT_EXPR_G_GGG(NAME, EXPR, ushort16, ushort, ushort16, ushort)  \
--  IMPLEMENT_EXPR_G_GGG(NAME, EXPR, int     , int   , uint    , uint  )  \
--  IMPLEMENT_EXPR_G_GGG(NAME, EXPR, int2    , int   , uint2   , uint  )  \
--  IMPLEMENT_EXPR_G_GGG(NAME, EXPR, int3    , int   , uint3   , uint  )  \
--  IMPLEMENT_EXPR_G_GGG(NAME, EXPR, int4    , int   , uint4   , uint  )  \
--  IMPLEMENT_EXPR_G_GGG(NAME, EXPR, int8    , int   , uint8   , uint  )  \
--  IMPLEMENT_EXPR_G_GGG(NAME, EXPR, int16   , int   , uint16  , uint  )  \
--  IMPLEMENT_EXPR_G_GGG(NAME, EXPR, uint    , uint  , uint    , uint  )  \
--  IMPLEMENT_EXPR_G_GGG(NAME, EXPR, uint2   , uint  , uint2   , uint  )  \
--  IMPLEMENT_EXPR_G_GGG(NAME, EXPR, uint3   , uint  , uint3   , uint  )  \
--  IMPLEMENT_EXPR_G_GGG(NAME, EXPR, uint4   , uint  , uint4   , uint  )  \
--  IMPLEMENT_EXPR_G_GGG(NAME, EXPR, uint8   , uint  , uint8   , uint  )  \
--  IMPLEMENT_EXPR_G_GGG(NAME, EXPR, uint16  , uint  , uint16  , uint  )
--#endif
++  IMPLEMENT_EXPR_G_GGG(NAME, EXPR, ulong16 , ulong , ulong16 , ulong ))
  #define IMPLEMENT_EXPR_G_GS(NAME, EXPR, GTYPE, SGTYPE, UGTYPE, SUGTYPE) \
    GTYPE __attribute__ ((overloadable))                                  \
@@ -1569,7 +1045,6 @@
      typedef SUGTYPE sugtype;                                            \
      return EXPR;                                                        \
+   }
--#ifdef cl_khr_int64
  #define DEFINE_EXPR_G_GS(NAME, EXPR)                                    \
    IMPLEMENT_EXPR_G_GS(NAME, EXPR, char2   , char  , uchar2  , uchar )   \
    IMPLEMENT_EXPR_G_GS(NAME, EXPR, char3   , char  , uchar3  , uchar )   \
@@ -1601,6 +1076,7 @@
    IMPLEMENT_EXPR_G_GS(NAME, EXPR, uint4   , uint  , uint4   , uint  )   \
    IMPLEMENT_EXPR_G_GS(NAME, EXPR, uint8   , uint  , uint8   , uint  )   \
    IMPLEMENT_EXPR_G_GS(NAME, EXPR, uint16  , uint  , uint16  , uint  )   \
++  __IF_INT64(                                                           \
    IMPLEMENT_EXPR_G_GS(NAME, EXPR, long2   , long  , ulong2  , ulong )   \
    IMPLEMENT_EXPR_G_GS(NAME, EXPR, long3   , long  , ulong3  , ulong )   \
    IMPLEMENT_EXPR_G_GS(NAME, EXPR, long4   , long  , ulong4  , ulong )   \
@@ -1610,40 +1086,7 @@
    IMPLEMENT_EXPR_G_GS(NAME, EXPR, ulong3  , ulong , ulong3  , ulong )   \
    IMPLEMENT_EXPR_G_GS(NAME, EXPR, ulong4  , ulong , ulong4  , ulong )   \
    IMPLEMENT_EXPR_G_GS(NAME, EXPR, ulong8  , ulong , ulong8  , ulong )   \
--  IMPLEMENT_EXPR_G_GS(NAME, EXPR, ulong16 , ulong , ulong16 , ulong )
--#else
--#define DEFINE_EXPR_G_GS(NAME, EXPR)                                    \
--  IMPLEMENT_EXPR_G_GS(NAME, EXPR, char2   , char  , uchar2  , uchar )   \
--  IMPLEMENT_EXPR_G_GS(NAME, EXPR, char3   , char  , uchar3  , uchar )   \
--  IMPLEMENT_EXPR_G_GS(NAME, EXPR, char4   , char  , uchar4  , uchar )   \
--  IMPLEMENT_EXPR_G_GS(NAME, EXPR, char8   , char  , uchar8  , uchar )   \
--  IMPLEMENT_EXPR_G_GS(NAME, EXPR, char16  , char  , uchar16 , uchar )   \
--  IMPLEMENT_EXPR_G_GS(NAME, EXPR, uchar2  , uchar , uchar2  , uchar )   \
--  IMPLEMENT_EXPR_G_GS(NAME, EXPR, uchar3  , uchar , uchar3  , uchar )   \
--  IMPLEMENT_EXPR_G_GS(NAME, EXPR, uchar4  , uchar , uchar4  , uchar )   \
--  IMPLEMENT_EXPR_G_GS(NAME, EXPR, uchar8  , uchar , uchar8  , uchar )   \
--  IMPLEMENT_EXPR_G_GS(NAME, EXPR, uchar16 , uchar , uchar16 , uchar )   \
--  IMPLEMENT_EXPR_G_GS(NAME, EXPR, short2  , short , ushort2 , ushort)   \
--  IMPLEMENT_EXPR_G_GS(NAME, EXPR, short3  , short , ushort3 , ushort)   \
--  IMPLEMENT_EXPR_G_GS(NAME, EXPR, short4  , short , ushort4 , ushort)   \
--  IMPLEMENT_EXPR_G_GS(NAME, EXPR, short8  , short , ushort8 , ushort)   \
--  IMPLEMENT_EXPR_G_GS(NAME, EXPR, short16 , short , ushort16, ushort)   \
--  IMPLEMENT_EXPR_G_GS(NAME, EXPR, ushort2 , ushort, ushort2 , ushort)   \
--  IMPLEMENT_EXPR_G_GS(NAME, EXPR, ushort3 , ushort, ushort3 , ushort)   \
--  IMPLEMENT_EXPR_G_GS(NAME, EXPR, ushort4 , ushort, ushort4 , ushort)   \
--  IMPLEMENT_EXPR_G_GS(NAME, EXPR, ushort8 , ushort, ushort8 , ushort)   \
--  IMPLEMENT_EXPR_G_GS(NAME, EXPR, ushort16, ushort, ushort16, ushort)   \
--  IMPLEMENT_EXPR_G_GS(NAME, EXPR, int2    , int   , uint2   , uint  )   \
--  IMPLEMENT_EXPR_G_GS(NAME, EXPR, int3    , int   , uint3   , uint  )   \
--  IMPLEMENT_EXPR_G_GS(NAME, EXPR, int4    , int   , uint4   , uint  )   \
--  IMPLEMENT_EXPR_G_GS(NAME, EXPR, int8    , int   , uint8   , uint  )   \
--  IMPLEMENT_EXPR_G_GS(NAME, EXPR, int16   , int   , uint16  , uint  )   \
--  IMPLEMENT_EXPR_G_GS(NAME, EXPR, uint2   , uint  , uint2   , uint  )   \
--  IMPLEMENT_EXPR_G_GS(NAME, EXPR, uint3   , uint  , uint3   , uint  )   \
--  IMPLEMENT_EXPR_G_GS(NAME, EXPR, uint4   , uint  , uint4   , uint  )   \
--  IMPLEMENT_EXPR_G_GS(NAME, EXPR, uint8   , uint  , uint8   , uint  )   \
--  IMPLEMENT_EXPR_G_GS(NAME, EXPR, uint16  , uint  , uint16  , uint  )
--#endif
++  IMPLEMENT_EXPR_G_GS(NAME, EXPR, ulong16 , ulong , ulong16 , ulong ))
  #define IMPLEMENT_EXPR_UG_GG(NAME, EXPR, GTYPE, SGTYPE, UGTYPE, SUGTYPE) \
    UGTYPE __attribute__ ((overloadable))                                 \
@@ -1655,7 +1098,6 @@
      typedef SUGTYPE sugtype;                                            \
      return EXPR;                                                        \
+   }
--#ifdef cl_khr_int64
  #define DEFINE_EXPR_UG_GG(NAME, EXPR)                                   \
    IMPLEMENT_EXPR_UG_GG(NAME, EXPR, char    , char  , uchar   , uchar )  \
    IMPLEMENT_EXPR_UG_GG(NAME, EXPR, char2   , char  , uchar2  , uchar )  \
@@ -1693,6 +1135,7 @@
    IMPLEMENT_EXPR_UG_GG(NAME, EXPR, uint4   , uint  , uint4   , uint  )  \
    IMPLEMENT_EXPR_UG_GG(NAME, EXPR, uint8   , uint  , uint8   , uint  )  \
    IMPLEMENT_EXPR_UG_GG(NAME, EXPR, uint16  , uint  , uint16  , uint  )  \
++  __IF_INT64(                                                           \
    IMPLEMENT_EXPR_UG_GG(NAME, EXPR, long    , long  , ulong   , ulong )  \
    IMPLEMENT_EXPR_UG_GG(NAME, EXPR, long2   , long  , ulong2  , ulong )  \
    IMPLEMENT_EXPR_UG_GG(NAME, EXPR, long3   , long  , ulong3  , ulong )  \
@@ -1704,46 +1147,7 @@
    IMPLEMENT_EXPR_UG_GG(NAME, EXPR, ulong3  , ulong , ulong3  , ulong )  \
    IMPLEMENT_EXPR_UG_GG(NAME, EXPR, ulong4  , ulong , ulong4  , ulong )  \
    IMPLEMENT_EXPR_UG_GG(NAME, EXPR, ulong8  , ulong , ulong8  , ulong )  \
--  IMPLEMENT_EXPR_UG_GG(NAME, EXPR, ulong16 , ulong , ulong16 , ulong )
--#else
--#define DEFINE_EXPR_UG_GG(NAME, EXPR)                                   \
--  IMPLEMENT_EXPR_UG_GG(NAME, EXPR, char    , char  , uchar   , uchar )  \
--  IMPLEMENT_EXPR_UG_GG(NAME, EXPR, char2   , char  , uchar2  , uchar )  \
--  IMPLEMENT_EXPR_UG_GG(NAME, EXPR, char3   , char  , uchar3  , uchar )  \
--  IMPLEMENT_EXPR_UG_GG(NAME, EXPR, char4   , char  , uchar4  , uchar )  \
--  IMPLEMENT_EXPR_UG_GG(NAME, EXPR, char8   , char  , uchar8  , uchar )  \
--  IMPLEMENT_EXPR_UG_GG(NAME, EXPR, char16  , char  , uchar16 , uchar )  \
--  IMPLEMENT_EXPR_UG_GG(NAME, EXPR, uchar   , uchar , uchar   , uchar )  \
--  IMPLEMENT_EXPR_UG_GG(NAME, EXPR, uchar2  , uchar , uchar2  , uchar )  \
--  IMPLEMENT_EXPR_UG_GG(NAME, EXPR, uchar3  , uchar , uchar3  , uchar )  \
--  IMPLEMENT_EXPR_UG_GG(NAME, EXPR, uchar4  , uchar , uchar4  , uchar )  \
--  IMPLEMENT_EXPR_UG_GG(NAME, EXPR, uchar8  , uchar , uchar8  , uchar )  \
--  IMPLEMENT_EXPR_UG_GG(NAME, EXPR, uchar16 , uchar , uchar16 , uchar )  \
--  IMPLEMENT_EXPR_UG_GG(NAME, EXPR, short   , short , ushort  , ushort)  \
--  IMPLEMENT_EXPR_UG_GG(NAME, EXPR, short2  , short , ushort2 , ushort)  \
--  IMPLEMENT_EXPR_UG_GG(NAME, EXPR, short3  , short , ushort3 , ushort)  \
--  IMPLEMENT_EXPR_UG_GG(NAME, EXPR, short4  , short , ushort4 , ushort)  \
--  IMPLEMENT_EXPR_UG_GG(NAME, EXPR, short8  , short , ushort8 , ushort)  \
--  IMPLEMENT_EXPR_UG_GG(NAME, EXPR, short16 , short , ushort16, ushort)  \
--  IMPLEMENT_EXPR_UG_GG(NAME, EXPR, ushort  , ushort, ushort  , ushort)  \
--  IMPLEMENT_EXPR_UG_GG(NAME, EXPR, ushort2 , ushort, ushort2 , ushort)  \
--  IMPLEMENT_EXPR_UG_GG(NAME, EXPR, ushort3 , ushort, ushort3 , ushort)  \
--  IMPLEMENT_EXPR_UG_GG(NAME, EXPR, ushort4 , ushort, ushort4 , ushort)  \
--  IMPLEMENT_EXPR_UG_GG(NAME, EXPR, ushort8 , ushort, ushort8 , ushort)  \
--  IMPLEMENT_EXPR_UG_GG(NAME, EXPR, ushort16, ushort, ushort16, ushort)  \
--  IMPLEMENT_EXPR_UG_GG(NAME, EXPR, int     , int   , uint    , uint  )  \
--  IMPLEMENT_EXPR_UG_GG(NAME, EXPR, int2    , int   , uint2   , uint  )  \
--  IMPLEMENT_EXPR_UG_GG(NAME, EXPR, int3    , int   , uint3   , uint  )  \
--  IMPLEMENT_EXPR_UG_GG(NAME, EXPR, int4    , int   , uint4   , uint  )  \
--  IMPLEMENT_EXPR_UG_GG(NAME, EXPR, int8    , int   , uint8   , uint  )  \
--  IMPLEMENT_EXPR_UG_GG(NAME, EXPR, int16   , int   , uint16  , uint  )  \
--  IMPLEMENT_EXPR_UG_GG(NAME, EXPR, uint    , uint  , uint    , uint  )  \
--  IMPLEMENT_EXPR_UG_GG(NAME, EXPR, uint2   , uint  , uint2   , uint  )  \
--  IMPLEMENT_EXPR_UG_GG(NAME, EXPR, uint3   , uint  , uint3   , uint  )  \
--  IMPLEMENT_EXPR_UG_GG(NAME, EXPR, uint4   , uint  , uint4   , uint  )  \
--  IMPLEMENT_EXPR_UG_GG(NAME, EXPR, uint8   , uint  , uint8   , uint  )  \
--  IMPLEMENT_EXPR_UG_GG(NAME, EXPR, uint16  , uint  , uint16  , uint  )
--#endif
++  IMPLEMENT_EXPR_UG_GG(NAME, EXPR, ulong16 , ulong , ulong16 , ulong ))
  #define IMPLEMENT_EXPR_LG_GUG(NAME, EXPR, GTYPE, SGTYPE, UGTYPE, LGTYPE) \
    LGTYPE __attribute__ ((overloadable))                                 \
@@ -1755,7 +1159,6 @@
      typedef LGTYPE lgtype;                                              \
      return EXPR;                                                        \
+   }
--#ifdef cl_khr_int64
  #define DEFINE_EXPR_LG_GUG(NAME, EXPR)                                  \
    IMPLEMENT_EXPR_LG_GUG(NAME, EXPR, char    , char  , uchar   , short   ) \
    IMPLEMENT_EXPR_LG_GUG(NAME, EXPR, char2   , char  , uchar2  , short2  ) \
@@ -1781,6 +1184,7 @@
    IMPLEMENT_EXPR_LG_GUG(NAME, EXPR, ushort4 , ushort, ushort4 , uint4   ) \
    IMPLEMENT_EXPR_LG_GUG(NAME, EXPR, ushort8 , ushort, ushort8 , uint8   ) \
    IMPLEMENT_EXPR_LG_GUG(NAME, EXPR, ushort16, ushort, ushort16, uint16  ) \
++  __IF_INT64(                                                           \
    IMPLEMENT_EXPR_LG_GUG(NAME, EXPR, int     , int   , uint    , long    ) \
    IMPLEMENT_EXPR_LG_GUG(NAME, EXPR, int2    , int   , uint2   , long2   ) \
    IMPLEMENT_EXPR_LG_GUG(NAME, EXPR, int3    , int   , uint3   , long3   ) \
@@ -1792,34 +1196,7 @@
    IMPLEMENT_EXPR_LG_GUG(NAME, EXPR, uint3   , uint  , uint3   , ulong3  ) \
    IMPLEMENT_EXPR_LG_GUG(NAME, EXPR, uint4   , uint  , uint4   , ulong4  ) \
    IMPLEMENT_EXPR_LG_GUG(NAME, EXPR, uint8   , uint  , uint8   , ulong8  ) \
--  IMPLEMENT_EXPR_LG_GUG(NAME, EXPR, uint16  , uint  , uint16  , ulong16 )
--#else
--#define DEFINE_EXPR_LG_GUG(NAME, EXPR)                                  \
--  IMPLEMENT_EXPR_LG_GUG(NAME, EXPR, char    , char  , uchar   , short   ) \
--  IMPLEMENT_EXPR_LG_GUG(NAME, EXPR, char2   , char  , uchar2  , short2  ) \
--  IMPLEMENT_EXPR_LG_GUG(NAME, EXPR, char3   , char  , uchar3  , short3  ) \
--  IMPLEMENT_EXPR_LG_GUG(NAME, EXPR, char4   , char  , uchar4  , short4  ) \
--  IMPLEMENT_EXPR_LG_GUG(NAME, EXPR, char8   , char  , uchar8  , short8  ) \
--  IMPLEMENT_EXPR_LG_GUG(NAME, EXPR, char16  , char  , uchar16 , short16 ) \
--  IMPLEMENT_EXPR_LG_GUG(NAME, EXPR, uchar   , uchar , uchar   , ushort  ) \
--  IMPLEMENT_EXPR_LG_GUG(NAME, EXPR, uchar2  , uchar , uchar2  , ushort2 ) \
--  IMPLEMENT_EXPR_LG_GUG(NAME, EXPR, uchar3  , uchar , uchar3  , ushort3 ) \
--  IMPLEMENT_EXPR_LG_GUG(NAME, EXPR, uchar4  , uchar , uchar4  , ushort4 ) \
--  IMPLEMENT_EXPR_LG_GUG(NAME, EXPR, uchar8  , uchar , uchar8  , ushort8 ) \
--  IMPLEMENT_EXPR_LG_GUG(NAME, EXPR, uchar16 , uchar , uchar16 , ushort16) \
--  IMPLEMENT_EXPR_LG_GUG(NAME, EXPR, short   , short , ushort  , int     ) \
--  IMPLEMENT_EXPR_LG_GUG(NAME, EXPR, short2  , short , ushort2 , int2    ) \
--  IMPLEMENT_EXPR_LG_GUG(NAME, EXPR, short3  , short , ushort3 , int3    ) \
--  IMPLEMENT_EXPR_LG_GUG(NAME, EXPR, short4  , short , ushort4 , int4    ) \
--  IMPLEMENT_EXPR_LG_GUG(NAME, EXPR, short8  , short , ushort8 , int8    ) \
--  IMPLEMENT_EXPR_LG_GUG(NAME, EXPR, short16 , short , ushort16, int16   ) \
--  IMPLEMENT_EXPR_LG_GUG(NAME, EXPR, ushort  , ushort, ushort  , uint    ) \
--  IMPLEMENT_EXPR_LG_GUG(NAME, EXPR, ushort2 , ushort, ushort2 , uint2   ) \
--  IMPLEMENT_EXPR_LG_GUG(NAME, EXPR, ushort3 , ushort, ushort3 , uint3   ) \
--  IMPLEMENT_EXPR_LG_GUG(NAME, EXPR, ushort4 , ushort, ushort4 , uint4   ) \
--  IMPLEMENT_EXPR_LG_GUG(NAME, EXPR, ushort8 , ushort, ushort8 , uint8   ) \
--  IMPLEMENT_EXPR_LG_GUG(NAME, EXPR, ushort16, ushort, ushort16, uint16  )
--#endif
++  IMPLEMENT_EXPR_LG_GUG(NAME, EXPR, uint16  , uint  , uint16  , ulong16 ))
  #define IMPLEMENT_EXPR_J_JJ(NAME, EXPR, JTYPE, SJTYPE, UJTYPE, SUJTYPE) \
    JTYPE __attribute__ ((overloadable))                                  \
 === modified file 'lib/kernel/x86_64/Makefile.am'
 --- lib/kernel/x86_64/Makefile.am	2011-11-09 15:30:32 +0000
 +++ lib/kernel/x86_64/Makefile.am	2011-11-14 18:40:38 +0000
@@ -43,5 +43,5 @@
  .ll.o:
  	$(LLVM_AS) -o $@ $<
--$(libkernel_a_SOURCES:.c=.o):  $(top_srcdir)/include/_kernel.h ../templates.h
++$(libkernel_a_SOURCES:.c=.o):  $(top_srcdir)/include/_kernel.h
  $(libkernel_a_SOURCES:.cl=.o):  $(top_srcdir)/include/_kernel.h ../templates.h

pocl

Merge lp:~schnetter/pocl/main into lp:~pocl/pocl/trunk

Commit message

Description of the change

Preview Diff

Subscribers