pocl

Merge lp:~schnetter/pocl/main into lp:~pocl/pocl/trunk

main
Merge into trunk

Proposed by Erik Schnetter on 2011-10-30

Status:	Merged
Merge reported by:	Carlos Sánchez de La Lama
Merged at revision:	not available
Proposed branch:	lp:~schnetter/pocl/main
Merge into:	lp:~pocl/pocl/trunk
Diff against target:	5915 lines (+3164/-1842) (has conflicts) 36 files modified configure.ac (+7/-0) include/_kernel.h (+1048/-669) lib/kernel/Makefile.am (+9/-3) lib/kernel/all.cl (+68/-68) lib/kernel/any.cl (+68/-68) lib/kernel/as_type.cl (+1/-1) lib/kernel/ceil.cl (+3/-131) lib/kernel/convert_type.cl (+3/-3) lib/kernel/copysign.cl (+3/-107) lib/kernel/cross.cl (+4/-4) lib/kernel/dot.cl (+56/-56) lib/kernel/fabs.cl (+3/-108) lib/kernel/floor.cl (+3/-129) lib/kernel/fma.cl (+3/-1) lib/kernel/fmax.cl (+7/-129) lib/kernel/fmin.cl (+7/-129) lib/kernel/max.cl (+1/-1) lib/kernel/maxmag.cl (+15/-1) lib/kernel/min.cl (+2/-2) lib/kernel/minmag.cl (+15/-1) lib/kernel/select.cl (+2/-2) lib/kernel/sqrt.cl (+3/-99) lib/kernel/templates.h (+138/-125) lib/kernel/upsample.cl (+1/-1) lib/kernel/vload.cl (+106/-0) lib/kernel/vstore.cl (+100/-0) lib/kernel/x86/Makefile.am (+169/-0) lib/kernel/x86/ceil.cl (+149/-0) lib/kernel/x86/copysign.cl (+169/-0) lib/kernel/x86/fabs.cl (+144/-0) lib/kernel/x86/floor.cl (+149/-0) lib/kernel/x86/max.cl (+291/-0) lib/kernel/x86/min.cl (+291/-0) lib/kernel/x86/sqrt.cl (+122/-0) scripts/pocl-standalone.in (+2/-2) scripts/pocl-workgroup.in (+2/-2) Text conflict in configure.ac Text conflict in include/_kernel.h Text conflict in lib/kernel/Makefile.am
To merge this branch:	bzr merge lp:~schnetter/pocl/main
Related bugs:	Link a bug report

Reviewer	Date Requested	Status
Carlos Sánchez de La Lama	2011-10-30	Approve on 2011-11-01
Pekka Jääskeläinen		Needs Fixing on 2011-11-01
Erik Schnetter		Needs Resubmitting on 2011-10-31
Review via email: mp+80755@code.launchpad.net

Description of the change

I have separated x86-specific functions from generic implementations (based on libc), and have also corrected a few errors.

Note that I have also made the x86-specific version the default kernel; you may not want this. I don't know how to choose automatically.

Revision history for this message

Carlos Sánchez de La Lama (csanchezdll) wrote on 2011-10-31:

I am getting some erros buiding your branch:

----

../../../../../src/pocl.schnetter/lib/kernel/x86/max.cl:156:32: error: invalid conversion between ext-vector type 'long2' and 'ulong2'
IMPLEMENT_DIRECT(max, ulong2 , (long2 )(a>=b) ? a : b)
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~
../../../../../src/pocl.schnetter/lib/kernel/x86/max.cl:29:12: note: expanded from:
    return EXPR; \
           ^
../../../../../src/pocl.schnetter/lib/kernel/x86/max.cl:157:32: error: invalid conversion between ext-vector type 'long3' and 'ulong3'
IMPLEMENT_DIRECT(max, ulong3 , (long3 )(a>=b) ? a : b)
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~
../../../../../src/pocl.schnetter/lib/kernel/x86/max.cl:29:12: note: expanded from:
    return EXPR; \
           ^
../../../../../src/pocl.schnetter/lib/kernel/x86/max.cl:158:32: error: invalid conversion between ext-vector type 'long4' and 'ulong4'
IMPLEMENT_DIRECT(max, ulong4 , (long4 )(a>=b) ? a : b)
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~
../../../../../src/pocl.schnetter/lib/kernel/x86/max.cl:29:12: note: expanded from:
    return EXPR; \
           ^
../../../../../src/pocl.schnetter/lib/kernel/x86/max.cl:159:32: error: invalid conversion between ext-vector type 'long8' and 'ulong8'
IMPLEMENT_DIRECT(max, ulong8 , (long8 )(a>=b) ? a : b)
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~
../../../../../src/pocl.schnetter/lib/kernel/x86/max.cl:29:12: note: expanded from:
    return EXPR; \
           ^
../../../../../src/pocl.schnetter/lib/kernel/x86/max.cl:160:32: error: invalid conversion between ext-vector type 'long16' and 'ulong16'
IMPLEMENT_DIRECT(max, ulong16, (long16)(a>=b) ? a : b)
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~
../../../../../src/pocl.schnetter/lib/kernel/x86/max.cl:29:12: note: expanded from:
    return EXPR; \
           ^
5 errors generated.

----

Can you have a look at those?

Carlos

I am getting some erros buiding your branch:

----

../../../../../src/pocl.schnetter/lib/kernel/x86/max.cl:156:32: error: invalid conversion between ext-vector type 'long2' and 'ulong2'
IMPLEMENT_DIRECT(max, ulong2 , (long2 )(a>=b) ? a : b)
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~
../../../../../src/pocl.schnetter/lib/kernel/x86/max.cl:29:12: note: expanded from:
    return EXPR;                                \
           ^
../../../../../src/pocl.schnetter/lib/kernel/x86/max.cl:157:32: error: invalid conversion between ext-vector type 'long3' and 'ulong3'
IMPLEMENT_DIRECT(max, ulong3 , (long3 )(a>=b) ? a : b)
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~
../../../../../src/pocl.schnetter/lib/kernel/x86/max.cl:29:12: note: expanded from:
    return EXPR;                                \
           ^
../../../../../src/pocl.schnetter/lib/kernel/x86/max.cl:158:32: error: invalid conversion between ext-vector type 'long4' and 'ulong4'
IMPLEMENT_DIRECT(max, ulong4 , (long4 )(a>=b) ? a : b)
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~
../../../../../src/pocl.schnetter/lib/kernel/x86/max.cl:29:12: note: expanded from:
    return EXPR;                                \
           ^
../../../../../src/pocl.schnetter/lib/kernel/x86/max.cl:159:32: error: invalid conversion between ext-vector type 'long8' and 'ulong8'
IMPLEMENT_DIRECT(max, ulong8 , (long8 )(a>=b) ? a : b)
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~
../../../../../src/pocl.schnetter/lib/kernel/x86/max.cl:29:12: note: expanded from:
    return EXPR;                                \
           ^
../../../../../src/pocl.schnetter/lib/kernel/x86/max.cl:160:32: error: invalid conversion between ext-vector type 'long16' and 'ulong16'
IMPLEMENT_DIRECT(max, ulong16, (long16)(a>=b) ? a : b)
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~^~~~~~~~~~~~~~~~~~~~~~~
../../../../../src/pocl.schnetter/lib/kernel/x86/max.cl:29:12: note: expanded from:
    return EXPR;                                \
           ^
5 errors generated.

----

Can you have a look at those?

Carlos

lp:~schnetter/pocl/main updated on 2011-10-31

72. By Erik Schnetter on 2011-10-31: Correct/Optimise some x86 functions
73. By Erik Schnetter on 2011-10-31: Merge
74. By Erik Schnetter on 2011-10-31: Correct error in fabs/copysign

Revision history for this message

Erik Schnetter (schnetter) wrote on 2011-10-31:

I modified the implementation of max and min.

review: Needs Resubmitting

Revision history for this message

Pekka Jääskeläinen (pekka-jaaskelainen) wrote on 2011-11-01:

Builds here now and make check is OK. Looks ok for merging to me.

review: Approve

Revision history for this message

Pekka Jääskeläinen (pekka-jaaskelainen) wrote on 2011-11-01:

Well, actually. After merging to trunk, I get the same error Carlos got. Erik, please merge from trunk and fix the issue and I can then merge it to trunk.

review: Needs Fixing

Revision history for this message

Erik Schnetter (schnetter) wrote on 2011-11-01:

Very strange. There seem to be some pesky differences between different llvm versions.

Anyway, I tried to merge from the trunk yesterday, and found substantial problems because of the tce backend, which doesn't support long or double. I'll have to either comment out all run-time functions, or disable long and double if those are not available.

Revision history for this message

Carlos Sánchez de La Lama (csanchezdll) wrote on 2011-11-01:

I am merging already, taking into account cl_khr_int64 and cl_khr_fp64 when declaring / implementing the functions so long/ulong and doubles are only used when supported. Hopefully ready in couple of hours.

Carlos

Revision history for this message

Carlos Sánchez de La Lama (csanchezdll) wrote on 2011-11-01:

Marged. Please be careful when adding new calls or modifying existing ones to take cl_khr_int64 (long and ulong support) and cl_khe_fp64 (double support) into account.

Carlos

review: Approve

lp:~schnetter/pocl/main updated on 2011-11-05

75. By Erik Schnetter on 2011-10-31: Correct prototype of signbit.
Add optimised x86 implementation of signbit.

Preview Diff

[H/L] Next/Prev Comment, [J/K] Next/Prev File, [N/P] Next/Prev Hunk

The diff has been truncated for viewing.

Subscribers

People subscribed via source and target branches

to all changes:

Brandon Surmanski

Carlos Sánchez de La Lama

Erik Schnetter

Jesse Towner

Kalle Raiskila

Pekka Jääskeläinen

Sumit Semwal

Vincent Danjean

 === modified file 'configure.ac'
 --- configure.ac	2011-10-31 16:58:40 +0000
 +++ configure.ac	2011-10-31 17:03:23 +0000
@@ -112,7 +112,12 @@
                   lib/CL/Makefile
  		 lib/llvmopencl/Makefile
  		 lib/kernel/Makefile
++<<<<<<< TREE
  		 lib/kernel/tce/Makefile
++=======
++		 lib/kernel/dummy/Makefile
++		 lib/kernel/x86/Makefile
++>>>>>>> MERGE-SOURCE
  		 examples/Makefile
  		 examples/example1/Makefile
  		 examples/example2/Makefile
@@ -123,5 +128,7 @@
                   scripts/Makefile
                   tests/Makefile
                   tests/atlocal])
++# lib/kernel/bgp/Makefile
++# lib/kernel/ppc/Makefile
  AC_OUTPUT
 === modified file 'include/_kernel.h'
 --- include/_kernel.h	2011-10-31 16:58:40 +0000
 +++ include/_kernel.h	2011-10-31 17:03:23 +0000
@@ -46,6 +46,14 @@
  */
  #pragma OPENCL EXTENSION cl_khr_fp64: enable
++<<<<<<< TREE
++=======
++#define __SSE4_1__
++
++
++#ifndef __TCE__
++//#define __kernel __attribute__ ((noinline))
++>>>>>>> MERGE-SOURCE
  #define __global __attribute__ ((address_space(3)))
  #define __local __attribute__ ((address_space(4)))
  #define __constant __attribute__ ((address_space(5)))
@@ -68,6 +76,83 @@
  typedef unsigned int uint;
  typedef unsigned long ulong;
++#if 0
++/* 32 bit systems */
++typedef uint size_t;
++typedef int ptrdiff_t;
++typedef int intptr_t;
++typedef uint uintptr_t;
++#else
++/* 64 bit systems */
++typedef ulong size_t;
++typedef long ptrdiff_t;
++typedef long intptr_t;
++typedef ulong uintptr_t;
++#endif
++
++// We align the 3-vectors, so that their sizeof is correct. Is there a
++// better way? Should we also align the other vectors?
++
++typedef char char2  __attribute__((__ext_vector_type__(2)));
++typedef char char3  __attribute__((__ext_vector_type__(3), __aligned__(4)));
++typedef char char4  __attribute__((__ext_vector_type__(4)));
++typedef char char8  __attribute__((__ext_vector_type__(8)));
++typedef char char16 __attribute__((__ext_vector_type__(16)));
++
++typedef uchar uchar2  __attribute__((__ext_vector_type__(2)));
++typedef uchar uchar3  __attribute__((__ext_vector_type__(3), __aligned__(4)));
++typedef uchar uchar4  __attribute__((__ext_vector_type__(4)));
++typedef uchar uchar8  __attribute__((__ext_vector_type__(8)));
++typedef uchar uchar16 __attribute__((__ext_vector_type__(16)));
++
++typedef short short2  __attribute__((__ext_vector_type__(2)));
++typedef short short3  __attribute__((__ext_vector_type__(3), __aligned__(8)));
++typedef short short4  __attribute__((__ext_vector_type__(4)));
++typedef short short8  __attribute__((__ext_vector_type__(8)));
++typedef short short16 __attribute__((__ext_vector_type__(16)));
++
++typedef ushort ushort2  __attribute__((__ext_vector_type__(2)));
++typedef ushort ushort3  __attribute__((__ext_vector_type__(3), __aligned__(8)));
++typedef ushort ushort4  __attribute__((__ext_vector_type__(4)));
++typedef ushort ushort8  __attribute__((__ext_vector_type__(8)));
++typedef ushort ushort16 __attribute__((__ext_vector_type__(16)));
++
++typedef int int2  __attribute__((__ext_vector_type__(2)));
++typedef int int3  __attribute__((__ext_vector_type__(3), __aligned__(16)));
++typedef int int4  __attribute__((__ext_vector_type__(4)));
++typedef int int8  __attribute__((__ext_vector_type__(8)));
++typedef int int16 __attribute__((__ext_vector_type__(16)));
++
++typedef uint uint2  __attribute__((__ext_vector_type__(2)));
++typedef uint uint3  __attribute__((__ext_vector_type__(3), __aligned__(16)));
++typedef uint uint4  __attribute__((__ext_vector_type__(4)));
++typedef uint uint8  __attribute__((__ext_vector_type__(8)));
++typedef uint uint16 __attribute__((__ext_vector_type__(16)));
++
++typedef long long2  __attribute__((__ext_vector_type__(2)));
++typedef long long3  __attribute__((__ext_vector_type__(3), __aligned__(32)));
++typedef long long4  __attribute__((__ext_vector_type__(4)));
++typedef long long8  __attribute__((__ext_vector_type__(8)));
++typedef long long16 __attribute__((__ext_vector_type__(16)));
++
++typedef ulong ulong2  __attribute__((__ext_vector_type__(2)));
++typedef ulong ulong3  __attribute__((__ext_vector_type__(3), __aligned__(32)));
++typedef ulong ulong4  __attribute__((__ext_vector_type__(4)));
++typedef ulong ulong8  __attribute__((__ext_vector_type__(8)));
++typedef ulong ulong16 __attribute__((__ext_vector_type__(16)));
++
++typedef float float2  __attribute__((__ext_vector_type__(2)));
++typedef float float3  __attribute__((__ext_vector_type__(3), __aligned__(16)));
++typedef float float4  __attribute__((__ext_vector_type__(4)));
++typedef float float8  __attribute__((__ext_vector_type__(8)));
++typedef float float16 __attribute__((__ext_vector_type__(16)));
++
++typedef double double2  __attribute__((__ext_vector_type__(2)));
++typedef double double3  __attribute__((__ext_vector_type__(3), __aligned__(32)));
++typedef double double4  __attribute__((__ext_vector_type__(4)));
++typedef double double8  __attribute__((__ext_vector_type__(8)));
++typedef double double16 __attribute__((__ext_vector_type__(16)));
++
  /* Ensure the data types have the right sizes */
  #define _cl_static_assert(_t, _x) typedef int ai##_t[(_x) ? 1 : -1]
  _cl_static_assert(char  , sizeof(char  ) == 1);
@@ -83,6 +168,7 @@
  _cl_static_assert(float , sizeof(float ) == 4);
  #ifdef cl_khr_fp64
  _cl_static_assert(double, sizeof(double) == 8);
++<<<<<<< TREE
  #endif
  typedef char char2  __attribute__((ext_vector_type(2)));
@@ -144,26 +230,79 @@
  typedef double double4  __attribute__((ext_vector_type(4)));
  typedef double double8  __attribute__((ext_vector_type(8)));
  typedef double double16 __attribute__((ext_vector_type(16)));
++=======
++_cl_static_assert(size_t, sizeof(size_t) == sizeof(void*));
++
++_cl_static_assert(char2 , sizeof(char2 ) == 2 *sizeof(char));
++_cl_static_assert(char3 , sizeof(char3 ) == 4 *sizeof(char));
++_cl_static_assert(char4 , sizeof(char4 ) == 4 *sizeof(char));
++_cl_static_assert(char8 , sizeof(char8 ) == 8 *sizeof(char));
++_cl_static_assert(char16, sizeof(char16) == 16*sizeof(char));
++
++_cl_static_assert(uchar2 , sizeof(uchar2 ) == 2 *sizeof(uchar));
++_cl_static_assert(uchar3 , sizeof(uchar3 ) == 4 *sizeof(uchar));
++_cl_static_assert(uchar4 , sizeof(uchar4 ) == 4 *sizeof(uchar));
++_cl_static_assert(uchar8 , sizeof(uchar8 ) == 8 *sizeof(uchar));
++_cl_static_assert(uchar16, sizeof(uchar16) == 16*sizeof(uchar));
++
++_cl_static_assert(short2 , sizeof(short2 ) == 2 *sizeof(short));
++_cl_static_assert(short3 , sizeof(short3 ) == 4 *sizeof(short));
++_cl_static_assert(short4 , sizeof(short4 ) == 4 *sizeof(short));
++_cl_static_assert(short8 , sizeof(short8 ) == 8 *sizeof(short));
++_cl_static_assert(short16, sizeof(short16) == 16*sizeof(short));
++
++_cl_static_assert(ushort2 , sizeof(ushort2 ) == 2 *sizeof(ushort));
++_cl_static_assert(ushort3 , sizeof(ushort3 ) == 4 *sizeof(ushort));
++_cl_static_assert(ushort4 , sizeof(ushort4 ) == 4 *sizeof(ushort));
++_cl_static_assert(ushort8 , sizeof(ushort8 ) == 8 *sizeof(ushort));
++_cl_static_assert(ushort16, sizeof(ushort16) == 16*sizeof(ushort));
++
++_cl_static_assert(int2 , sizeof(int2 ) == 2 *sizeof(int));
++_cl_static_assert(int3 , sizeof(int3 ) == 4 *sizeof(int));
++_cl_static_assert(int4 , sizeof(int4 ) == 4 *sizeof(int));
++_cl_static_assert(int8 , sizeof(int8 ) == 8 *sizeof(int));
++_cl_static_assert(int16, sizeof(int16) == 16*sizeof(int));
++
++_cl_static_assert(uint2 , sizeof(uint2 ) == 2 *sizeof(uint));
++_cl_static_assert(uint3 , sizeof(uint3 ) == 4 *sizeof(uint));
++_cl_static_assert(uint4 , sizeof(uint4 ) == 4 *sizeof(uint));
++_cl_static_assert(uint8 , sizeof(uint8 ) == 8 *sizeof(uint));
++_cl_static_assert(uint16, sizeof(uint16) == 16*sizeof(uint));
++
++_cl_static_assert(float2 , sizeof(float2 ) == 2 *sizeof(float));
++_cl_static_assert(float3 , sizeof(float3 ) == 4 *sizeof(float));
++_cl_static_assert(float4 , sizeof(float4 ) == 4 *sizeof(float));
++_cl_static_assert(float8 , sizeof(float8 ) == 8 *sizeof(float));
++_cl_static_assert(float16, sizeof(float16) == 16*sizeof(float));
++
++_cl_static_assert(double2 , sizeof(double2 ) == 2 *sizeof(double));
++_cl_static_assert(double3 , sizeof(double3 ) == 4 *sizeof(double));
++_cl_static_assert(double4 , sizeof(double4 ) == 4 *sizeof(double));
++_cl_static_assert(double8 , sizeof(double8 ) == 8 *sizeof(double));
++_cl_static_assert(double16, sizeof(double16) == 16*sizeof(double));
++>>>>>>> MERGE-SOURCE
  /* Conversion functions */
--#define _CL_DECLARE_AS_TYPE(SRC, DST)                    \
--  DST __attribute__ ((overloadable)) as_##DST(SRC a);
++#define _cl_overloadable __attribute__ ((__overloadable__))
++
++#define _CL_DECLARE_AS_TYPE(SRC, DST)           \
++  DST _cl_overloadable as_##DST(SRC a);
  /* 1 byte */
--#define _CL_DECLARE_AS_TYPE_1(SRC)                  \
--  _CL_DECLARE_AS_TYPE(SRC, char)                    \
++#define _CL_DECLARE_AS_TYPE_1(SRC)              \
++  _CL_DECLARE_AS_TYPE(SRC, char)                \
    _CL_DECLARE_AS_TYPE(SRC, uchar)
  _CL_DECLARE_AS_TYPE_1(char)
  _CL_DECLARE_AS_TYPE_1(uchar)
  /* 2 bytes */
--#define _CL_DECLARE_AS_TYPE_2(SRC)                  \
--  _CL_DECLARE_AS_TYPE(SRC, char2)                   \
--  _CL_DECLARE_AS_TYPE(SRC, uchar2)                  \
--  _CL_DECLARE_AS_TYPE(SRC, short)                   \
++#define _CL_DECLARE_AS_TYPE_2(SRC)              \
++  _CL_DECLARE_AS_TYPE(SRC, char2)               \
++  _CL_DECLARE_AS_TYPE(SRC, uchar2)              \
++  _CL_DECLARE_AS_TYPE(SRC, short)               \
    _CL_DECLARE_AS_TYPE(SRC, ushort)
  _CL_DECLARE_AS_TYPE_2(char2)
  _CL_DECLARE_AS_TYPE_2(uchar2)
@@ -171,13 +310,13 @@
  _CL_DECLARE_AS_TYPE_2(ushort)
  /* 4 bytes */
--#define _CL_DECLARE_AS_TYPE_4(SRC)                  \
--  _CL_DECLARE_AS_TYPE(SRC, char4)                   \
--  _CL_DECLARE_AS_TYPE(SRC, uchar4)                  \
--  _CL_DECLARE_AS_TYPE(SRC, short2)                  \
--  _CL_DECLARE_AS_TYPE(SRC, ushort2)                 \
--  _CL_DECLARE_AS_TYPE(SRC, int)                     \
--  _CL_DECLARE_AS_TYPE(SRC, uint)                    \
++#define _CL_DECLARE_AS_TYPE_4(SRC)              \
++  _CL_DECLARE_AS_TYPE(SRC, char4)               \
++  _CL_DECLARE_AS_TYPE(SRC, uchar4)              \
++  _CL_DECLARE_AS_TYPE(SRC, short2)              \
++  _CL_DECLARE_AS_TYPE(SRC, ushort2)             \
++  _CL_DECLARE_AS_TYPE(SRC, int)                 \
++  _CL_DECLARE_AS_TYPE(SRC, uint)                \
    _CL_DECLARE_AS_TYPE(SRC, float)
  _CL_DECLARE_AS_TYPE_4(char4)
  _CL_DECLARE_AS_TYPE_4(uchar4)
@@ -188,16 +327,16 @@
  _CL_DECLARE_AS_TYPE_4(float)
  /* 8 bytes */
--#define _CL_DECLARE_AS_TYPE_8(SRC)                  \
--  _CL_DECLARE_AS_TYPE(SRC, char8)                   \
--  _CL_DECLARE_AS_TYPE(SRC, uchar8)                  \
--  _CL_DECLARE_AS_TYPE(SRC, short4)                  \
--  _CL_DECLARE_AS_TYPE(SRC, ushort4)                 \
--  _CL_DECLARE_AS_TYPE(SRC, int2)                    \
--  _CL_DECLARE_AS_TYPE(SRC, uint2)                   \
--  _CL_DECLARE_AS_TYPE(SRC, long)                    \
--  _CL_DECLARE_AS_TYPE(SRC, ulong)                   \
--  _CL_DECLARE_AS_TYPE(SRC, float2)                  \
++#define _CL_DECLARE_AS_TYPE_8(SRC)              \
++  _CL_DECLARE_AS_TYPE(SRC, char8)               \
++  _CL_DECLARE_AS_TYPE(SRC, uchar8)              \
++  _CL_DECLARE_AS_TYPE(SRC, short4)              \
++  _CL_DECLARE_AS_TYPE(SRC, ushort4)             \
++  _CL_DECLARE_AS_TYPE(SRC, int2)                \
++  _CL_DECLARE_AS_TYPE(SRC, uint2)               \
++  _CL_DECLARE_AS_TYPE(SRC, long)                \
++  _CL_DECLARE_AS_TYPE(SRC, ulong)               \
++  _CL_DECLARE_AS_TYPE(SRC, float2)              \
    _CL_DECLARE_AS_TYPE(SRC, double)
  _CL_DECLARE_AS_TYPE_8(char8)
  _CL_DECLARE_AS_TYPE_8(uchar8)
@@ -211,16 +350,16 @@
  _CL_DECLARE_AS_TYPE_8(double)
  /* 16 bytes */
--#define _CL_DECLARE_AS_TYPE_16(SRC)                 \
--  _CL_DECLARE_AS_TYPE(SRC, char16)                  \
--  _CL_DECLARE_AS_TYPE(SRC, uchar16)                 \
--  _CL_DECLARE_AS_TYPE(SRC, short8)                  \
--  _CL_DECLARE_AS_TYPE(SRC, ushort8)                 \
--  _CL_DECLARE_AS_TYPE(SRC, int4)                    \
--  _CL_DECLARE_AS_TYPE(SRC, uint4)                   \
--  _CL_DECLARE_AS_TYPE(SRC, long2)                   \
--  _CL_DECLARE_AS_TYPE(SRC, ulong2)                  \
--  _CL_DECLARE_AS_TYPE(SRC, float4)                  \
++#define _CL_DECLARE_AS_TYPE_16(SRC)             \
++  _CL_DECLARE_AS_TYPE(SRC, char16)              \
++  _CL_DECLARE_AS_TYPE(SRC, uchar16)             \
++  _CL_DECLARE_AS_TYPE(SRC, short8)              \
++  _CL_DECLARE_AS_TYPE(SRC, ushort8)             \
++  _CL_DECLARE_AS_TYPE(SRC, int4)                \
++  _CL_DECLARE_AS_TYPE(SRC, uint4)               \
++  _CL_DECLARE_AS_TYPE(SRC, long2)               \
++  _CL_DECLARE_AS_TYPE(SRC, ulong2)              \
++  _CL_DECLARE_AS_TYPE(SRC, float4)              \
    _CL_DECLARE_AS_TYPE(SRC, double2)
  _CL_DECLARE_AS_TYPE_16(char16)
  _CL_DECLARE_AS_TYPE_16(uchar16)
@@ -234,14 +373,14 @@
  _CL_DECLARE_AS_TYPE_16(double2)
  /* 32 bytes */
--#define _CL_DECLARE_AS_TYPE_32(SRC)                 \
--  _CL_DECLARE_AS_TYPE(SRC, short16)                 \
--  _CL_DECLARE_AS_TYPE(SRC, ushort16)                \
--  _CL_DECLARE_AS_TYPE(SRC, int8)                    \
--  _CL_DECLARE_AS_TYPE(SRC, uint8)                   \
--  _CL_DECLARE_AS_TYPE(SRC, long4)                   \
--  _CL_DECLARE_AS_TYPE(SRC, ulong4)                  \
--  _CL_DECLARE_AS_TYPE(SRC, float8)                  \
++#define _CL_DECLARE_AS_TYPE_32(SRC)             \
++  _CL_DECLARE_AS_TYPE(SRC, short16)             \
++  _CL_DECLARE_AS_TYPE(SRC, ushort16)            \
++  _CL_DECLARE_AS_TYPE(SRC, int8)                \
++  _CL_DECLARE_AS_TYPE(SRC, uint8)               \
++  _CL_DECLARE_AS_TYPE(SRC, long4)               \
++  _CL_DECLARE_AS_TYPE(SRC, ulong4)              \
++  _CL_DECLARE_AS_TYPE(SRC, float8)              \
    _CL_DECLARE_AS_TYPE(SRC, double4)
  _CL_DECLARE_AS_TYPE_32(short16)
  _CL_DECLARE_AS_TYPE_32(ushort16)
@@ -253,12 +392,12 @@
  _CL_DECLARE_AS_TYPE_32(double4)
  /* 64 bytes */
--#define _CL_DECLARE_AS_TYPE_64(SRC)                 \
--  _CL_DECLARE_AS_TYPE(SRC, int16)                   \
--  _CL_DECLARE_AS_TYPE(SRC, uint16)                  \
--  _CL_DECLARE_AS_TYPE(SRC, long8)                   \
--  _CL_DECLARE_AS_TYPE(SRC, ulong8)                  \
--  _CL_DECLARE_AS_TYPE(SRC, float16)                 \
++#define _CL_DECLARE_AS_TYPE_64(SRC)             \
++  _CL_DECLARE_AS_TYPE(SRC, int16)               \
++  _CL_DECLARE_AS_TYPE(SRC, uint16)              \
++  _CL_DECLARE_AS_TYPE(SRC, long8)               \
++  _CL_DECLARE_AS_TYPE(SRC, ulong8)              \
++  _CL_DECLARE_AS_TYPE(SRC, float16)             \
    _CL_DECLARE_AS_TYPE(SRC, double8)
  _CL_DECLARE_AS_TYPE_64(int16)
  _CL_DECLARE_AS_TYPE_64(uint16)
@@ -268,16 +407,16 @@
  _CL_DECLARE_AS_TYPE_64(double8)
  /* 128 bytes */
--#define _CL_DECLARE_AS_TYPE_128(SRC)                \
--  _CL_DECLARE_AS_TYPE(SRC, long16)                  \
--  _CL_DECLARE_AS_TYPE(SRC, ulong16)                 \
++#define _CL_DECLARE_AS_TYPE_128(SRC)            \
++  _CL_DECLARE_AS_TYPE(SRC, long16)              \
++  _CL_DECLARE_AS_TYPE(SRC, ulong16)             \
    _CL_DECLARE_AS_TYPE(SRC, double16)
  _CL_DECLARE_AS_TYPE_128(long16)
  _CL_DECLARE_AS_TYPE_128(ulong16)
  _CL_DECLARE_AS_TYPE_128(double16)
--#define _CL_DECLARE_CONVERT_TYPE(SRC, DST)                      \
--  DST __attribute__ ((overloadable)) convert_##DST(SRC a);
++#define _CL_DECLARE_CONVERT_TYPE(SRC, DST)      \
++  DST _cl_overloadable convert_##DST(SRC a);
  /* 1 element */
  #define _CL_DECLARE_CONVERT_TYPE_1(SRC)         \
@@ -506,241 +645,241 @@
   *    V: vector of float or double
   */
--#define _CL_DECLARE_FUNC_V_V(NAME)                              \
--  float    __attribute__ ((overloadable)) NAME(float   );       \
--  float2   __attribute__ ((overloadable)) NAME(float2  );       \
--  float3   __attribute__ ((overloadable)) NAME(float3  );       \
--  float4   __attribute__ ((overloadable)) NAME(float4  );       \
--  float8   __attribute__ ((overloadable)) NAME(float8  );       \
--  float16  __attribute__ ((overloadable)) NAME(float16 );       \
--  double   __attribute__ ((overloadable)) NAME(double  );       \
--  double2  __attribute__ ((overloadable)) NAME(double2 );       \
--  double3  __attribute__ ((overloadable)) NAME(double3 );       \
--  double4  __attribute__ ((overloadable)) NAME(double4 );       \
--  double8  __attribute__ ((overloadable)) NAME(double8 );       \
--  double16 __attribute__ ((overloadable)) NAME(double16);
--#define _CL_DECLARE_FUNC_V_VV(NAME)                                     \
--  float    __attribute__ ((overloadable)) NAME(float   , float   );     \
--  float2   __attribute__ ((overloadable)) NAME(float2  , float2  );     \
--  float3   __attribute__ ((overloadable)) NAME(float3  , float3  );     \
--  float4   __attribute__ ((overloadable)) NAME(float4  , float4  );     \
--  float8   __attribute__ ((overloadable)) NAME(float8  , float8  );     \
--  float16  __attribute__ ((overloadable)) NAME(float16 , float16 );     \
--  double   __attribute__ ((overloadable)) NAME(double  , double  );     \
--  double2  __attribute__ ((overloadable)) NAME(double2 , double2 );     \
--  double3  __attribute__ ((overloadable)) NAME(double3 , double3 );     \
--  double4  __attribute__ ((overloadable)) NAME(double4 , double4 );     \
--  double8  __attribute__ ((overloadable)) NAME(double8 , double8 );     \
--  double16 __attribute__ ((overloadable)) NAME(double16, double16);
--#define _CL_DECLARE_FUNC_V_VVV(NAME)                                    \
--  float    __attribute__ ((overloadable)) NAME(float   , float   , float   ); \
--  float2   __attribute__ ((overloadable)) NAME(float2  , float2  , float2  ); \
--  float3   __attribute__ ((overloadable)) NAME(float3  , float3  , float3  ); \
--  float4   __attribute__ ((overloadable)) NAME(float4  , float4  , float4  ); \
--  float8   __attribute__ ((overloadable)) NAME(float8  , float8  , float8  ); \
--  float16  __attribute__ ((overloadable)) NAME(float16 , float16 , float16 ); \
--  double   __attribute__ ((overloadable)) NAME(double  , double  , double  ); \
--  double2  __attribute__ ((overloadable)) NAME(double2 , double2 , double2 ); \
--  double3  __attribute__ ((overloadable)) NAME(double3 , double3 , double3 ); \
--  double4  __attribute__ ((overloadable)) NAME(double4 , double4 , double4 ); \
--  double8  __attribute__ ((overloadable)) NAME(double8 , double8 , double8 ); \
--  double16 __attribute__ ((overloadable)) NAME(double16, double16, double16);
--#define _CL_DECLARE_FUNC_V_VVS(NAME)                                    \
--  float2   __attribute__ ((overloadable)) NAME(float2  , float2  , float ); \
--  float3   __attribute__ ((overloadable)) NAME(float3  , float3  , float ); \
--  float4   __attribute__ ((overloadable)) NAME(float4  , float4  , float ); \
--  float8   __attribute__ ((overloadable)) NAME(float8  , float8  , float ); \
--  float16  __attribute__ ((overloadable)) NAME(float16 , float16 , float ); \
--  double2  __attribute__ ((overloadable)) NAME(double2 , double2 , double); \
--  double3  __attribute__ ((overloadable)) NAME(double3 , double3 , double); \
--  double4  __attribute__ ((overloadable)) NAME(double4 , double4 , double); \
--  double8  __attribute__ ((overloadable)) NAME(double8 , double8 , double); \
--  double16 __attribute__ ((overloadable)) NAME(double16, double16, double);
--#define _CL_DECLARE_FUNC_V_VSS(NAME)                                    \
--  float2   __attribute__ ((overloadable)) NAME(float2  , float , float ); \
--  float3   __attribute__ ((overloadable)) NAME(float3  , float , float ); \
--  float4   __attribute__ ((overloadable)) NAME(float4  , float , float ); \
--  float8   __attribute__ ((overloadable)) NAME(float8  , float , float ); \
--  float16  __attribute__ ((overloadable)) NAME(float16 , float , float ); \
--  double2  __attribute__ ((overloadable)) NAME(double2 , double, double); \
--  double3  __attribute__ ((overloadable)) NAME(double3 , double, double); \
--  double4  __attribute__ ((overloadable)) NAME(double4 , double, double); \
--  double8  __attribute__ ((overloadable)) NAME(double8 , double, double); \
--  double16 __attribute__ ((overloadable)) NAME(double16, double, double);
--#define _CL_DECLARE_FUNC_V_SSV(NAME)                                    \
--  float2   __attribute__ ((overloadable)) NAME(float , float , float2  ); \
--  float3   __attribute__ ((overloadable)) NAME(float , float , float3  ); \
--  float4   __attribute__ ((overloadable)) NAME(float , float , float4  ); \
--  float8   __attribute__ ((overloadable)) NAME(float , float , float8  ); \
--  float16  __attribute__ ((overloadable)) NAME(float , float , float16 ); \
--  double2  __attribute__ ((overloadable)) NAME(double, double, double2 ); \
--  double3  __attribute__ ((overloadable)) NAME(double, double, double3 ); \
--  double4  __attribute__ ((overloadable)) NAME(double, double, double4 ); \
--  double8  __attribute__ ((overloadable)) NAME(double, double, double8 ); \
--  double16 __attribute__ ((overloadable)) NAME(double, double, double16);
--#define _CL_DECLARE_FUNC_V_VVJ(NAME)                                    \
--  float    __attribute__ ((overloadable)) NAME(float   , float   , int   ); \
--  float2   __attribute__ ((overloadable)) NAME(float2  , float2  , int2  ); \
--  float3   __attribute__ ((overloadable)) NAME(float3  , float3  , int3  ); \
--  float4   __attribute__ ((overloadable)) NAME(float4  , float4  , int4  ); \
--  float8   __attribute__ ((overloadable)) NAME(float8  , float8  , int8  ); \
--  float16  __attribute__ ((overloadable)) NAME(float16 , float16 , int16 ); \
--  double   __attribute__ ((overloadable)) NAME(double  , double  , long  ); \
--  double2  __attribute__ ((overloadable)) NAME(double2 , double2 , long2 ); \
--  double3  __attribute__ ((overloadable)) NAME(double3 , double3 , long3 ); \
--  double4  __attribute__ ((overloadable)) NAME(double4 , double4 , long4 ); \
--  double8  __attribute__ ((overloadable)) NAME(double8 , double8 , long8 ); \
--  double16 __attribute__ ((overloadable)) NAME(double16, double16, long16);
--#define _CL_DECLARE_FUNC_V_U(NAME)                              \
--  float    __attribute__ ((overloadable)) NAME(uint   );        \
--  float2   __attribute__ ((overloadable)) NAME(uint2  );        \
--  float3   __attribute__ ((overloadable)) NAME(uint3  );        \
--  float4   __attribute__ ((overloadable)) NAME(uint4  );        \
--  float8   __attribute__ ((overloadable)) NAME(uint8  );        \
--  float16  __attribute__ ((overloadable)) NAME(uint16 );        \
--  double   __attribute__ ((overloadable)) NAME(ulong  );        \
--  double2  __attribute__ ((overloadable)) NAME(ulong2 );        \
--  double3  __attribute__ ((overloadable)) NAME(ulong3 );        \
--  double4  __attribute__ ((overloadable)) NAME(ulong4 );        \
--  double8  __attribute__ ((overloadable)) NAME(ulong8 );        \
--  double16 __attribute__ ((overloadable)) NAME(ulong16);
--#define _CL_DECLARE_FUNC_V_VS(NAME)                                     \
--  float2   __attribute__ ((overloadable)) NAME(float2  , float );       \
--  float3   __attribute__ ((overloadable)) NAME(float3  , float );       \
--  float4   __attribute__ ((overloadable)) NAME(float4  , float );       \
--  float8   __attribute__ ((overloadable)) NAME(float8  , float );       \
--  float16  __attribute__ ((overloadable)) NAME(float16 , float );       \
--  double2  __attribute__ ((overloadable)) NAME(double2 , double);       \
--  double3  __attribute__ ((overloadable)) NAME(double3 , double);       \
--  double4  __attribute__ ((overloadable)) NAME(double4 , double);       \
--  double8  __attribute__ ((overloadable)) NAME(double8 , double);       \
--  double16 __attribute__ ((overloadable)) NAME(double16, double);
--#define _CL_DECLARE_FUNC_V_VJ(NAME)                                     \
--  float    __attribute__ ((overloadable)) NAME(float   , int  );        \
--  float2   __attribute__ ((overloadable)) NAME(float2  , int2 );        \
--  float3   __attribute__ ((overloadable)) NAME(float3  , int3 );        \
--  float4   __attribute__ ((overloadable)) NAME(float4  , int4 );        \
--  float8   __attribute__ ((overloadable)) NAME(float8  , int8 );        \
--  float16  __attribute__ ((overloadable)) NAME(float16 , int16);        \
--  double   __attribute__ ((overloadable)) NAME(double  , int  );        \
--  double2  __attribute__ ((overloadable)) NAME(double2 , int2 );        \
--  double3  __attribute__ ((overloadable)) NAME(double3 , int3 );        \
--  double4  __attribute__ ((overloadable)) NAME(double4 , int4 );        \
--  double8  __attribute__ ((overloadable)) NAME(double8 , int8 );        \
--  double16 __attribute__ ((overloadable)) NAME(double16, int16);
--#define _CL_DECLARE_FUNC_J_VV(NAME)                                     \
--  int    __attribute__ ((overloadable)) NAME(float   , float   );       \
--  int2   __attribute__ ((overloadable)) NAME(float2  , float2  );       \
--  int3   __attribute__ ((overloadable)) NAME(float3  , float3  );       \
--  int4   __attribute__ ((overloadable)) NAME(float4  , float4  );       \
--  int8   __attribute__ ((overloadable)) NAME(float8  , float8  );       \
--  int16  __attribute__ ((overloadable)) NAME(float16 , float16 );       \
--  int    __attribute__ ((overloadable)) NAME(double  , double  );       \
--  long2  __attribute__ ((overloadable)) NAME(double2 , double2 );       \
--  long3  __attribute__ ((overloadable)) NAME(double3 , double3 );       \
--  long4  __attribute__ ((overloadable)) NAME(double4 , double4 );       \
--  long8  __attribute__ ((overloadable)) NAME(double8 , double8 );       \
--  long16 __attribute__ ((overloadable)) NAME(double16, double16);
--#define _CL_DECLARE_FUNC_V_VI(NAME)                             \
--  float2   __attribute__ ((overloadable)) NAME(float2  , int);  \
--  float3   __attribute__ ((overloadable)) NAME(float3  , int);  \
--  float4   __attribute__ ((overloadable)) NAME(float4  , int);  \
--  float8   __attribute__ ((overloadable)) NAME(float8  , int);  \
--  float16  __attribute__ ((overloadable)) NAME(float16 , int);  \
--  double2  __attribute__ ((overloadable)) NAME(double2 , int);  \
--  double3  __attribute__ ((overloadable)) NAME(double3 , int);  \
--  double4  __attribute__ ((overloadable)) NAME(double4 , int);  \
--  double8  __attribute__ ((overloadable)) NAME(double8 , int);  \
--  double16 __attribute__ ((overloadable)) NAME(double16, int);
++#define _CL_DECLARE_FUNC_V_V(NAME)              \
++  float    _cl_overloadable NAME(float   );     \
++  float2   _cl_overloadable NAME(float2  );     \
++  float3   _cl_overloadable NAME(float3  );     \
++  float4   _cl_overloadable NAME(float4  );     \
++  float8   _cl_overloadable NAME(float8  );     \
++  float16  _cl_overloadable NAME(float16 );     \
++  double   _cl_overloadable NAME(double  );     \
++  double2  _cl_overloadable NAME(double2 );     \
++  double3  _cl_overloadable NAME(double3 );     \
++  double4  _cl_overloadable NAME(double4 );     \
++  double8  _cl_overloadable NAME(double8 );     \
++  double16 _cl_overloadable NAME(double16);
++#define _CL_DECLARE_FUNC_V_VV(NAME)                     \
++  float    _cl_overloadable NAME(float   , float   );   \
++  float2   _cl_overloadable NAME(float2  , float2  );   \
++  float3   _cl_overloadable NAME(float3  , float3  );   \
++  float4   _cl_overloadable NAME(float4  , float4  );   \
++  float8   _cl_overloadable NAME(float8  , float8  );   \
++  float16  _cl_overloadable NAME(float16 , float16 );   \
++  double   _cl_overloadable NAME(double  , double  );   \
++  double2  _cl_overloadable NAME(double2 , double2 );   \
++  double3  _cl_overloadable NAME(double3 , double3 );   \
++  double4  _cl_overloadable NAME(double4 , double4 );   \
++  double8  _cl_overloadable NAME(double8 , double8 );   \
++  double16 _cl_overloadable NAME(double16, double16);
++#define _CL_DECLARE_FUNC_V_VVV(NAME)                            \
++  float    _cl_overloadable NAME(float   , float   , float   ); \
++  float2   _cl_overloadable NAME(float2  , float2  , float2  ); \
++  float3   _cl_overloadable NAME(float3  , float3  , float3  ); \
++  float4   _cl_overloadable NAME(float4  , float4  , float4  ); \
++  float8   _cl_overloadable NAME(float8  , float8  , float8  ); \
++  float16  _cl_overloadable NAME(float16 , float16 , float16 ); \
++  double   _cl_overloadable NAME(double  , double  , double  ); \
++  double2  _cl_overloadable NAME(double2 , double2 , double2 ); \
++  double3  _cl_overloadable NAME(double3 , double3 , double3 ); \
++  double4  _cl_overloadable NAME(double4 , double4 , double4 ); \
++  double8  _cl_overloadable NAME(double8 , double8 , double8 ); \
++  double16 _cl_overloadable NAME(double16, double16, double16);
++#define _CL_DECLARE_FUNC_V_VVS(NAME)                            \
++  float2   _cl_overloadable NAME(float2  , float2  , float );   \
++  float3   _cl_overloadable NAME(float3  , float3  , float );   \
++  float4   _cl_overloadable NAME(float4  , float4  , float );   \
++  float8   _cl_overloadable NAME(float8  , float8  , float );   \
++  float16  _cl_overloadable NAME(float16 , float16 , float );   \
++  double2  _cl_overloadable NAME(double2 , double2 , double);   \
++  double3  _cl_overloadable NAME(double3 , double3 , double);   \
++  double4  _cl_overloadable NAME(double4 , double4 , double);   \
++  double8  _cl_overloadable NAME(double8 , double8 , double);   \
++  double16 _cl_overloadable NAME(double16, double16, double);
++#define _CL_DECLARE_FUNC_V_VSS(NAME)                            \
++  float2   _cl_overloadable NAME(float2  , float , float );     \
++  float3   _cl_overloadable NAME(float3  , float , float );     \
++  float4   _cl_overloadable NAME(float4  , float , float );     \
++  float8   _cl_overloadable NAME(float8  , float , float );     \
++  float16  _cl_overloadable NAME(float16 , float , float );     \
++  double2  _cl_overloadable NAME(double2 , double, double);     \
++  double3  _cl_overloadable NAME(double3 , double, double);     \
++  double4  _cl_overloadable NAME(double4 , double, double);     \
++  double8  _cl_overloadable NAME(double8 , double, double);     \
++  double16 _cl_overloadable NAME(double16, double, double);
++#define _CL_DECLARE_FUNC_V_SSV(NAME)                            \
++  float2   _cl_overloadable NAME(float , float , float2  );     \
++  float3   _cl_overloadable NAME(float , float , float3  );     \
++  float4   _cl_overloadable NAME(float , float , float4  );     \
++  float8   _cl_overloadable NAME(float , float , float8  );     \
++  float16  _cl_overloadable NAME(float , float , float16 );     \
++  double2  _cl_overloadable NAME(double, double, double2 );     \
++  double3  _cl_overloadable NAME(double, double, double3 );     \
++  double4  _cl_overloadable NAME(double, double, double4 );     \
++  double8  _cl_overloadable NAME(double, double, double8 );     \
++  double16 _cl_overloadable NAME(double, double, double16);
++#define _CL_DECLARE_FUNC_V_VVJ(NAME)                            \
++  float    _cl_overloadable NAME(float   , float   , int   );   \
++  float2   _cl_overloadable NAME(float2  , float2  , int2  );   \
++  float3   _cl_overloadable NAME(float3  , float3  , int3  );   \
++  float4   _cl_overloadable NAME(float4  , float4  , int4  );   \
++  float8   _cl_overloadable NAME(float8  , float8  , int8  );   \
++  float16  _cl_overloadable NAME(float16 , float16 , int16 );   \
++  double   _cl_overloadable NAME(double  , double  , long  );   \
++  double2  _cl_overloadable NAME(double2 , double2 , long2 );   \
++  double3  _cl_overloadable NAME(double3 , double3 , long3 );   \
++  double4  _cl_overloadable NAME(double4 , double4 , long4 );   \
++  double8  _cl_overloadable NAME(double8 , double8 , long8 );   \
++  double16 _cl_overloadable NAME(double16, double16, long16);
++#define _CL_DECLARE_FUNC_V_U(NAME)              \
++  float    _cl_overloadable NAME(uint   );      \
++  float2   _cl_overloadable NAME(uint2  );      \
++  float3   _cl_overloadable NAME(uint3  );      \
++  float4   _cl_overloadable NAME(uint4  );      \
++  float8   _cl_overloadable NAME(uint8  );      \
++  float16  _cl_overloadable NAME(uint16 );      \
++  double   _cl_overloadable NAME(ulong  );      \
++  double2  _cl_overloadable NAME(ulong2 );      \
++  double3  _cl_overloadable NAME(ulong3 );      \
++  double4  _cl_overloadable NAME(ulong4 );      \
++  double8  _cl_overloadable NAME(ulong8 );      \
++  double16 _cl_overloadable NAME(ulong16);
++#define _CL_DECLARE_FUNC_V_VS(NAME)                     \
++  float2   _cl_overloadable NAME(float2  , float );     \
++  float3   _cl_overloadable NAME(float3  , float );     \
++  float4   _cl_overloadable NAME(float4  , float );     \
++  float8   _cl_overloadable NAME(float8  , float );     \
++  float16  _cl_overloadable NAME(float16 , float );     \
++  double2  _cl_overloadable NAME(double2 , double);     \
++  double3  _cl_overloadable NAME(double3 , double);     \
++  double4  _cl_overloadable NAME(double4 , double);     \
++  double8  _cl_overloadable NAME(double8 , double);     \
++  double16 _cl_overloadable NAME(double16, double);
++#define _CL_DECLARE_FUNC_V_VJ(NAME)                     \
++  float    _cl_overloadable NAME(float   , int  );      \
++  float2   _cl_overloadable NAME(float2  , int2 );      \
++  float3   _cl_overloadable NAME(float3  , int3 );      \
++  float4   _cl_overloadable NAME(float4  , int4 );      \
++  float8   _cl_overloadable NAME(float8  , int8 );      \
++  float16  _cl_overloadable NAME(float16 , int16);      \
++  double   _cl_overloadable NAME(double  , int  );      \
++  double2  _cl_overloadable NAME(double2 , int2 );      \
++  double3  _cl_overloadable NAME(double3 , int3 );      \
++  double4  _cl_overloadable NAME(double4 , int4 );      \
++  double8  _cl_overloadable NAME(double8 , int8 );      \
++  double16 _cl_overloadable NAME(double16, int16);
++#define _CL_DECLARE_FUNC_J_VV(NAME)                     \
++  int    _cl_overloadable NAME(float   , float   );     \
++  int2   _cl_overloadable NAME(float2  , float2  );     \
++  int3   _cl_overloadable NAME(float3  , float3  );     \
++  int4   _cl_overloadable NAME(float4  , float4  );     \
++  int8   _cl_overloadable NAME(float8  , float8  );     \
++  int16  _cl_overloadable NAME(float16 , float16 );     \
++  int    _cl_overloadable NAME(double  , double  );     \
++  long2  _cl_overloadable NAME(double2 , double2 );     \
++  long3  _cl_overloadable NAME(double3 , double3 );     \
++  long4  _cl_overloadable NAME(double4 , double4 );     \
++  long8  _cl_overloadable NAME(double8 , double8 );     \
++  long16 _cl_overloadable NAME(double16, double16);
++#define _CL_DECLARE_FUNC_V_VI(NAME)                     \
++  float2   _cl_overloadable NAME(float2  , int);        \
++  float3   _cl_overloadable NAME(float3  , int);        \
++  float4   _cl_overloadable NAME(float4  , int);        \
++  float8   _cl_overloadable NAME(float8  , int);        \
++  float16  _cl_overloadable NAME(float16 , int);        \
++  double2  _cl_overloadable NAME(double2 , int);        \
++  double3  _cl_overloadable NAME(double3 , int);        \
++  double4  _cl_overloadable NAME(double4 , int);        \
++  double8  _cl_overloadable NAME(double8 , int);        \
++  double16 _cl_overloadable NAME(double16, int);
  #define _CL_DECLARE_FUNC_V_VPV(NAME)                                    \
--  float    __attribute__ ((overloadable)) NAME(float   , __global  float   *); \
--  float2   __attribute__ ((overloadable)) NAME(float2  , __global  float2  *); \
--  float3   __attribute__ ((overloadable)) NAME(float3  , __global  float3  *); \
--  float4   __attribute__ ((overloadable)) NAME(float4  , __global  float4  *); \
--  float8   __attribute__ ((overloadable)) NAME(float8  , __global  float8  *); \
--  float16  __attribute__ ((overloadable)) NAME(float16 , __global  float16 *); \
--  double   __attribute__ ((overloadable)) NAME(double  , __global  double  *); \
--  double2  __attribute__ ((overloadable)) NAME(double2 , __global  double2 *); \
--  double3  __attribute__ ((overloadable)) NAME(double3 , __global  double3 *); \
--  double4  __attribute__ ((overloadable)) NAME(double4 , __global  double4 *); \
--  double8  __attribute__ ((overloadable)) NAME(double8 , __global  double8 *); \
--  double16 __attribute__ ((overloadable)) NAME(double16, __global  double16*); \
--  float    __attribute__ ((overloadable)) NAME(float   , __local   float   *); \
--  float2   __attribute__ ((overloadable)) NAME(float2  , __local   float2  *); \
--  float3   __attribute__ ((overloadable)) NAME(float3  , __local   float3  *); \
--  float4   __attribute__ ((overloadable)) NAME(float4  , __local   float4  *); \
--  float8   __attribute__ ((overloadable)) NAME(float8  , __local   float8  *); \
--  float16  __attribute__ ((overloadable)) NAME(float16 , __local   float16 *); \
--  double   __attribute__ ((overloadable)) NAME(double  , __local   double  *); \
--  double2  __attribute__ ((overloadable)) NAME(double2 , __local   double2 *); \
--  double3  __attribute__ ((overloadable)) NAME(double3 , __local   double3 *); \
--  double4  __attribute__ ((overloadable)) NAME(double4 , __local   double4 *); \
--  double8  __attribute__ ((overloadable)) NAME(double8 , __local   double8 *); \
--  double16 __attribute__ ((overloadable)) NAME(double16, __local   double16*); \
++  float    _cl_overloadable NAME(float   , __global  float   *);        \
++  float2   _cl_overloadable NAME(float2  , __global  float2  *);        \
++  float3   _cl_overloadable NAME(float3  , __global  float3  *);        \
++  float4   _cl_overloadable NAME(float4  , __global  float4  *);        \
++  float8   _cl_overloadable NAME(float8  , __global  float8  *);        \
++  float16  _cl_overloadable NAME(float16 , __global  float16 *);        \
++  double   _cl_overloadable NAME(double  , __global  double  *);        \
++  double2  _cl_overloadable NAME(double2 , __global  double2 *);        \
++  double3  _cl_overloadable NAME(double3 , __global  double3 *);        \
++  double4  _cl_overloadable NAME(double4 , __global  double4 *);        \
++  double8  _cl_overloadable NAME(double8 , __global  double8 *);        \
++  double16 _cl_overloadable NAME(double16, __global  double16*);        \
++  float    _cl_overloadable NAME(float   , __local   float   *);        \
++  float2   _cl_overloadable NAME(float2  , __local   float2  *);        \
++  float3   _cl_overloadable NAME(float3  , __local   float3  *);        \
++  float4   _cl_overloadable NAME(float4  , __local   float4  *);        \
++  float8   _cl_overloadable NAME(float8  , __local   float8  *);        \
++  float16  _cl_overloadable NAME(float16 , __local   float16 *);        \
++  double   _cl_overloadable NAME(double  , __local   double  *);        \
++  double2  _cl_overloadable NAME(double2 , __local   double2 *);        \
++  double3  _cl_overloadable NAME(double3 , __local   double3 *);        \
++  double4  _cl_overloadable NAME(double4 , __local   double4 *);        \
++  double8  _cl_overloadable NAME(double8 , __local   double8 *);        \
++  double16 _cl_overloadable NAME(double16, __local   double16*);        \
    /* __private is not supported yet                                     \
--  float    __attribute__ ((overloadable)) NAME(float   , __private float   *); \
--  float2   __attribute__ ((overloadable)) NAME(float2  , __private float2  *); \
--  float3   __attribute__ ((overloadable)) NAME(float3  , __private float3  *); \
--  float4   __attribute__ ((overloadable)) NAME(float4  , __private float4  *); \
--  float8   __attribute__ ((overloadable)) NAME(float8  , __private float8  *); \
--  float16  __attribute__ ((overloadable)) NAME(float16 , __private float16 *); \
--  double   __attribute__ ((overloadable)) NAME(double  , __private double  *); \
--  double2  __attribute__ ((overloadable)) NAME(double2 , __private double2 *); \
--  double3  __attribute__ ((overloadable)) NAME(double3 , __private double3 *); \
--  double4  __attribute__ ((overloadable)) NAME(double4 , __private double4 *); \
--  double8  __attribute__ ((overloadable)) NAME(double8 , __private double8 *); \
--  double16 __attribute__ ((overloadable)) NAME(double16, __private double16*); \
++  float    _cl_overloadable NAME(float   , __private float   *);        \
++  float2   _cl_overloadable NAME(float2  , __private float2  *);        \
++  float3   _cl_overloadable NAME(float3  , __private float3  *);        \
++  float4   _cl_overloadable NAME(float4  , __private float4  *);        \
++  float8   _cl_overloadable NAME(float8  , __private float8  *);        \
++  float16  _cl_overloadable NAME(float16 , __private float16 *);        \
++  double   _cl_overloadable NAME(double  , __private double  *);        \
++  double2  _cl_overloadable NAME(double2 , __private double2 *);        \
++  double3  _cl_overloadable NAME(double3 , __private double3 *);        \
++  double4  _cl_overloadable NAME(double4 , __private double4 *);        \
++  double8  _cl_overloadable NAME(double8 , __private double8 *);        \
++  double16 _cl_overloadable NAME(double16, __private double16*);        \
    */
--#define _CL_DECLARE_FUNC_V_SV(NAME)                                     \
--  float2   __attribute__ ((overloadable)) NAME(float , float2  );       \
--  float3   __attribute__ ((overloadable)) NAME(float , float3  );       \
--  float4   __attribute__ ((overloadable)) NAME(float , float4  );       \
--  float8   __attribute__ ((overloadable)) NAME(float , float8  );       \
--  float16  __attribute__ ((overloadable)) NAME(float , float16 );       \
--  double2  __attribute__ ((overloadable)) NAME(double, double2 );       \
--  double3  __attribute__ ((overloadable)) NAME(double, double3 );       \
--  double4  __attribute__ ((overloadable)) NAME(double, double4 );       \
--  double8  __attribute__ ((overloadable)) NAME(double, double8 );       \
--  double16 __attribute__ ((overloadable)) NAME(double, double16);
--#define _CL_DECLARE_FUNC_J_V(NAME)                      \
--  int   __attribute__ ((overloadable)) NAME(float   );  \
--  int2  __attribute__ ((overloadable)) NAME(float2  );  \
--  int3  __attribute__ ((overloadable)) NAME(float3  );  \
--  int4  __attribute__ ((overloadable)) NAME(float4  );  \
--  int8  __attribute__ ((overloadable)) NAME(float8  );  \
--  int16 __attribute__ ((overloadable)) NAME(float16 );  \
--  int   __attribute__ ((overloadable)) NAME(double  );  \
--  int2  __attribute__ ((overloadable)) NAME(double2 );  \
--  int3  __attribute__ ((overloadable)) NAME(double3 );  \
--  int4  __attribute__ ((overloadable)) NAME(double4 );  \
--  int8  __attribute__ ((overloadable)) NAME(double8 );  \
--  int16 __attribute__ ((overloadable)) NAME(double16);
--#define _CL_DECLARE_FUNC_S_V(NAME)                      \
--  float  __attribute__ ((overloadable)) NAME(float   ); \
--  float  __attribute__ ((overloadable)) NAME(float2  ); \
--  float  __attribute__ ((overloadable)) NAME(float3  ); \
--  float  __attribute__ ((overloadable)) NAME(float4  ); \
--  float  __attribute__ ((overloadable)) NAME(float8  ); \
--  float  __attribute__ ((overloadable)) NAME(float16 ); \
--  double __attribute__ ((overloadable)) NAME(double  ); \
--  double __attribute__ ((overloadable)) NAME(double2 ); \
--  double __attribute__ ((overloadable)) NAME(double3 ); \
--  double __attribute__ ((overloadable)) NAME(double4 ); \
--  double __attribute__ ((overloadable)) NAME(double8 ); \
--  double __attribute__ ((overloadable)) NAME(double16);
--#define _CL_DECLARE_FUNC_S_VV(NAME)                                     \
--  float  __attribute__ ((overloadable)) NAME(float   , float   );       \
--  float  __attribute__ ((overloadable)) NAME(float2  , float2  );       \
--  float  __attribute__ ((overloadable)) NAME(float3  , float3  );       \
--  float  __attribute__ ((overloadable)) NAME(float4  , float4  );       \
--  float  __attribute__ ((overloadable)) NAME(float8  , float8  );       \
--  float  __attribute__ ((overloadable)) NAME(float16 , float16 );       \
--  double __attribute__ ((overloadable)) NAME(double  , double  );       \
--  double __attribute__ ((overloadable)) NAME(double2 , double2 );       \
--  double __attribute__ ((overloadable)) NAME(double3 , double3 );       \
--  double __attribute__ ((overloadable)) NAME(double4 , double4 );       \
--  double __attribute__ ((overloadable)) NAME(double8 , double8 );       \
--  double __attribute__ ((overloadable)) NAME(double16, double16);
++#define _CL_DECLARE_FUNC_V_SV(NAME)                     \
++  float2   _cl_overloadable NAME(float , float2  );     \
++  float3   _cl_overloadable NAME(float , float3  );     \
++  float4   _cl_overloadable NAME(float , float4  );     \
++  float8   _cl_overloadable NAME(float , float8  );     \
++  float16  _cl_overloadable NAME(float , float16 );     \
++  double2  _cl_overloadable NAME(double, double2 );     \
++  double3  _cl_overloadable NAME(double, double3 );     \
++  double4  _cl_overloadable NAME(double, double4 );     \
++  double8  _cl_overloadable NAME(double, double8 );     \
++  double16 _cl_overloadable NAME(double, double16);
++#define _CL_DECLARE_FUNC_J_V(NAME)              \
++  int   _cl_overloadable NAME(float   );        \
++  int2  _cl_overloadable NAME(float2  );        \
++  int3  _cl_overloadable NAME(float3  );        \
++  int4  _cl_overloadable NAME(float4  );        \
++  int8  _cl_overloadable NAME(float8  );        \
++  int16 _cl_overloadable NAME(float16 );        \
++  int   _cl_overloadable NAME(double  );        \
++  int2  _cl_overloadable NAME(double2 );        \
++  int3  _cl_overloadable NAME(double3 );        \
++  int4  _cl_overloadable NAME(double4 );        \
++  int8  _cl_overloadable NAME(double8 );        \
++  int16 _cl_overloadable NAME(double16);
++#define _CL_DECLARE_FUNC_S_V(NAME)              \
++  float  _cl_overloadable NAME(float   );       \
++  float  _cl_overloadable NAME(float2  );       \
++  float  _cl_overloadable NAME(float3  );       \
++  float  _cl_overloadable NAME(float4  );       \
++  float  _cl_overloadable NAME(float8  );       \
++  float  _cl_overloadable NAME(float16 );       \
++  double _cl_overloadable NAME(double  );       \
++  double _cl_overloadable NAME(double2 );       \
++  double _cl_overloadable NAME(double3 );       \
++  double _cl_overloadable NAME(double4 );       \
++  double _cl_overloadable NAME(double8 );       \
++  double _cl_overloadable NAME(double16);
++#define _CL_DECLARE_FUNC_S_VV(NAME)                     \
++  float  _cl_overloadable NAME(float   , float   );     \
++  float  _cl_overloadable NAME(float2  , float2  );     \
++  float  _cl_overloadable NAME(float3  , float3  );     \
++  float  _cl_overloadable NAME(float4  , float4  );     \
++  float  _cl_overloadable NAME(float8  , float8  );     \
++  float  _cl_overloadable NAME(float16 , float16 );     \
++  double _cl_overloadable NAME(double  , double  );     \
++  double _cl_overloadable NAME(double2 , double2 );     \
++  double _cl_overloadable NAME(double3 , double3 );     \
++  double _cl_overloadable NAME(double4 , double4 );     \
++  double _cl_overloadable NAME(double8 , double8 );     \
++  double _cl_overloadable NAME(double16, double16);
  /* Move built-in declarations out of the way. (There should be a
     better way of doing so.) These five functions are built-in math
@@ -779,11 +918,26 @@
  _CL_DECLARE_FUNC_V_V(fabs)
  _CL_DECLARE_FUNC_V_VV(fdim)
  _CL_DECLARE_FUNC_V_V(floor)
--_CL_DECLARE_FUNC_V_VVV(fma)
--_CL_DECLARE_FUNC_V_VV(fmax)
--_CL_DECLARE_FUNC_V_VS(fmax)
--_CL_DECLARE_FUNC_V_VV(fmin)
--_CL_DECLARE_FUNC_V_VS(fmin)
++#if __FAST__RELAXED__MATH__
++#  define _cl_fma _cl_fast_fma
++#else
++#  define _cl_fma _cl_std_fma
++#endif
++#define _cl_fast_fma mad
++_CL_DECLARE_FUNC_V_VVV(_cl_std_fma)
++#if __FAST__RELAXED__MATH__
++#  define fmax _cl_fast_fmax
++#  define fmin _cl_fast_fmin
++#else
++#  define fmax _cl_std_fmax
++#  define fmin _cl_std_fmin
++#endif
++#define _cl_fast_fmax max
++#define _cl_fast_fmin min
++_CL_DECLARE_FUNC_V_VV(_cl_std_fmax)
++_CL_DECLARE_FUNC_V_VS(_cl_std_fmax)
++_CL_DECLARE_FUNC_V_VV(_cl_std_fmin)
++_CL_DECLARE_FUNC_V_VS(_cl_std_fmin)
  _CL_DECLARE_FUNC_V_VV(fmod)
  _CL_DECLARE_FUNC_V_VPV(fract)
  // frexp
@@ -850,380 +1004,380 @@
  /* Integer Functions */
--#define _CL_DECLARE_FUNC_G_G(NAME)                              \
--  char     __attribute__ ((overloadable)) NAME(char    );       \
--  char2    __attribute__ ((overloadable)) NAME(char2   );       \
--  char3    __attribute__ ((overloadable)) NAME(char3   );       \
--  char4    __attribute__ ((overloadable)) NAME(char4   );       \
--  char8    __attribute__ ((overloadable)) NAME(char8   );       \
--  char16   __attribute__ ((overloadable)) NAME(char16  );       \
--  short    __attribute__ ((overloadable)) NAME(short   );       \
--  short2   __attribute__ ((overloadable)) NAME(short2  );       \
--  short3   __attribute__ ((overloadable)) NAME(short3  );       \
--  short4   __attribute__ ((overloadable)) NAME(short4  );       \
--  short8   __attribute__ ((overloadable)) NAME(short8  );       \
--  short16  __attribute__ ((overloadable)) NAME(short16 );       \
--  int      __attribute__ ((overloadable)) NAME(int     );       \
--  int2     __attribute__ ((overloadable)) NAME(int2    );       \
--  int3     __attribute__ ((overloadable)) NAME(int3    );       \
--  int4     __attribute__ ((overloadable)) NAME(int4    );       \
--  int8     __attribute__ ((overloadable)) NAME(int8    );       \
--  int16    __attribute__ ((overloadable)) NAME(int16   );       \
--  long     __attribute__ ((overloadable)) NAME(long    );       \
--  long2    __attribute__ ((overloadable)) NAME(long2   );       \
--  long3    __attribute__ ((overloadable)) NAME(long3   );       \
--  long4    __attribute__ ((overloadable)) NAME(long4   );       \
--  long8    __attribute__ ((overloadable)) NAME(long8   );       \
--  long16   __attribute__ ((overloadable)) NAME(long16  );       \
--  uchar    __attribute__ ((overloadable)) NAME(uchar   );       \
--  uchar2   __attribute__ ((overloadable)) NAME(uchar2  );       \
--  uchar3   __attribute__ ((overloadable)) NAME(uchar3  );       \
--  uchar4   __attribute__ ((overloadable)) NAME(uchar4  );       \
--  uchar8   __attribute__ ((overloadable)) NAME(uchar8  );       \
--  uchar16  __attribute__ ((overloadable)) NAME(uchar16 );       \
--  ushort   __attribute__ ((overloadable)) NAME(ushort  );       \
--  ushort2  __attribute__ ((overloadable)) NAME(ushort2 );       \
--  ushort3  __attribute__ ((overloadable)) NAME(ushort3 );       \
--  ushort4  __attribute__ ((overloadable)) NAME(ushort4 );       \
--  ushort8  __attribute__ ((overloadable)) NAME(ushort8 );       \
--  ushort16 __attribute__ ((overloadable)) NAME(ushort16);       \
--  uint     __attribute__ ((overloadable)) NAME(uint    );       \
--  uint2    __attribute__ ((overloadable)) NAME(uint2   );       \
--  uint3    __attribute__ ((overloadable)) NAME(uint3   );       \
--  uint4    __attribute__ ((overloadable)) NAME(uint4   );       \
--  uint8    __attribute__ ((overloadable)) NAME(uint8   );       \
--  uint16   __attribute__ ((overloadable)) NAME(uint16  );       \
--  ulong    __attribute__ ((overloadable)) NAME(ulong   );       \
--  ulong2   __attribute__ ((overloadable)) NAME(ulong2  );       \
--  ulong3   __attribute__ ((overloadable)) NAME(ulong3  );       \
--  ulong4   __attribute__ ((overloadable)) NAME(ulong4  );       \
--  ulong8   __attribute__ ((overloadable)) NAME(ulong8  );       \
--  ulong16  __attribute__ ((overloadable)) NAME(ulong16 );
--#define _CL_DECLARE_FUNC_G_GG(NAME)                                     \
--  char     __attribute__ ((overloadable)) NAME(char    , char    );     \
--  char2    __attribute__ ((overloadable)) NAME(char2   , char2   );     \
--  char3    __attribute__ ((overloadable)) NAME(char3   , char3   );     \
--  char4    __attribute__ ((overloadable)) NAME(char4   , char4   );     \
--  char8    __attribute__ ((overloadable)) NAME(char8   , char8   );     \
--  char16   __attribute__ ((overloadable)) NAME(char16  , char16  );     \
--  short    __attribute__ ((overloadable)) NAME(short   , short   );     \
--  short2   __attribute__ ((overloadable)) NAME(short2  , short2  );     \
--  short3   __attribute__ ((overloadable)) NAME(short3  , short3  );     \
--  short4   __attribute__ ((overloadable)) NAME(short4  , short4  );     \
--  short8   __attribute__ ((overloadable)) NAME(short8  , short8  );     \
--  short16  __attribute__ ((overloadable)) NAME(short16 , short16 );     \
--  int      __attribute__ ((overloadable)) NAME(int     , int     );     \
--  int2     __attribute__ ((overloadable)) NAME(int2    , int2    );     \
--  int3     __attribute__ ((overloadable)) NAME(int3    , int3    );     \
--  int4     __attribute__ ((overloadable)) NAME(int4    , int4    );     \
--  int8     __attribute__ ((overloadable)) NAME(int8    , int8    );     \
--  int16    __attribute__ ((overloadable)) NAME(int16   , int16   );     \
--  long     __attribute__ ((overloadable)) NAME(long    , long    );     \
--  long2    __attribute__ ((overloadable)) NAME(long2   , long2   );     \
--  long3    __attribute__ ((overloadable)) NAME(long3   , long3   );     \
--  long4    __attribute__ ((overloadable)) NAME(long4   , long4   );     \
--  long8    __attribute__ ((overloadable)) NAME(long8   , long8   );     \
--  long16   __attribute__ ((overloadable)) NAME(long16  , long16  );     \
--  uchar    __attribute__ ((overloadable)) NAME(uchar   , uchar   );     \
--  uchar2   __attribute__ ((overloadable)) NAME(uchar2  , uchar2  );     \
--  uchar3   __attribute__ ((overloadable)) NAME(uchar3  , uchar3  );     \
--  uchar4   __attribute__ ((overloadable)) NAME(uchar4  , uchar4  );     \
--  uchar8   __attribute__ ((overloadable)) NAME(uchar8  , uchar8  );     \
--  uchar16  __attribute__ ((overloadable)) NAME(uchar16 , uchar16 );     \
--  ushort   __attribute__ ((overloadable)) NAME(ushort  , ushort  );     \
--  ushort2  __attribute__ ((overloadable)) NAME(ushort2 , ushort2 );     \
--  ushort3  __attribute__ ((overloadable)) NAME(ushort3 , ushort3 );     \
--  ushort4  __attribute__ ((overloadable)) NAME(ushort4 , ushort4 );     \
--  ushort8  __attribute__ ((overloadable)) NAME(ushort8 , ushort8 );     \
--  ushort16 __attribute__ ((overloadable)) NAME(ushort16, ushort16);     \
--  uint     __attribute__ ((overloadable)) NAME(uint    , uint    );     \
--  uint2    __attribute__ ((overloadable)) NAME(uint2   , uint2   );     \
--  uint3    __attribute__ ((overloadable)) NAME(uint3   , uint3   );     \
--  uint4    __attribute__ ((overloadable)) NAME(uint4   , uint4   );     \
--  uint8    __attribute__ ((overloadable)) NAME(uint8   , uint8   );     \
--  uint16   __attribute__ ((overloadable)) NAME(uint16  , uint16  );     \
--  ulong    __attribute__ ((overloadable)) NAME(ulong   , ulong   );     \
--  ulong2   __attribute__ ((overloadable)) NAME(ulong2  , ulong2  );     \
--  ulong3   __attribute__ ((overloadable)) NAME(ulong3  , ulong3  );     \
--  ulong4   __attribute__ ((overloadable)) NAME(ulong4  , ulong4  );     \
--  ulong8   __attribute__ ((overloadable)) NAME(ulong8  , ulong8  );     \
--  ulong16  __attribute__ ((overloadable)) NAME(ulong16 , ulong16 );
--#define _CL_DECLARE_FUNC_G_GGG(NAME)                                    \
--  char     __attribute__ ((overloadable)) NAME(char    , char    , char    ); \
--  char2    __attribute__ ((overloadable)) NAME(char2   , char2   , char2   ); \
--  char3    __attribute__ ((overloadable)) NAME(char3   , char3   , char3   ); \
--  char4    __attribute__ ((overloadable)) NAME(char4   , char4   , char4   ); \
--  char8    __attribute__ ((overloadable)) NAME(char8   , char8   , char8   ); \
--  char16   __attribute__ ((overloadable)) NAME(char16  , char16  , char16  ); \
--  short    __attribute__ ((overloadable)) NAME(short   , short   , short   ); \
--  short2   __attribute__ ((overloadable)) NAME(short2  , short2  , short2  ); \
--  short3   __attribute__ ((overloadable)) NAME(short3  , short3  , short3  ); \
--  short4   __attribute__ ((overloadable)) NAME(short4  , short4  , short4  ); \
--  short8   __attribute__ ((overloadable)) NAME(short8  , short8  , short8  ); \
--  short16  __attribute__ ((overloadable)) NAME(short16 , short16 , short16 ); \
--  int      __attribute__ ((overloadable)) NAME(int     , int     , int     ); \
--  int2     __attribute__ ((overloadable)) NAME(int2    , int2    , int2    ); \
--  int3     __attribute__ ((overloadable)) NAME(int3    , int3    , int3    ); \
--  int4     __attribute__ ((overloadable)) NAME(int4    , int4    , int4    ); \
--  int8     __attribute__ ((overloadable)) NAME(int8    , int8    , int8    ); \
--  int16    __attribute__ ((overloadable)) NAME(int16   , int16   , int16   ); \
--  long     __attribute__ ((overloadable)) NAME(long    , long    , long    ); \
--  long2    __attribute__ ((overloadable)) NAME(long2   , long2   , long2   ); \
--  long3    __attribute__ ((overloadable)) NAME(long3   , long3   , long3   ); \
--  long4    __attribute__ ((overloadable)) NAME(long4   , long4   , long4   ); \
--  long8    __attribute__ ((overloadable)) NAME(long8   , long8   , long8   ); \
--  long16   __attribute__ ((overloadable)) NAME(long16  , long16  , long16  ); \
--  uchar    __attribute__ ((overloadable)) NAME(uchar   , uchar   , uchar   ); \
--  uchar2   __attribute__ ((overloadable)) NAME(uchar2  , uchar2  , uchar2  ); \
--  uchar3   __attribute__ ((overloadable)) NAME(uchar3  , uchar3  , uchar3  ); \
--  uchar4   __attribute__ ((overloadable)) NAME(uchar4  , uchar4  , uchar4  ); \
--  uchar8   __attribute__ ((overloadable)) NAME(uchar8  , uchar8  , uchar8  ); \
--  uchar16  __attribute__ ((overloadable)) NAME(uchar16 , uchar16 , uchar16 ); \
--  ushort   __attribute__ ((overloadable)) NAME(ushort  , ushort  , ushort  ); \
--  ushort2  __attribute__ ((overloadable)) NAME(ushort2 , ushort2 , ushort2 ); \
--  ushort3  __attribute__ ((overloadable)) NAME(ushort3 , ushort3 , ushort3 ); \
--  ushort4  __attribute__ ((overloadable)) NAME(ushort4 , ushort4 , ushort4 ); \
--  ushort8  __attribute__ ((overloadable)) NAME(ushort8 , ushort8 , ushort8 ); \
--  ushort16 __attribute__ ((overloadable)) NAME(ushort16, ushort16, ushort16); \
--  uint     __attribute__ ((overloadable)) NAME(uint    , uint    , uint    ); \
--  uint2    __attribute__ ((overloadable)) NAME(uint2   , uint2   , uint2   ); \
--  uint3    __attribute__ ((overloadable)) NAME(uint3   , uint3   , uint3   ); \
--  uint4    __attribute__ ((overloadable)) NAME(uint4   , uint4   , uint4   ); \
--  uint8    __attribute__ ((overloadable)) NAME(uint8   , uint8   , uint8   ); \
--  uint16   __attribute__ ((overloadable)) NAME(uint16  , uint16  , uint16  ); \
--  ulong    __attribute__ ((overloadable)) NAME(ulong   , ulong   , ulong   ); \
--  ulong2   __attribute__ ((overloadable)) NAME(ulong2  , ulong2  , ulong2  ); \
--  ulong3   __attribute__ ((overloadable)) NAME(ulong3  , ulong3  , ulong3  ); \
--  ulong4   __attribute__ ((overloadable)) NAME(ulong4  , ulong4  , ulong4  ); \
--  ulong8   __attribute__ ((overloadable)) NAME(ulong8  , ulong8  , ulong8  ); \
--  ulong16  __attribute__ ((overloadable)) NAME(ulong16 , ulong16 , ulong16 );
--#define _CL_DECLARE_FUNC_G_GS(NAME)                                     \
--  char2    __attribute__ ((overloadable)) NAME(char2   , char  );       \
--  char3    __attribute__ ((overloadable)) NAME(char3   , char  );       \
--  char4    __attribute__ ((overloadable)) NAME(char4   , char  );       \
--  char8    __attribute__ ((overloadable)) NAME(char8   , char  );       \
--  char16   __attribute__ ((overloadable)) NAME(char16  , char  );       \
--  short2   __attribute__ ((overloadable)) NAME(short2  , short );       \
--  short3   __attribute__ ((overloadable)) NAME(short3  , short );       \
--  short4   __attribute__ ((overloadable)) NAME(short4  , short );       \
--  short8   __attribute__ ((overloadable)) NAME(short8  , short );       \
--  short16  __attribute__ ((overloadable)) NAME(short16 , short );       \
--  int2     __attribute__ ((overloadable)) NAME(int2    , int   );       \
--  int3     __attribute__ ((overloadable)) NAME(int3    , int   );       \
--  int4     __attribute__ ((overloadable)) NAME(int4    , int   );       \
--  int8     __attribute__ ((overloadable)) NAME(int8    , int   );       \
--  int16    __attribute__ ((overloadable)) NAME(int16   , int   );       \
--  long2    __attribute__ ((overloadable)) NAME(long2   , long  );       \
--  long3    __attribute__ ((overloadable)) NAME(long3   , long  );       \
--  long4    __attribute__ ((overloadable)) NAME(long4   , long  );       \
--  long8    __attribute__ ((overloadable)) NAME(long8   , long  );       \
--  long16   __attribute__ ((overloadable)) NAME(long16  , long  );       \
--  uchar2   __attribute__ ((overloadable)) NAME(uchar2  , uchar );       \
--  uchar3   __attribute__ ((overloadable)) NAME(uchar3  , uchar );       \
--  uchar4   __attribute__ ((overloadable)) NAME(uchar4  , uchar );       \
--  uchar8   __attribute__ ((overloadable)) NAME(uchar8  , uchar );       \
--  uchar16  __attribute__ ((overloadable)) NAME(uchar16 , uchar );       \
--  ushort2  __attribute__ ((overloadable)) NAME(ushort2 , ushort);       \
--  ushort3  __attribute__ ((overloadable)) NAME(ushort3 , ushort);       \
--  ushort4  __attribute__ ((overloadable)) NAME(ushort4 , ushort);       \
--  ushort8  __attribute__ ((overloadable)) NAME(ushort8 , ushort);       \
--  ushort16 __attribute__ ((overloadable)) NAME(ushort16, ushort);       \
--  uint2    __attribute__ ((overloadable)) NAME(uint2   , uint  );       \
--  uint3    __attribute__ ((overloadable)) NAME(uint3   , uint  );       \
--  uint4    __attribute__ ((overloadable)) NAME(uint4   , uint  );       \
--  uint8    __attribute__ ((overloadable)) NAME(uint8   , uint  );       \
--  uint16   __attribute__ ((overloadable)) NAME(uint16  , uint  );       \
--  ulong2   __attribute__ ((overloadable)) NAME(ulong2  , ulong );       \
--  ulong3   __attribute__ ((overloadable)) NAME(ulong3  , ulong );       \
--  ulong4   __attribute__ ((overloadable)) NAME(ulong4  , ulong );       \
--  ulong8   __attribute__ ((overloadable)) NAME(ulong8  , ulong );       \
--  ulong16  __attribute__ ((overloadable)) NAME(ulong16 , ulong );
--#define _CL_DECLARE_FUNC_UG_G(NAME)                             \
--  uchar    __attribute__ ((overloadable)) NAME(char    );       \
--  uchar2   __attribute__ ((overloadable)) NAME(char2   );       \
--  uchar3   __attribute__ ((overloadable)) NAME(char3   );       \
--  uchar4   __attribute__ ((overloadable)) NAME(char4   );       \
--  uchar8   __attribute__ ((overloadable)) NAME(char8   );       \
--  uchar16  __attribute__ ((overloadable)) NAME(char16  );       \
--  ushort   __attribute__ ((overloadable)) NAME(short   );       \
--  ushort2  __attribute__ ((overloadable)) NAME(short2  );       \
--  ushort3  __attribute__ ((overloadable)) NAME(short3  );       \
--  ushort4  __attribute__ ((overloadable)) NAME(short4  );       \
--  ushort8  __attribute__ ((overloadable)) NAME(short8  );       \
--  ushort16 __attribute__ ((overloadable)) NAME(short16 );       \
--  uint     __attribute__ ((overloadable)) NAME(int     );       \
--  uint2    __attribute__ ((overloadable)) NAME(int2    );       \
--  uint3    __attribute__ ((overloadable)) NAME(int3    );       \
--  uint4    __attribute__ ((overloadable)) NAME(int4    );       \
--  uint8    __attribute__ ((overloadable)) NAME(int8    );       \
--  uint16   __attribute__ ((overloadable)) NAME(int16   );       \
--  ulong    __attribute__ ((overloadable)) NAME(long    );       \
--  ulong2   __attribute__ ((overloadable)) NAME(long2   );       \
--  ulong3   __attribute__ ((overloadable)) NAME(long3   );       \
--  ulong4   __attribute__ ((overloadable)) NAME(long4   );       \
--  ulong8   __attribute__ ((overloadable)) NAME(long8   );       \
--  ulong16  __attribute__ ((overloadable)) NAME(long16  );       \
--  uchar    __attribute__ ((overloadable)) NAME(uchar   );       \
--  uchar2   __attribute__ ((overloadable)) NAME(uchar2  );       \
--  uchar3   __attribute__ ((overloadable)) NAME(uchar3  );       \
--  uchar4   __attribute__ ((overloadable)) NAME(uchar4  );       \
--  uchar8   __attribute__ ((overloadable)) NAME(uchar8  );       \
--  uchar16  __attribute__ ((overloadable)) NAME(uchar16 );       \
--  ushort   __attribute__ ((overloadable)) NAME(ushort  );       \
--  ushort2  __attribute__ ((overloadable)) NAME(ushort2 );       \
--  ushort3  __attribute__ ((overloadable)) NAME(ushort3 );       \
--  ushort4  __attribute__ ((overloadable)) NAME(ushort4 );       \
--  ushort8  __attribute__ ((overloadable)) NAME(ushort8 );       \
--  ushort16 __attribute__ ((overloadable)) NAME(ushort16);       \
--  uint     __attribute__ ((overloadable)) NAME(uint    );       \
--  uint2    __attribute__ ((overloadable)) NAME(uint2   );       \
--  uint3    __attribute__ ((overloadable)) NAME(uint3   );       \
--  uint4    __attribute__ ((overloadable)) NAME(uint4   );       \
--  uint8    __attribute__ ((overloadable)) NAME(uint8   );       \
--  uint16   __attribute__ ((overloadable)) NAME(uint16  );       \
--  ulong    __attribute__ ((overloadable)) NAME(ulong   );       \
--  ulong2   __attribute__ ((overloadable)) NAME(ulong2  );       \
--  ulong3   __attribute__ ((overloadable)) NAME(ulong3  );       \
--  ulong4   __attribute__ ((overloadable)) NAME(ulong4  );       \
--  ulong8   __attribute__ ((overloadable)) NAME(ulong8  );       \
--  ulong16  __attribute__ ((overloadable)) NAME(ulong16 );
--#define _CL_DECLARE_FUNC_UG_GG(NAME)                                    \
--  uchar    __attribute__ ((overloadable)) NAME(char    , char    );     \
--  uchar2   __attribute__ ((overloadable)) NAME(char2   , char2   );     \
--  uchar3   __attribute__ ((overloadable)) NAME(char3   , char3   );     \
--  uchar4   __attribute__ ((overloadable)) NAME(char4   , char4   );     \
--  uchar8   __attribute__ ((overloadable)) NAME(char8   , char8   );     \
--  uchar16  __attribute__ ((overloadable)) NAME(char16  , char16  );     \
--  ushort   __attribute__ ((overloadable)) NAME(short   , short   );     \
--  ushort2  __attribute__ ((overloadable)) NAME(short2  , short2  );     \
--  ushort3  __attribute__ ((overloadable)) NAME(short3  , short3  );     \
--  ushort4  __attribute__ ((overloadable)) NAME(short4  , short4  );     \
--  ushort8  __attribute__ ((overloadable)) NAME(short8  , short8  );     \
--  ushort16 __attribute__ ((overloadable)) NAME(short16 , short16 );     \
--  uint     __attribute__ ((overloadable)) NAME(int     , int     );     \
--  uint2    __attribute__ ((overloadable)) NAME(int2    , int2    );     \
--  uint3    __attribute__ ((overloadable)) NAME(int3    , int3    );     \
--  uint4    __attribute__ ((overloadable)) NAME(int4    , int4    );     \
--  uint8    __attribute__ ((overloadable)) NAME(int8    , int8    );     \
--  uint16   __attribute__ ((overloadable)) NAME(int16   , int16   );     \
--  ulong    __attribute__ ((overloadable)) NAME(long    , long    );     \
--  ulong2   __attribute__ ((overloadable)) NAME(long2   , long2   );     \
--  ulong3   __attribute__ ((overloadable)) NAME(long3   , long3   );     \
--  ulong4   __attribute__ ((overloadable)) NAME(long4   , long4   );     \
--  ulong8   __attribute__ ((overloadable)) NAME(long8   , long8   );     \
--  ulong16  __attribute__ ((overloadable)) NAME(long16  , long16  );     \
--  uchar    __attribute__ ((overloadable)) NAME(uchar   , uchar   );     \
--  uchar2   __attribute__ ((overloadable)) NAME(uchar2  , uchar2  );     \
--  uchar3   __attribute__ ((overloadable)) NAME(uchar3  , uchar3  );     \
--  uchar4   __attribute__ ((overloadable)) NAME(uchar4  , uchar4  );     \
--  uchar8   __attribute__ ((overloadable)) NAME(uchar8  , uchar8  );     \
--  uchar16  __attribute__ ((overloadable)) NAME(uchar16 , uchar16 );     \
--  ushort   __attribute__ ((overloadable)) NAME(ushort  , ushort  );     \
--  ushort2  __attribute__ ((overloadable)) NAME(ushort2 , ushort2 );     \
--  ushort3  __attribute__ ((overloadable)) NAME(ushort3 , ushort3 );     \
--  ushort4  __attribute__ ((overloadable)) NAME(ushort4 , ushort4 );     \
--  ushort8  __attribute__ ((overloadable)) NAME(ushort8 , ushort8 );     \
--  ushort16 __attribute__ ((overloadable)) NAME(ushort16, ushort16);     \
--  uint     __attribute__ ((overloadable)) NAME(uint    , uint    );     \
--  uint2    __attribute__ ((overloadable)) NAME(uint2   , uint2   );     \
--  uint3    __attribute__ ((overloadable)) NAME(uint3   , uint3   );     \
--  uint4    __attribute__ ((overloadable)) NAME(uint4   , uint4   );     \
--  uint8    __attribute__ ((overloadable)) NAME(uint8   , uint8   );     \
--  uint16   __attribute__ ((overloadable)) NAME(uint16  , uint16  );     \
--  ulong    __attribute__ ((overloadable)) NAME(ulong   , ulong   );     \
--  ulong2   __attribute__ ((overloadable)) NAME(ulong2  , ulong2  );     \
--  ulong3   __attribute__ ((overloadable)) NAME(ulong3  , ulong3  );     \
--  ulong4   __attribute__ ((overloadable)) NAME(ulong4  , ulong4  );     \
--  ulong8   __attribute__ ((overloadable)) NAME(ulong8  , ulong8  );     \
--  ulong16  __attribute__ ((overloadable)) NAME(ulong16 , ulong16 );
--#define _CL_DECLARE_FUNC_LG_GUG(NAME)                                   \
--  short    __attribute__ ((overloadable)) NAME(char    , uchar    );    \
--  short2   __attribute__ ((overloadable)) NAME(char2   , uchar2   );    \
--  short3   __attribute__ ((overloadable)) NAME(char3   , uchar3   );    \
--  short4   __attribute__ ((overloadable)) NAME(char4   , uchar4   );    \
--  short8   __attribute__ ((overloadable)) NAME(char8   , uchar8   );    \
--  short16  __attribute__ ((overloadable)) NAME(char16  , uchar16  );    \
--  int      __attribute__ ((overloadable)) NAME(short   , ushort   );    \
--  int2     __attribute__ ((overloadable)) NAME(short2  , ushort2  );    \
--  int3     __attribute__ ((overloadable)) NAME(short3  , ushort3  );    \
--  int4     __attribute__ ((overloadable)) NAME(short4  , ushort4  );    \
--  int8     __attribute__ ((overloadable)) NAME(short8  , ushort8  );    \
--  int16    __attribute__ ((overloadable)) NAME(short16 , ushort16 );    \
--  long     __attribute__ ((overloadable)) NAME(int     , uint     );    \
--  long2    __attribute__ ((overloadable)) NAME(int2    , uint2    );    \
--  long3    __attribute__ ((overloadable)) NAME(int3    , uint3    );    \
--  long4    __attribute__ ((overloadable)) NAME(int4    , uint4    );    \
--  long8    __attribute__ ((overloadable)) NAME(int8    , uint8    );    \
--  long16   __attribute__ ((overloadable)) NAME(int16   , uint16   );    \
--  ushort   __attribute__ ((overloadable)) NAME(uchar   , uchar   );     \
--  ushort2  __attribute__ ((overloadable)) NAME(uchar2  , uchar2  );     \
--  ushort3  __attribute__ ((overloadable)) NAME(uchar3  , uchar3  );     \
--  ushort4  __attribute__ ((overloadable)) NAME(uchar4  , uchar4  );     \
--  ushort8  __attribute__ ((overloadable)) NAME(uchar8  , uchar8  );     \
--  ushort16 __attribute__ ((overloadable)) NAME(uchar16 , uchar16 );     \
--  uint     __attribute__ ((overloadable)) NAME(ushort  , ushort  );     \
--  uint2    __attribute__ ((overloadable)) NAME(ushort2 , ushort2 );     \
--  uint3    __attribute__ ((overloadable)) NAME(ushort3 , ushort3 );     \
--  uint4    __attribute__ ((overloadable)) NAME(ushort4 , ushort4 );     \
--  uint8    __attribute__ ((overloadable)) NAME(ushort8 , ushort8 );     \
--  uint16   __attribute__ ((overloadable)) NAME(ushort16, ushort16);     \
--  ulong    __attribute__ ((overloadable)) NAME(uint    , uint    );     \
--  ulong2   __attribute__ ((overloadable)) NAME(uint2   , uint2   );     \
--  ulong3   __attribute__ ((overloadable)) NAME(uint3   , uint3   );     \
--  ulong4   __attribute__ ((overloadable)) NAME(uint4   , uint4   );     \
--  ulong8   __attribute__ ((overloadable)) NAME(uint8   , uint8   );     \
--  ulong16  __attribute__ ((overloadable)) NAME(uint16  , uint16  );
--#define _CL_DECLARE_FUNC_I_IG(NAME)                     \
--  int __attribute__ ((overloadable)) NAME(char   );     \
--  int __attribute__ ((overloadable)) NAME(char2  );     \
--  int __attribute__ ((overloadable)) NAME(char3  );     \
--  int __attribute__ ((overloadable)) NAME(char4  );     \
--  int __attribute__ ((overloadable)) NAME(char8  );     \
--  int __attribute__ ((overloadable)) NAME(char16 );     \
--  int __attribute__ ((overloadable)) NAME(short  );     \
--  int __attribute__ ((overloadable)) NAME(short2 );     \
--  int __attribute__ ((overloadable)) NAME(short3 );     \
--  int __attribute__ ((overloadable)) NAME(short4 );     \
--  int __attribute__ ((overloadable)) NAME(short8 );     \
--  int __attribute__ ((overloadable)) NAME(short16);     \
--  int __attribute__ ((overloadable)) NAME(int    );     \
--  int __attribute__ ((overloadable)) NAME(int2   );     \
--  int __attribute__ ((overloadable)) NAME(int3   );     \
--  int __attribute__ ((overloadable)) NAME(int4   );     \
--  int __attribute__ ((overloadable)) NAME(int8   );     \
--  int __attribute__ ((overloadable)) NAME(int16  );     \
--  int __attribute__ ((overloadable)) NAME(long   );     \
--  int __attribute__ ((overloadable)) NAME(long2  );     \
--  int __attribute__ ((overloadable)) NAME(long3  );     \
--  int __attribute__ ((overloadable)) NAME(long4  );     \
--  int __attribute__ ((overloadable)) NAME(long8  );     \
--  int __attribute__ ((overloadable)) NAME(long16 );
--#define _CL_DECLARE_FUNC_J_JJ(NAME)                                     \
--  int      __attribute__ ((overloadable)) NAME(int   , int     );       \
--  int2     __attribute__ ((overloadable)) NAME(int2    , int2    );     \
--  int3     __attribute__ ((overloadable)) NAME(int3    , int3    );     \
--  int4     __attribute__ ((overloadable)) NAME(int4    , int4    );     \
--  int8     __attribute__ ((overloadable)) NAME(int8    , int8    );     \
--  int16    __attribute__ ((overloadable)) NAME(int16   , int16   );     \
--  uint     __attribute__ ((overloadable)) NAME(uint    , uint    );     \
--  uint2    __attribute__ ((overloadable)) NAME(uint2   , uint2   );     \
--  uint3    __attribute__ ((overloadable)) NAME(uint3   , uint3   );     \
--  uint4    __attribute__ ((overloadable)) NAME(uint4   , uint4   );     \
--  uint8    __attribute__ ((overloadable)) NAME(uint8   , uint8   );     \
--  uint16   __attribute__ ((overloadable)) NAME(uint16  , uint16  );
--#define _CL_DECLARE_FUNC_J_JJJ(NAME)                                    \
--  int      __attribute__ ((overloadable)) NAME(int     , int     , int     ); \
--  int2     __attribute__ ((overloadable)) NAME(int2    , int2    , int2    ); \
--  int3     __attribute__ ((overloadable)) NAME(int3    , int3    , int3    ); \
--  int4     __attribute__ ((overloadable)) NAME(int4    , int4    , int4    ); \
--  int8     __attribute__ ((overloadable)) NAME(int8    , int8    , int8    ); \
--  int16    __attribute__ ((overloadable)) NAME(int16   , int16   , int16   ); \
--  uint     __attribute__ ((overloadable)) NAME(uint    , uint    , uint    ); \
--  uint2    __attribute__ ((overloadable)) NAME(uint2   , uint2   , uint2   ); \
--  uint3    __attribute__ ((overloadable)) NAME(uint3   , uint3   , uint3   ); \
--  uint4    __attribute__ ((overloadable)) NAME(uint4   , uint4   , uint4   ); \
--  uint8    __attribute__ ((overloadable)) NAME(uint8   , uint8   , uint8   ); \
--  uint16   __attribute__ ((overloadable)) NAME(uint16  , uint16  , uint16  );
++#define _CL_DECLARE_FUNC_G_G(NAME)              \
++  char     _cl_overloadable NAME(char    );     \
++  char2    _cl_overloadable NAME(char2   );     \
++  char3    _cl_overloadable NAME(char3   );     \
++  char4    _cl_overloadable NAME(char4   );     \
++  char8    _cl_overloadable NAME(char8   );     \
++  char16   _cl_overloadable NAME(char16  );     \
++  short    _cl_overloadable NAME(short   );     \
++  short2   _cl_overloadable NAME(short2  );     \
++  short3   _cl_overloadable NAME(short3  );     \
++  short4   _cl_overloadable NAME(short4  );     \
++  short8   _cl_overloadable NAME(short8  );     \
++  short16  _cl_overloadable NAME(short16 );     \
++  int      _cl_overloadable NAME(int     );     \
++  int2     _cl_overloadable NAME(int2    );     \
++  int3     _cl_overloadable NAME(int3    );     \
++  int4     _cl_overloadable NAME(int4    );     \
++  int8     _cl_overloadable NAME(int8    );     \
++  int16    _cl_overloadable NAME(int16   );     \
++  long     _cl_overloadable NAME(long    );     \
++  long2    _cl_overloadable NAME(long2   );     \
++  long3    _cl_overloadable NAME(long3   );     \
++  long4    _cl_overloadable NAME(long4   );     \
++  long8    _cl_overloadable NAME(long8   );     \
++  long16   _cl_overloadable NAME(long16  );     \
++  uchar    _cl_overloadable NAME(uchar   );     \
++  uchar2   _cl_overloadable NAME(uchar2  );     \
++  uchar3   _cl_overloadable NAME(uchar3  );     \
++  uchar4   _cl_overloadable NAME(uchar4  );     \
++  uchar8   _cl_overloadable NAME(uchar8  );     \
++  uchar16  _cl_overloadable NAME(uchar16 );     \
++  ushort   _cl_overloadable NAME(ushort  );     \
++  ushort2  _cl_overloadable NAME(ushort2 );     \
++  ushort3  _cl_overloadable NAME(ushort3 );     \
++  ushort4  _cl_overloadable NAME(ushort4 );     \
++  ushort8  _cl_overloadable NAME(ushort8 );     \
++  ushort16 _cl_overloadable NAME(ushort16);     \
++  uint     _cl_overloadable NAME(uint    );     \
++  uint2    _cl_overloadable NAME(uint2   );     \
++  uint3    _cl_overloadable NAME(uint3   );     \
++  uint4    _cl_overloadable NAME(uint4   );     \
++  uint8    _cl_overloadable NAME(uint8   );     \
++  uint16   _cl_overloadable NAME(uint16  );     \
++  ulong    _cl_overloadable NAME(ulong   );     \
++  ulong2   _cl_overloadable NAME(ulong2  );     \
++  ulong3   _cl_overloadable NAME(ulong3  );     \
++  ulong4   _cl_overloadable NAME(ulong4  );     \
++  ulong8   _cl_overloadable NAME(ulong8  );     \
++  ulong16  _cl_overloadable NAME(ulong16 );
++#define _CL_DECLARE_FUNC_G_GG(NAME)                     \
++  char     _cl_overloadable NAME(char    , char    );   \
++  char2    _cl_overloadable NAME(char2   , char2   );   \
++  char3    _cl_overloadable NAME(char3   , char3   );   \
++  char4    _cl_overloadable NAME(char4   , char4   );   \
++  char8    _cl_overloadable NAME(char8   , char8   );   \
++  char16   _cl_overloadable NAME(char16  , char16  );   \
++  short    _cl_overloadable NAME(short   , short   );   \
++  short2   _cl_overloadable NAME(short2  , short2  );   \
++  short3   _cl_overloadable NAME(short3  , short3  );   \
++  short4   _cl_overloadable NAME(short4  , short4  );   \
++  short8   _cl_overloadable NAME(short8  , short8  );   \
++  short16  _cl_overloadable NAME(short16 , short16 );   \
++  int      _cl_overloadable NAME(int     , int     );   \
++  int2     _cl_overloadable NAME(int2    , int2    );   \
++  int3     _cl_overloadable NAME(int3    , int3    );   \
++  int4     _cl_overloadable NAME(int4    , int4    );   \
++  int8     _cl_overloadable NAME(int8    , int8    );   \
++  int16    _cl_overloadable NAME(int16   , int16   );   \
++  long     _cl_overloadable NAME(long    , long    );   \
++  long2    _cl_overloadable NAME(long2   , long2   );   \
++  long3    _cl_overloadable NAME(long3   , long3   );   \
++  long4    _cl_overloadable NAME(long4   , long4   );   \
++  long8    _cl_overloadable NAME(long8   , long8   );   \
++  long16   _cl_overloadable NAME(long16  , long16  );   \
++  uchar    _cl_overloadable NAME(uchar   , uchar   );   \
++  uchar2   _cl_overloadable NAME(uchar2  , uchar2  );   \
++  uchar3   _cl_overloadable NAME(uchar3  , uchar3  );   \
++  uchar4   _cl_overloadable NAME(uchar4  , uchar4  );   \
++  uchar8   _cl_overloadable NAME(uchar8  , uchar8  );   \
++  uchar16  _cl_overloadable NAME(uchar16 , uchar16 );   \
++  ushort   _cl_overloadable NAME(ushort  , ushort  );   \
++  ushort2  _cl_overloadable NAME(ushort2 , ushort2 );   \
++  ushort3  _cl_overloadable NAME(ushort3 , ushort3 );   \
++  ushort4  _cl_overloadable NAME(ushort4 , ushort4 );   \
++  ushort8  _cl_overloadable NAME(ushort8 , ushort8 );   \
++  ushort16 _cl_overloadable NAME(ushort16, ushort16);   \
++  uint     _cl_overloadable NAME(uint    , uint    );   \
++  uint2    _cl_overloadable NAME(uint2   , uint2   );   \
++  uint3    _cl_overloadable NAME(uint3   , uint3   );   \
++  uint4    _cl_overloadable NAME(uint4   , uint4   );   \
++  uint8    _cl_overloadable NAME(uint8   , uint8   );   \
++  uint16   _cl_overloadable NAME(uint16  , uint16  );   \
++  ulong    _cl_overloadable NAME(ulong   , ulong   );   \
++  ulong2   _cl_overloadable NAME(ulong2  , ulong2  );   \
++  ulong3   _cl_overloadable NAME(ulong3  , ulong3  );   \
++  ulong4   _cl_overloadable NAME(ulong4  , ulong4  );   \
++  ulong8   _cl_overloadable NAME(ulong8  , ulong8  );   \
++  ulong16  _cl_overloadable NAME(ulong16 , ulong16 );
++#define _CL_DECLARE_FUNC_G_GGG(NAME)                            \
++  char     _cl_overloadable NAME(char    , char    , char    ); \
++  char2    _cl_overloadable NAME(char2   , char2   , char2   ); \
++  char3    _cl_overloadable NAME(char3   , char3   , char3   ); \
++  char4    _cl_overloadable NAME(char4   , char4   , char4   ); \
++  char8    _cl_overloadable NAME(char8   , char8   , char8   ); \
++  char16   _cl_overloadable NAME(char16  , char16  , char16  ); \
++  short    _cl_overloadable NAME(short   , short   , short   ); \
++  short2   _cl_overloadable NAME(short2  , short2  , short2  ); \
++  short3   _cl_overloadable NAME(short3  , short3  , short3  ); \
++  short4   _cl_overloadable NAME(short4  , short4  , short4  ); \
++  short8   _cl_overloadable NAME(short8  , short8  , short8  ); \
++  short16  _cl_overloadable NAME(short16 , short16 , short16 ); \
++  int      _cl_overloadable NAME(int     , int     , int     ); \
++  int2     _cl_overloadable NAME(int2    , int2    , int2    ); \
++  int3     _cl_overloadable NAME(int3    , int3    , int3    ); \
++  int4     _cl_overloadable NAME(int4    , int4    , int4    ); \
++  int8     _cl_overloadable NAME(int8    , int8    , int8    ); \
++  int16    _cl_overloadable NAME(int16   , int16   , int16   ); \
++  long     _cl_overloadable NAME(long    , long    , long    ); \
++  long2    _cl_overloadable NAME(long2   , long2   , long2   ); \
++  long3    _cl_overloadable NAME(long3   , long3   , long3   ); \
++  long4    _cl_overloadable NAME(long4   , long4   , long4   ); \
++  long8    _cl_overloadable NAME(long8   , long8   , long8   ); \
++  long16   _cl_overloadable NAME(long16  , long16  , long16  ); \
++  uchar    _cl_overloadable NAME(uchar   , uchar   , uchar   ); \
++  uchar2   _cl_overloadable NAME(uchar2  , uchar2  , uchar2  ); \
++  uchar3   _cl_overloadable NAME(uchar3  , uchar3  , uchar3  ); \
++  uchar4   _cl_overloadable NAME(uchar4  , uchar4  , uchar4  ); \
++  uchar8   _cl_overloadable NAME(uchar8  , uchar8  , uchar8  ); \
++  uchar16  _cl_overloadable NAME(uchar16 , uchar16 , uchar16 ); \
++  ushort   _cl_overloadable NAME(ushort  , ushort  , ushort  ); \
++  ushort2  _cl_overloadable NAME(ushort2 , ushort2 , ushort2 ); \
++  ushort3  _cl_overloadable NAME(ushort3 , ushort3 , ushort3 ); \
++  ushort4  _cl_overloadable NAME(ushort4 , ushort4 , ushort4 ); \
++  ushort8  _cl_overloadable NAME(ushort8 , ushort8 , ushort8 ); \
++  ushort16 _cl_overloadable NAME(ushort16, ushort16, ushort16); \
++  uint     _cl_overloadable NAME(uint    , uint    , uint    ); \
++  uint2    _cl_overloadable NAME(uint2   , uint2   , uint2   ); \
++  uint3    _cl_overloadable NAME(uint3   , uint3   , uint3   ); \
++  uint4    _cl_overloadable NAME(uint4   , uint4   , uint4   ); \
++  uint8    _cl_overloadable NAME(uint8   , uint8   , uint8   ); \
++  uint16   _cl_overloadable NAME(uint16  , uint16  , uint16  ); \
++  ulong    _cl_overloadable NAME(ulong   , ulong   , ulong   ); \
++  ulong2   _cl_overloadable NAME(ulong2  , ulong2  , ulong2  ); \
++  ulong3   _cl_overloadable NAME(ulong3  , ulong3  , ulong3  ); \
++  ulong4   _cl_overloadable NAME(ulong4  , ulong4  , ulong4  ); \
++  ulong8   _cl_overloadable NAME(ulong8  , ulong8  , ulong8  ); \
++  ulong16  _cl_overloadable NAME(ulong16 , ulong16 , ulong16 );
++#define _CL_DECLARE_FUNC_G_GS(NAME)                     \
++  char2    _cl_overloadable NAME(char2   , char  );     \
++  char3    _cl_overloadable NAME(char3   , char  );     \
++  char4    _cl_overloadable NAME(char4   , char  );     \
++  char8    _cl_overloadable NAME(char8   , char  );     \
++  char16   _cl_overloadable NAME(char16  , char  );     \
++  short2   _cl_overloadable NAME(short2  , short );     \
++  short3   _cl_overloadable NAME(short3  , short );     \
++  short4   _cl_overloadable NAME(short4  , short );     \
++  short8   _cl_overloadable NAME(short8  , short );     \
++  short16  _cl_overloadable NAME(short16 , short );     \
++  int2     _cl_overloadable NAME(int2    , int   );     \
++  int3     _cl_overloadable NAME(int3    , int   );     \
++  int4     _cl_overloadable NAME(int4    , int   );     \
++  int8     _cl_overloadable NAME(int8    , int   );     \
++  int16    _cl_overloadable NAME(int16   , int   );     \
++  long2    _cl_overloadable NAME(long2   , long  );     \
++  long3    _cl_overloadable NAME(long3   , long  );     \
++  long4    _cl_overloadable NAME(long4   , long  );     \
++  long8    _cl_overloadable NAME(long8   , long  );     \
++  long16   _cl_overloadable NAME(long16  , long  );     \
++  uchar2   _cl_overloadable NAME(uchar2  , uchar );     \
++  uchar3   _cl_overloadable NAME(uchar3  , uchar );     \
++  uchar4   _cl_overloadable NAME(uchar4  , uchar );     \
++  uchar8   _cl_overloadable NAME(uchar8  , uchar );     \
++  uchar16  _cl_overloadable NAME(uchar16 , uchar );     \
++  ushort2  _cl_overloadable NAME(ushort2 , ushort);     \
++  ushort3  _cl_overloadable NAME(ushort3 , ushort);     \
++  ushort4  _cl_overloadable NAME(ushort4 , ushort);     \
++  ushort8  _cl_overloadable NAME(ushort8 , ushort);     \
++  ushort16 _cl_overloadable NAME(ushort16, ushort);     \
++  uint2    _cl_overloadable NAME(uint2   , uint  );     \
++  uint3    _cl_overloadable NAME(uint3   , uint  );     \
++  uint4    _cl_overloadable NAME(uint4   , uint  );     \
++  uint8    _cl_overloadable NAME(uint8   , uint  );     \
++  uint16   _cl_overloadable NAME(uint16  , uint  );     \
++  ulong2   _cl_overloadable NAME(ulong2  , ulong );     \
++  ulong3   _cl_overloadable NAME(ulong3  , ulong );     \
++  ulong4   _cl_overloadable NAME(ulong4  , ulong );     \
++  ulong8   _cl_overloadable NAME(ulong8  , ulong );     \
++  ulong16  _cl_overloadable NAME(ulong16 , ulong );
++#define _CL_DECLARE_FUNC_UG_G(NAME)             \
++  uchar    _cl_overloadable NAME(char    );     \
++  uchar2   _cl_overloadable NAME(char2   );     \
++  uchar3   _cl_overloadable NAME(char3   );     \
++  uchar4   _cl_overloadable NAME(char4   );     \
++  uchar8   _cl_overloadable NAME(char8   );     \
++  uchar16  _cl_overloadable NAME(char16  );     \
++  ushort   _cl_overloadable NAME(short   );     \
++  ushort2  _cl_overloadable NAME(short2  );     \
++  ushort3  _cl_overloadable NAME(short3  );     \
++  ushort4  _cl_overloadable NAME(short4  );     \
++  ushort8  _cl_overloadable NAME(short8  );     \
++  ushort16 _cl_overloadable NAME(short16 );     \
++  uint     _cl_overloadable NAME(int     );     \
++  uint2    _cl_overloadable NAME(int2    );     \
++  uint3    _cl_overloadable NAME(int3    );     \
++  uint4    _cl_overloadable NAME(int4    );     \
++  uint8    _cl_overloadable NAME(int8    );     \
++  uint16   _cl_overloadable NAME(int16   );     \
++  ulong    _cl_overloadable NAME(long    );     \
++  ulong2   _cl_overloadable NAME(long2   );     \
++  ulong3   _cl_overloadable NAME(long3   );     \
++  ulong4   _cl_overloadable NAME(long4   );     \
++  ulong8   _cl_overloadable NAME(long8   );     \
++  ulong16  _cl_overloadable NAME(long16  );     \
++  uchar    _cl_overloadable NAME(uchar   );     \
++  uchar2   _cl_overloadable NAME(uchar2  );     \
++  uchar3   _cl_overloadable NAME(uchar3  );     \
++  uchar4   _cl_overloadable NAME(uchar4  );     \
++  uchar8   _cl_overloadable NAME(uchar8  );     \
++  uchar16  _cl_overloadable NAME(uchar16 );     \
++  ushort   _cl_overloadable NAME(ushort  );     \
++  ushort2  _cl_overloadable NAME(ushort2 );     \
++  ushort3  _cl_overloadable NAME(ushort3 );     \
++  ushort4  _cl_overloadable NAME(ushort4 );     \
++  ushort8  _cl_overloadable NAME(ushort8 );     \
++  ushort16 _cl_overloadable NAME(ushort16);     \
++  uint     _cl_overloadable NAME(uint    );     \
++  uint2    _cl_overloadable NAME(uint2   );     \
++  uint3    _cl_overloadable NAME(uint3   );     \
++  uint4    _cl_overloadable NAME(uint4   );     \
++  uint8    _cl_overloadable NAME(uint8   );     \
++  uint16   _cl_overloadable NAME(uint16  );     \
++  ulong    _cl_overloadable NAME(ulong   );     \
++  ulong2   _cl_overloadable NAME(ulong2  );     \
++  ulong3   _cl_overloadable NAME(ulong3  );     \
++  ulong4   _cl_overloadable NAME(ulong4  );     \
++  ulong8   _cl_overloadable NAME(ulong8  );     \
++  ulong16  _cl_overloadable NAME(ulong16 );
++#define _CL_DECLARE_FUNC_UG_GG(NAME)                    \
++  uchar    _cl_overloadable NAME(char    , char    );   \
++  uchar2   _cl_overloadable NAME(char2   , char2   );   \
++  uchar3   _cl_overloadable NAME(char3   , char3   );   \
++  uchar4   _cl_overloadable NAME(char4   , char4   );   \
++  uchar8   _cl_overloadable NAME(char8   , char8   );   \
++  uchar16  _cl_overloadable NAME(char16  , char16  );   \
++  ushort   _cl_overloadable NAME(short   , short   );   \
++  ushort2  _cl_overloadable NAME(short2  , short2  );   \
++  ushort3  _cl_overloadable NAME(short3  , short3  );   \
++  ushort4  _cl_overloadable NAME(short4  , short4  );   \
++  ushort8  _cl_overloadable NAME(short8  , short8  );   \
++  ushort16 _cl_overloadable NAME(short16 , short16 );   \
++  uint     _cl_overloadable NAME(int     , int     );   \
++  uint2    _cl_overloadable NAME(int2    , int2    );   \
++  uint3    _cl_overloadable NAME(int3    , int3    );   \
++  uint4    _cl_overloadable NAME(int4    , int4    );   \
++  uint8    _cl_overloadable NAME(int8    , int8    );   \
++  uint16   _cl_overloadable NAME(int16   , int16   );   \
++  ulong    _cl_overloadable NAME(long    , long    );   \
++  ulong2   _cl_overloadable NAME(long2   , long2   );   \
++  ulong3   _cl_overloadable NAME(long3   , long3   );   \
++  ulong4   _cl_overloadable NAME(long4   , long4   );   \
++  ulong8   _cl_overloadable NAME(long8   , long8   );   \
++  ulong16  _cl_overloadable NAME(long16  , long16  );   \
++  uchar    _cl_overloadable NAME(uchar   , uchar   );   \
++  uchar2   _cl_overloadable NAME(uchar2  , uchar2  );   \
++  uchar3   _cl_overloadable NAME(uchar3  , uchar3  );   \
++  uchar4   _cl_overloadable NAME(uchar4  , uchar4  );   \
++  uchar8   _cl_overloadable NAME(uchar8  , uchar8  );   \
++  uchar16  _cl_overloadable NAME(uchar16 , uchar16 );   \
++  ushort   _cl_overloadable NAME(ushort  , ushort  );   \
++  ushort2  _cl_overloadable NAME(ushort2 , ushort2 );   \
++  ushort3  _cl_overloadable NAME(ushort3 , ushort3 );   \
++  ushort4  _cl_overloadable NAME(ushort4 , ushort4 );   \
++  ushort8  _cl_overloadable NAME(ushort8 , ushort8 );   \
++  ushort16 _cl_overloadable NAME(ushort16, ushort16);   \
++  uint     _cl_overloadable NAME(uint    , uint    );   \
++  uint2    _cl_overloadable NAME(uint2   , uint2   );   \
++  uint3    _cl_overloadable NAME(uint3   , uint3   );   \
++  uint4    _cl_overloadable NAME(uint4   , uint4   );   \
++  uint8    _cl_overloadable NAME(uint8   , uint8   );   \
++  uint16   _cl_overloadable NAME(uint16  , uint16  );   \
++  ulong    _cl_overloadable NAME(ulong   , ulong   );   \
++  ulong2   _cl_overloadable NAME(ulong2  , ulong2  );   \
++  ulong3   _cl_overloadable NAME(ulong3  , ulong3  );   \
++  ulong4   _cl_overloadable NAME(ulong4  , ulong4  );   \
++  ulong8   _cl_overloadable NAME(ulong8  , ulong8  );   \
++  ulong16  _cl_overloadable NAME(ulong16 , ulong16 );
++#define _CL_DECLARE_FUNC_LG_GUG(NAME)                   \
++  short    _cl_overloadable NAME(char    , uchar    );  \
++  short2   _cl_overloadable NAME(char2   , uchar2   );  \
++  short3   _cl_overloadable NAME(char3   , uchar3   );  \
++  short4   _cl_overloadable NAME(char4   , uchar4   );  \
++  short8   _cl_overloadable NAME(char8   , uchar8   );  \
++  short16  _cl_overloadable NAME(char16  , uchar16  );  \
++  int      _cl_overloadable NAME(short   , ushort   );  \
++  int2     _cl_overloadable NAME(short2  , ushort2  );  \
++  int3     _cl_overloadable NAME(short3  , ushort3  );  \
++  int4     _cl_overloadable NAME(short4  , ushort4  );  \
++  int8     _cl_overloadable NAME(short8  , ushort8  );  \
++  int16    _cl_overloadable NAME(short16 , ushort16 );  \
++  long     _cl_overloadable NAME(int     , uint     );  \
++  long2    _cl_overloadable NAME(int2    , uint2    );  \
++  long3    _cl_overloadable NAME(int3    , uint3    );  \
++  long4    _cl_overloadable NAME(int4    , uint4    );  \
++  long8    _cl_overloadable NAME(int8    , uint8    );  \
++  long16   _cl_overloadable NAME(int16   , uint16   );  \
++  ushort   _cl_overloadable NAME(uchar   , uchar   );   \
++  ushort2  _cl_overloadable NAME(uchar2  , uchar2  );   \
++  ushort3  _cl_overloadable NAME(uchar3  , uchar3  );   \
++  ushort4  _cl_overloadable NAME(uchar4  , uchar4  );   \
++  ushort8  _cl_overloadable NAME(uchar8  , uchar8  );   \
++  ushort16 _cl_overloadable NAME(uchar16 , uchar16 );   \
++  uint     _cl_overloadable NAME(ushort  , ushort  );   \
++  uint2    _cl_overloadable NAME(ushort2 , ushort2 );   \
++  uint3    _cl_overloadable NAME(ushort3 , ushort3 );   \
++  uint4    _cl_overloadable NAME(ushort4 , ushort4 );   \
++  uint8    _cl_overloadable NAME(ushort8 , ushort8 );   \
++  uint16   _cl_overloadable NAME(ushort16, ushort16);   \
++  ulong    _cl_overloadable NAME(uint    , uint    );   \
++  ulong2   _cl_overloadable NAME(uint2   , uint2   );   \
++  ulong3   _cl_overloadable NAME(uint3   , uint3   );   \
++  ulong4   _cl_overloadable NAME(uint4   , uint4   );   \
++  ulong8   _cl_overloadable NAME(uint8   , uint8   );   \
++  ulong16  _cl_overloadable NAME(uint16  , uint16  );
++#define _CL_DECLARE_FUNC_I_IG(NAME)             \
++  int _cl_overloadable NAME(char   );           \
++  int _cl_overloadable NAME(char2  );           \
++  int _cl_overloadable NAME(char3  );           \
++  int _cl_overloadable NAME(char4  );           \
++  int _cl_overloadable NAME(char8  );           \
++  int _cl_overloadable NAME(char16 );           \
++  int _cl_overloadable NAME(short  );           \
++  int _cl_overloadable NAME(short2 );           \
++  int _cl_overloadable NAME(short3 );           \
++  int _cl_overloadable NAME(short4 );           \
++  int _cl_overloadable NAME(short8 );           \
++  int _cl_overloadable NAME(short16);           \
++  int _cl_overloadable NAME(int    );           \
++  int _cl_overloadable NAME(int2   );           \
++  int _cl_overloadable NAME(int3   );           \
++  int _cl_overloadable NAME(int4   );           \
++  int _cl_overloadable NAME(int8   );           \
++  int _cl_overloadable NAME(int16  );           \
++  int _cl_overloadable NAME(long   );           \
++  int _cl_overloadable NAME(long2  );           \
++  int _cl_overloadable NAME(long3  );           \
++  int _cl_overloadable NAME(long4  );           \
++  int _cl_overloadable NAME(long8  );           \
++  int _cl_overloadable NAME(long16 );
++#define _CL_DECLARE_FUNC_J_JJ(NAME)                     \
++  int      _cl_overloadable NAME(int     , int     );   \
++  int2     _cl_overloadable NAME(int2    , int2    );   \
++  int3     _cl_overloadable NAME(int3    , int3    );   \
++  int4     _cl_overloadable NAME(int4    , int4    );   \
++  int8     _cl_overloadable NAME(int8    , int8    );   \
++  int16    _cl_overloadable NAME(int16   , int16   );   \
++  uint     _cl_overloadable NAME(uint    , uint    );   \
++  uint2    _cl_overloadable NAME(uint2   , uint2   );   \
++  uint3    _cl_overloadable NAME(uint3   , uint3   );   \
++  uint4    _cl_overloadable NAME(uint4   , uint4   );   \
++  uint8    _cl_overloadable NAME(uint8   , uint8   );   \
++  uint16   _cl_overloadable NAME(uint16  , uint16  );
++#define _CL_DECLARE_FUNC_J_JJJ(NAME)                            \
++  int      _cl_overloadable NAME(int     , int     , int     ); \
++  int2     _cl_overloadable NAME(int2    , int2    , int2    ); \
++  int3     _cl_overloadable NAME(int3    , int3    , int3    ); \
++  int4     _cl_overloadable NAME(int4    , int4    , int4    ); \
++  int8     _cl_overloadable NAME(int8    , int8    , int8    ); \
++  int16    _cl_overloadable NAME(int16   , int16   , int16   ); \
++  uint     _cl_overloadable NAME(uint    , uint    , uint    ); \
++  uint2    _cl_overloadable NAME(uint2   , uint2   , uint2   ); \
++  uint3    _cl_overloadable NAME(uint3   , uint3   , uint3   ); \
++  uint4    _cl_overloadable NAME(uint4   , uint4   , uint4   ); \
++  uint8    _cl_overloadable NAME(uint8   , uint8   , uint8   ); \
++  uint16   _cl_overloadable NAME(uint16  , uint16  , uint16  );
  _CL_DECLARE_FUNC_UG_G(abs)
  _CL_DECLARE_FUNC_UG_GG(abs_diff)
@@ -1269,10 +1423,10 @@
  /* Geometric Functions */
--float4 __attribute__ ((overloadable)) cross(float4, float4);
--float3 __attribute__ ((overloadable)) cross(float3, float3);
--double4 __attribute__ ((overloadable)) cross(double4, double4);
--double3 __attribute__ ((overloadable)) cross(double3, double3);
++float4 _cl_overloadable cross(float4, float4);
++float3 _cl_overloadable cross(float3, float3);
++double4 _cl_overloadable cross(double4, double4);
++double3 _cl_overloadable cross(double3, double3);
  _CL_DECLARE_FUNC_S_VV(dot)
  _CL_DECLARE_FUNC_S_VV(distance)
  _CL_DECLARE_FUNC_S_V(length)
@@ -1306,3 +1460,228 @@
  _CL_DECLARE_FUNC_V_VVV(bitselect)
  _CL_DECLARE_FUNC_G_GGG(select)
  _CL_DECLARE_FUNC_V_VVJ(select)
++
++
++
++/* Vector Functions */
++
++#define _CL_DECLARE_VLOAD(TYPE, MOD)                                    \
++  TYPE##2  _cl_overloadable vload2 (size_t offset, const MOD TYPE *p);  \
++  TYPE##3  _cl_overloadable vload3 (size_t offset, const MOD TYPE *p);  \
++  TYPE##4  _cl_overloadable vload4 (size_t offset, const MOD TYPE *p);  \
++  TYPE##8  _cl_overloadable vload8 (size_t offset, const MOD TYPE *p);  \
++  TYPE##16 _cl_overloadable vload16(size_t offset, const MOD TYPE *p);
++
++_CL_DECLARE_VLOAD(char  , __global)
++_CL_DECLARE_VLOAD(short , __global)
++_CL_DECLARE_VLOAD(int   , __global)
++_CL_DECLARE_VLOAD(long  , __global)
++_CL_DECLARE_VLOAD(uchar , __global)
++_CL_DECLARE_VLOAD(ushort, __global)
++_CL_DECLARE_VLOAD(uint  , __global)
++_CL_DECLARE_VLOAD(ulong , __global)
++_CL_DECLARE_VLOAD(float , __global)
++_CL_DECLARE_VLOAD(double, __global)
++
++_CL_DECLARE_VLOAD(char  , __local)
++_CL_DECLARE_VLOAD(short , __local)
++_CL_DECLARE_VLOAD(int   , __local)
++_CL_DECLARE_VLOAD(long  , __local)
++_CL_DECLARE_VLOAD(uchar , __local)
++_CL_DECLARE_VLOAD(ushort, __local)
++_CL_DECLARE_VLOAD(uint  , __local)
++_CL_DECLARE_VLOAD(ulong , __local)
++_CL_DECLARE_VLOAD(float , __local)
++_CL_DECLARE_VLOAD(double, __local)
++
++_CL_DECLARE_VLOAD(char  , __constant)
++_CL_DECLARE_VLOAD(short , __constant)
++_CL_DECLARE_VLOAD(int   , __constant)
++_CL_DECLARE_VLOAD(long  , __constant)
++_CL_DECLARE_VLOAD(uchar , __constant)
++_CL_DECLARE_VLOAD(ushort, __constant)
++_CL_DECLARE_VLOAD(uint  , __constant)
++_CL_DECLARE_VLOAD(ulong , __constant)
++_CL_DECLARE_VLOAD(float , __constant)
++_CL_DECLARE_VLOAD(double, __constant)
++
++/* __private is not supported yet               \
++_CL_DECLARE_VLOAD(char  , __private)
++_CL_DECLARE_VLOAD(short , __private)
++_CL_DECLARE_VLOAD(int   , __private)
++_CL_DECLARE_VLOAD(long  , __private)
++_CL_DECLARE_VLOAD(uchar , __private)
++_CL_DECLARE_VLOAD(ushort, __private)
++_CL_DECLARE_VLOAD(uint  , __private)
++_CL_DECLARE_VLOAD(ulong , __private)
++_CL_DECLARE_VLOAD(float , __private)
++_CL_DECLARE_VLOAD(double, __private)
++*/
++
++#define _CL_DECLARE_VSTORE(TYPE, MOD)                                   \
++  void _cl_overloadable vstore2 (TYPE##2  data, size_t offset, MOD TYPE *p); \
++  void _cl_overloadable vstore3 (TYPE##3  data, size_t offset, MOD TYPE *p); \
++  void _cl_overloadable vstore4 (TYPE##4  data, size_t offset, MOD TYPE *p); \
++  void _cl_overloadable vstore8 (TYPE##8  data, size_t offset, MOD TYPE *p); \
++  void _cl_overloadable vstore16(TYPE##16 data, size_t offset, MOD TYPE *p);
++
++_CL_DECLARE_VSTORE(char  , __global)
++_CL_DECLARE_VSTORE(short , __global)
++_CL_DECLARE_VSTORE(int   , __global)
++_CL_DECLARE_VSTORE(long  , __global)
++_CL_DECLARE_VSTORE(uchar , __global)
++_CL_DECLARE_VSTORE(ushort, __global)
++_CL_DECLARE_VSTORE(uint  , __global)
++_CL_DECLARE_VSTORE(ulong , __global)
++_CL_DECLARE_VSTORE(float , __global)
++_CL_DECLARE_VSTORE(double, __global)
++
++_CL_DECLARE_VSTORE(char  , __local)
++_CL_DECLARE_VSTORE(short , __local)
++_CL_DECLARE_VSTORE(int   , __local)
++_CL_DECLARE_VSTORE(long  , __local)
++_CL_DECLARE_VSTORE(uchar , __local)
++_CL_DECLARE_VSTORE(ushort, __local)
++_CL_DECLARE_VSTORE(uint  , __local)
++_CL_DECLARE_VSTORE(ulong , __local)
++_CL_DECLARE_VSTORE(float , __local)
++_CL_DECLARE_VSTORE(double, __local)
++
++/* __private is not supported yet
++_CL_DECLARE_VSTORE(char  , __private)
++_CL_DECLARE_VSTORE(short , __private)
++_CL_DECLARE_VSTORE(int   , __private)
++_CL_DECLARE_VSTORE(long  , __private)
++_CL_DECLARE_VSTORE(uchar , __private)
++_CL_DECLARE_VSTORE(ushort, __private)
++_CL_DECLARE_VSTORE(uint  , __private)
++_CL_DECLARE_VSTORE(ulong , __private)
++_CL_DECLARE_VSTORE(float , __private)
++_CL_DECLARE_VSTORE(double, __private)
++*/
++
++
++
++/* Miscellaneous Vector Functions */
++
++// convert a vector type to a scalar type
++_CL_DECLARE_FUNC_I_IG(_cl_scalar)
++_CL_DECLARE_FUNC_S_V(_cl_scalar)
++#define vec_step(a) (sizeof(a) / sizeof(_cl_scalar(a)))
++
++
++
++// This code leads to an ICE in Clang
++
++// #define _CL_DECLARE_SHUFFLE_2(GTYPE, UGTYPE, STYPE, M)                  \
++//   GTYPE##2 _cl_overloadable shuffle(GTYPE##M x, UGTYPE##2 mask)         \
++//   {                                                                     \
++//     UGTYPE bits = (UGTYPE)1 << (UGTYPE)M;                               \
++//     UGTYPE bmask = bits - (UGTYPE)1;                                    \
++//     return __builtin_shufflevector(x, x,                                \
++//                                    mask.s0 & bmask, mask.s1 & bmask);   \
++//   }
++// #define _CL_DECLARE_SHUFFLE_3(GTYPE, UGTYPE, STYPE, M)                  \
++//   GTYPE##3 _cl_overloadable shuffle(GTYPE##M x, UGTYPE##3 mask)         \
++//   {                                                                     \
++//     UGTYPE bits = (UGTYPE)1 << (UGTYPE)M;                               \
++//     UGTYPE bmask = bits - (UGTYPE)1;                                    \
++//     return __builtin_shufflevector(x, x,                                \
++//                                    mask.s0 & bmask, mask.s1 & bmask,    \
++//                                    mask.s2 & bmask);                    \
++//   }
++// #define _CL_DECLARE_SHUFFLE_4(GTYPE, UGTYPE, STYPE, M)                  \
++//   GTYPE##4 _cl_overloadable shuffle(GTYPE##M x, UGTYPE##4 mask)         \
++//   {                                                                     \
++//     UGTYPE bits = (UGTYPE)1 << (UGTYPE)M;                               \
++//     UGTYPE bmask = bits - (UGTYPE)1;                                    \
++//     return __builtin_shufflevector(x, x,                                \
++//                                    mask.s0 & bmask, mask.s1 & bmask,    \
++//                                    mask.s2 & bmask, mask.s3 & bmask);   \
++//   }
++// #define _CL_DECLARE_SHUFFLE_8(GTYPE, UGTYPE, STYPE, M)                  \
++//   GTYPE##8 _cl_overloadable shuffle(GTYPE##M x, UGTYPE##8 mask)         \
++//   {                                                                     \
++//     UGTYPE bits = (UGTYPE)1 << (UGTYPE)M;                               \
++//     UGTYPE bmask = bits - (UGTYPE)1;                                    \
++//     return __builtin_shufflevector(x, x,                                \
++//                                    mask.s0 & bmask, mask.s1 & bmask,    \
++//                                    mask.s2 & bmask, mask.s3 & bmask,    \
++//                                    mask.s4 & bmask, mask.s5 & bmask,    \
++//                                    mask.s6 & bmask, mask.s7 & bmask);   \
++//   }
++// #define _CL_DECLARE_SHUFFLE_16(GTYPE, UGTYPE, STYPE, M)                 \
++//   GTYPE##16 _cl_overloadable shuffle(GTYPE##M x, UGTYPE##16 mask)       \
++//   {                                                                     \
++//     UGTYPE bits = (UGTYPE)1 << (UGTYPE)M;                               \
++//     UGTYPE bmask = bits - (UGTYPE)1;                                    \
++//     return __builtin_shufflevector(x, x,                                \
++//                                    mask.s0 & bmask, mask.s1 & bmask,    \
++//                                    mask.s2 & bmask, mask.s3 & bmask,    \
++//                                    mask.s4 & bmask, mask.s5 & bmask,    \
++//                                    mask.s6 & bmask, mask.s7 & bmask,    \
++//                                    mask.s8 & bmask, mask.s9 & bmask,    \
++//                                    mask.sa & bmask, mask.sb & bmask,    \
++//                                    mask.sc & bmask, mask.sd & bmask,    \
++//                                    mask.se & bmask, mask.sf & bmask);   \
++//   }
++//
++// #define _CL_DECLARE_SHUFFLE(GTYPE, UGTYPE, STYPE, M)    \
++//   _CL_DECLARE_SHUFFLE_2 (GTYPE, UGTYPE, STYPE, M)       \
++//   _CL_DECLARE_SHUFFLE_3 (GTYPE, UGTYPE, STYPE, M)       \
++//   _CL_DECLARE_SHUFFLE_4 (GTYPE, UGTYPE, STYPE, M)       \
++//   _CL_DECLARE_SHUFFLE_8 (GTYPE, UGTYPE, STYPE, M)       \
++//   _CL_DECLARE_SHUFFLE_16(GTYPE, UGTYPE, STYPE, M)
++//
++// _CL_DECLARE_SHUFFLE(char  , uchar , char  , 2 )
++// _CL_DECLARE_SHUFFLE(char  , uchar , char  , 3 )
++// _CL_DECLARE_SHUFFLE(char  , uchar , char  , 4 )
++// _CL_DECLARE_SHUFFLE(char  , uchar , char  , 8 )
++// _CL_DECLARE_SHUFFLE(char  , uchar , char  , 16)
++// _CL_DECLARE_SHUFFLE(uchar , uchar , char  , 2 )
++// _CL_DECLARE_SHUFFLE(uchar , uchar , char  , 3 )
++// _CL_DECLARE_SHUFFLE(uchar , uchar , char  , 4 )
++// _CL_DECLARE_SHUFFLE(uchar , uchar , char  , 8 )
++// _CL_DECLARE_SHUFFLE(uchar , uchar , char  , 16)
++// _CL_DECLARE_SHUFFLE(short , ushort, short , 2 )
++// _CL_DECLARE_SHUFFLE(short , ushort, short , 3 )
++// _CL_DECLARE_SHUFFLE(short , ushort, short , 4 )
++// _CL_DECLARE_SHUFFLE(short , ushort, short , 8 )
++// _CL_DECLARE_SHUFFLE(short , ushort, short , 16)
++// _CL_DECLARE_SHUFFLE(ushort, ushort, short , 2 )
++// _CL_DECLARE_SHUFFLE(ushort, ushort, short , 3 )
++// _CL_DECLARE_SHUFFLE(ushort, ushort, short , 4 )
++// _CL_DECLARE_SHUFFLE(ushort, ushort, short , 8 )
++// _CL_DECLARE_SHUFFLE(ushort, ushort, short , 16)
++// _CL_DECLARE_SHUFFLE(int   , uint  , int   , 2 )
++// _CL_DECLARE_SHUFFLE(int   , uint  , int   , 3 )
++// _CL_DECLARE_SHUFFLE(int   , uint  , int   , 4 )
++// _CL_DECLARE_SHUFFLE(int   , uint  , int   , 8 )
++// _CL_DECLARE_SHUFFLE(int   , uint  , int   , 16)
++// _CL_DECLARE_SHUFFLE(uint  , uint  , int   , 2 )
++// _CL_DECLARE_SHUFFLE(uint  , uint  , int   , 3 )
++// _CL_DECLARE_SHUFFLE(uint  , uint  , int   , 4 )
++// _CL_DECLARE_SHUFFLE(uint  , uint  , int   , 8 )
++// _CL_DECLARE_SHUFFLE(uint  , uint  , int   , 16)
++// _CL_DECLARE_SHUFFLE(long  , ulong , long  , 2 )
++// _CL_DECLARE_SHUFFLE(long  , ulong , long  , 3 )
++// _CL_DECLARE_SHUFFLE(long  , ulong , long  , 4 )
++// _CL_DECLARE_SHUFFLE(long  , ulong , long  , 8 )
++// _CL_DECLARE_SHUFFLE(long  , ulong , long  , 16)
++// _CL_DECLARE_SHUFFLE(ulong , ulong , long  , 2 )
++// _CL_DECLARE_SHUFFLE(ulong , ulong , long  , 3 )
++// _CL_DECLARE_SHUFFLE(ulong , ulong , long  , 4 )
++// _CL_DECLARE_SHUFFLE(ulong , ulong , long  , 8 )
++// _CL_DECLARE_SHUFFLE(ulong , ulong , long  , 16)
++// _CL_DECLARE_SHUFFLE(float , uint  , float , 2 )
++// _CL_DECLARE_SHUFFLE(float , uint  , float , 3 )
++// _CL_DECLARE_SHUFFLE(float , uint  , float , 4 )
++// _CL_DECLARE_SHUFFLE(float , uint  , float , 8 )
++// _CL_DECLARE_SHUFFLE(float , uint  , float , 16)
++// _CL_DECLARE_SHUFFLE(double, ulong , double, 2 )
++// _CL_DECLARE_SHUFFLE(double, ulong , double, 3 )
++// _CL_DECLARE_SHUFFLE(double, ulong , double, 4 )
++// _CL_DECLARE_SHUFFLE(double, ulong , double, 8 )
++// _CL_DECLARE_SHUFFLE(double, ulong , double, 16)
++
++// shuffle2
 === modified file 'lib/kernel/Makefile.am'
 --- lib/kernel/Makefile.am	2011-10-31 16:58:40 +0000
 +++ lib/kernel/Makefile.am	2011-10-31 17:03:23 +0000
@@ -22,9 +22,13 @@
  # OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN
  # THE SOFTWARE.
--LEX=
++LEX =
++<<<<<<< TREE
  SUBDIRS = tce
++=======
++SUBDIRS = dummy x86 # ppc
++>>>>>>> MERGE-SOURCE
  pkglib_LIBRARIES = libkernel.a
@@ -145,7 +149,9 @@
                        any.cl			\
                        all.cl			\
                        bitselect.cl		\
--                      select.cl
++                      select.cl			\
++                      vload.cl			\
++                      vstore.cl
  libkernel_a_LIBADD = barrier.o
  EXTRA_DIST = barrier.ll
@@ -159,7 +165,7 @@
  .c.o:
  	$(CLANG) $(AM_CPPFLAGS) $(CLANGFLAGS) -c -emit-llvm -include $(top_srcdir)/include/_kernel.h -o $@ $<
--barrier.o: barrier.ll
++.ll.o:
  	$(LLVM_AS) -o $@ $<
  $(libkernel_a_SOURCES:.c=.o):  $(top_srcdir)/include/_kernel.h
 === modified file 'lib/kernel/all.cl'
 --- lib/kernel/all.cl	2011-10-27 01:35:56 +0000
 +++ lib/kernel/all.cl	2011-10-31 17:03:23 +0000
@@ -21,122 +21,122 @@
     THE SOFTWARE.
  */
--int __attribute__((overloadable)) all(char a)
++int __attribute__((__overloadable__)) all(char a)
+ {
    return a < (char)0;
+ }
--int __attribute__((overloadable)) all(char2 a)
++int __attribute__((__overloadable__)) all(char2 a)
+ {
    return all(a.lo) && all(a.hi);
+ }
--int __attribute__((overloadable)) all(char3 a)
++int __attribute__((__overloadable__)) all(char3 a)
+ {
    return all(a.s01) && all(a.s2);
+ }
--int __attribute__((overloadable)) all(char4 a)
--{
--  return all(a.lo) && all(a.hi);
--}
--
--int __attribute__((overloadable)) all(char8 a)
--{
--  return all(a.lo) && all(a.hi);
--}
--
--int __attribute__((overloadable)) all(char16 a)
--{
--  return all(a.lo) && all(a.hi);
--}
--
--int __attribute__((overloadable)) all(short a)
++int __attribute__((__overloadable__)) all(char4 a)
++{
++  return all(a.lo) && all(a.hi);
++}
++
++int __attribute__((__overloadable__)) all(char8 a)
++{
++  return all(a.lo) && all(a.hi);
++}
++
++int __attribute__((__overloadable__)) all(char16 a)
++{
++  return all(a.lo) && all(a.hi);
++}
++
++int __attribute__((__overloadable__)) all(short a)
+ {
    return a < (short)0;
+ }
--int __attribute__((overloadable)) all(short2 a)
++int __attribute__((__overloadable__)) all(short2 a)
+ {
    return all(a.lo) && all(a.hi);
+ }
--int __attribute__((overloadable)) all(short3 a)
++int __attribute__((__overloadable__)) all(short3 a)
+ {
    return all(a.s01) && all(a.s2);
+ }
--int __attribute__((overloadable)) all(short4 a)
--{
--  return all(a.lo) && all(a.hi);
--}
--
--int __attribute__((overloadable)) all(short8 a)
--{
--  return all(a.lo) && all(a.hi);
--}
--
--int __attribute__((overloadable)) all(short16 a)
--{
--  return all(a.lo) && all(a.hi);
--}
--
--int __attribute__((overloadable)) all(int a)
++int __attribute__((__overloadable__)) all(short4 a)
++{
++  return all(a.lo) && all(a.hi);
++}
++
++int __attribute__((__overloadable__)) all(short8 a)
++{
++  return all(a.lo) && all(a.hi);
++}
++
++int __attribute__((__overloadable__)) all(short16 a)
++{
++  return all(a.lo) && all(a.hi);
++}
++
++int __attribute__((__overloadable__)) all(int a)
+ {
    return a < 0;
+ }
--int __attribute__((overloadable)) all(int2 a)
++int __attribute__((__overloadable__)) all(int2 a)
+ {
    return all(a.lo) && all(a.hi);
+ }
--int __attribute__((overloadable)) all(int3 a)
++int __attribute__((__overloadable__)) all(int3 a)
+ {
    return all(a.s01) && all(a.s2);
+ }
--int __attribute__((overloadable)) all(int4 a)
--{
--  return all(a.lo) && all(a.hi);
--}
--
--int __attribute__((overloadable)) all(int8 a)
--{
--  return all(a.lo) && all(a.hi);
--}
--
--int __attribute__((overloadable)) all(int16 a)
--{
--  return all(a.lo) && all(a.hi);
--}
--
--int __attribute__((overloadable)) all(long a)
++int __attribute__((__overloadable__)) all(int4 a)
++{
++  return all(a.lo) && all(a.hi);
++}
++
++int __attribute__((__overloadable__)) all(int8 a)
++{
++  return all(a.lo) && all(a.hi);
++}
++
++int __attribute__((__overloadable__)) all(int16 a)
++{
++  return all(a.lo) && all(a.hi);
++}
++
++int __attribute__((__overloadable__)) all(long a)
+ {
    return a < 0L;
+ }
--int __attribute__((overloadable)) all(long2 a)
++int __attribute__((__overloadable__)) all(long2 a)
+ {
    return all(a.lo) && all(a.hi);
+ }
--int __attribute__((overloadable)) all(long3 a)
++int __attribute__((__overloadable__)) all(long3 a)
+ {
    return all(a.s01) && all(a.s2);
+ }
--int __attribute__((overloadable)) all(long4 a)
--{
--  return all(a.lo) && all(a.hi);
--}
--
--int __attribute__((overloadable)) all(long8 a)
--{
--  return all(a.lo) && all(a.hi);
--}
--
--int __attribute__((overloadable)) all(long16 a)
++int __attribute__((__overloadable__)) all(long4 a)
++{
++  return all(a.lo) && all(a.hi);
++}
++
++int __attribute__((__overloadable__)) all(long8 a)
++{
++  return all(a.lo) && all(a.hi);
++}
++
++int __attribute__((__overloadable__)) all(long16 a)
+ {
    return all(a.lo) && all(a.hi);
+ }
 === modified file 'lib/kernel/any.cl'
 --- lib/kernel/any.cl	2011-10-27 01:35:56 +0000
 +++ lib/kernel/any.cl	2011-10-31 17:03:23 +0000
@@ -21,122 +21,122 @@
     THE SOFTWARE.
  */
--int __attribute__((overloadable)) any(char a)
++int __attribute__((__overloadable__)) any(char a)
+ {
    return a < (char)0;
+ }
--int __attribute__((overloadable)) any(char2 a)
++int __attribute__((__overloadable__)) any(char2 a)
+ {
    return any(a.lo) || any(a.hi);
+ }
--int __attribute__((overloadable)) any(char3 a)
++int __attribute__((__overloadable__)) any(char3 a)
+ {
    return any(a.s01) || any(a.s2);
+ }
--int __attribute__((overloadable)) any(char4 a)
--{
--  return any(a.lo) || any(a.hi);
--}
--
--int __attribute__((overloadable)) any(char8 a)
--{
--  return any(a.lo) || any(a.hi);
--}
--
--int __attribute__((overloadable)) any(char16 a)
--{
--  return any(a.lo) || any(a.hi);
--}
--
--int __attribute__((overloadable)) any(short a)
++int __attribute__((__overloadable__)) any(char4 a)
++{
++  return any(a.lo) || any(a.hi);
++}
++
++int __attribute__((__overloadable__)) any(char8 a)
++{
++  return any(a.lo) || any(a.hi);
++}
++
++int __attribute__((__overloadable__)) any(char16 a)
++{
++  return any(a.lo) || any(a.hi);
++}
++
++int __attribute__((__overloadable__)) any(short a)
+ {
    return a < (short)0;
+ }
--int __attribute__((overloadable)) any(short2 a)
++int __attribute__((__overloadable__)) any(short2 a)
+ {
    return any(a.lo) || any(a.hi);
+ }
--int __attribute__((overloadable)) any(short3 a)
++int __attribute__((__overloadable__)) any(short3 a)
+ {
    return any(a.s01) || any(a.s2);
+ }
--int __attribute__((overloadable)) any(short4 a)
--{
--  return any(a.lo) || any(a.hi);
--}
--
--int __attribute__((overloadable)) any(short8 a)
--{
--  return any(a.lo) || any(a.hi);
--}
--
--int __attribute__((overloadable)) any(short16 a)
--{
--  return any(a.lo) || any(a.hi);
--}
--
--int __attribute__((overloadable)) any(int a)
++int __attribute__((__overloadable__)) any(short4 a)
++{
++  return any(a.lo) || any(a.hi);
++}
++
++int __attribute__((__overloadable__)) any(short8 a)
++{
++  return any(a.lo) || any(a.hi);
++}
++
++int __attribute__((__overloadable__)) any(short16 a)
++{
++  return any(a.lo) || any(a.hi);
++}
++
++int __attribute__((__overloadable__)) any(int a)
+ {
    return a < 0;
+ }
--int __attribute__((overloadable)) any(int2 a)
++int __attribute__((__overloadable__)) any(int2 a)
+ {
    return any(a.lo) || any(a.hi);
+ }
--int __attribute__((overloadable)) any(int3 a)
++int __attribute__((__overloadable__)) any(int3 a)
+ {
    return any(a.s01) || any(a.s2);
+ }
--int __attribute__((overloadable)) any(int4 a)
--{
--  return any(a.lo) || any(a.hi);
--}
--
--int __attribute__((overloadable)) any(int8 a)
--{
--  return any(a.lo) || any(a.hi);
--}
--
--int __attribute__((overloadable)) any(int16 a)
--{
--  return any(a.lo) || any(a.hi);
--}
--
--int __attribute__((overloadable)) any(long a)
++int __attribute__((__overloadable__)) any(int4 a)
++{
++  return any(a.lo) || any(a.hi);
++}
++
++int __attribute__((__overloadable__)) any(int8 a)
++{
++  return any(a.lo) || any(a.hi);
++}
++
++int __attribute__((__overloadable__)) any(int16 a)
++{
++  return any(a.lo) || any(a.hi);
++}
++
++int __attribute__((__overloadable__)) any(long a)
+ {
    return a < 0L;
+ }
--int __attribute__((overloadable)) any(long2 a)
++int __attribute__((__overloadable__)) any(long2 a)
+ {
    return any(a.lo) || any(a.hi);
+ }
--int __attribute__((overloadable)) any(long3 a)
++int __attribute__((__overloadable__)) any(long3 a)
+ {
    return any(a.s01) || any(a.s2);
+ }
--int __attribute__((overloadable)) any(long4 a)
--{
--  return any(a.lo) || any(a.hi);
--}
--
--int __attribute__((overloadable)) any(long8 a)
--{
--  return any(a.lo) || any(a.hi);
--}
--
--int __attribute__((overloadable)) any(long16 a)
++int __attribute__((__overloadable__)) any(long4 a)
++{
++  return any(a.lo) || any(a.hi);
++}
++
++int __attribute__((__overloadable__)) any(long8 a)
++{
++  return any(a.lo) || any(a.hi);
++}
++
++int __attribute__((__overloadable__)) any(long16 a)
+ {
    return any(a.lo) || any(a.hi);
+ }
 === modified file 'lib/kernel/as_type.cl'
 --- lib/kernel/as_type.cl	2011-10-20 19:46:45 +0000
 +++ lib/kernel/as_type.cl	2011-10-31 17:03:23 +0000
@@ -22,7 +22,7 @@
  */
  #define DEFINE_AS_TYPE(SRC, DST)                \
--  DST __attribute__ ((overloadable))            \
++  DST __attribute__ ((__overloadable__))            \
    as_##DST(SRC a)                               \
    {                                             \
      return *(DST*)&a;                           \
 === modified file 'lib/kernel/ceil.cl'
 --- lib/kernel/ceil.cl	2011-10-25 18:52:31 +0000
 +++ lib/kernel/ceil.cl	2011-10-31 17:03:23 +0000
@@ -21,134 +21,6 @@
     THE SOFTWARE.
  */
--
--
--#define _MM_FROUND_TO_NEAREST_INT 0x00
--#define _MM_FROUND_TO_NEG_INF     0x01
--#define _MM_FROUND_TO_POS_INF     0x02
--#define _MM_FROUND_TO_ZERO        0x03
--#define _MM_FROUND_CUR_DIRECTION  0x04
--
--#define _MM_FROUND_RAISE_EXC 0x00
--#define _MM_FROUND_NO_EXC    0x08
--
--#define _MM_FROUND_NINT      (_MM_FROUND_TO_NEAREST_INT | _MM_FROUND_RAISE_EXC)
--#define _MM_FROUND_FLOOR     (_MM_FROUND_TO_NEG_INF | _MM_FROUND_RAISE_EXC)
--#define _MM_FROUND_CEIL      (_MM_FROUND_TO_POS_INF | _MM_FROUND_RAISE_EXC)
--#define _MM_FROUND_TRUNC     (_MM_FROUND_TO_ZERO | _MM_FROUND_RAISE_EXC)
--#define _MM_FROUND_RINT      (_MM_FROUND_CUR_DIRECTION | _MM_FROUND_RAISE_EXC)
--#define _MM_FROUND_NEARBYINT (_MM_FROUND_CUR_DIRECTION | _MM_FROUND_NO_EXC)
--
--
--
--float __attribute__ ((overloadable))
--cl_ceil(float a)
--{
--#ifdef __SSE4_1__
--  // LLVM does not optimise this on its own
--  return ((float4)__builtin_ia32_roundss(*(float4*)&a, *(float4*)&a,
--                                         _MM_FROUND_CEIL)).s0;
--#else
--  return __builtin_ceilf(a);
--#endif
--}
--
--float2 __attribute__ ((overloadable))
--cl_ceil(float2 a)
--{
--#ifdef __SSE4_1__
--  return ((float4)cl_ceil(*(float4)&a)).s01;
--#else
--  return (float2)(cl_ceil(a.lo), cl_ceil(a.hi));
--#endif
--}
--
--float3 __attribute__ ((overloadable))
--cl_ceil(float3 a)
--{
--#ifdef __SSE4_1__
--  return ((float4)cl_ceil(*(float4)&a)).s012;
--#else
--  return (float3)(cl_ceil(a.s01), cl_ceil(a.s2));
--#endif
--}
--
--float4 __attribute__ ((overloadable))
--cl_ceil(float4 a)
--{
--#ifdef __SSE4_1__
--  return __builtin_ia32_roundps(a, _MM_FROUND_CEIL);
--#else
--  return (float4)(cl_ceil(a.lo), cl_ceil(a.hi));
--#endif
--}
--
--float8 __attribute__ ((overloadable))
--cl_ceil(float8 a)
--{
--#ifdef __AVX__
--  return __builtin_ia32_roundps256(a, _MM_FROUND_CEIL);
--#else
--  return (float8)(cl_ceil(a.lo), cl_ceil(a.hi));
--#endif
--}
--
--float16 __attribute__ ((overloadable))
--cl_ceil(float16 a)
--{
--  return (float16)(cl_ceil(a.lo), cl_ceil(a.hi));
--}
--
--double __attribute__ ((overloadable))
--cl_ceil(double a)
--{
--#ifdef __SSE4_1__
--  // LLVM does not optimise this on its own
--  return ((double2)__builtin_ia32_roundss(*(double2*)&a, *(double2*)&a,
--                                          _MM_FROUND_CEIL)).s0;
--#else
--  return __builtin_ceil(a);
--#endif
--}
--
--double2 __attribute__ ((overloadable))
--cl_ceil(double2 a)
--{
--#ifdef __SSE4_1__
--  return __builtin_ia32_roundpd(a, _MM_FROUND_CEIL);
--#else
--  return (double2)(cl_ceil(a.lo), cl_ceil(a.hi));
--#endif
--}
--
--double3 __attribute__ ((overloadable))
--cl_ceil(double3 a)
--{
--#ifdef __AVX__
--  return ((double4)cl_ceil(*(double4)&a)).s012;
--#else
--  return (double3)(cl_ceil(a.s01), cl_ceil(a.s2));
--#endif
--}
--
--double4 __attribute__ ((overloadable))
--cl_ceil(double4 a)
--{
--#ifdef __AVX__
--  return __builtin_ia32_roundpd256(a, _MM_FROUND_CEIL);
--#else
--  return (double4)(cl_ceil(a.lo), cl_ceil(a.hi));
--#endif
--}
--
--double8 __attribute__ ((overloadable))
--cl_ceil(double8 a)
--{
--  return (double8)(cl_ceil(a.lo), cl_ceil(a.hi));
--}
--
--double16 __attribute__ ((overloadable))
--cl_ceil(double16 a)
--{
--  return (double16)(cl_ceil(a.lo), cl_ceil(a.hi));
--}
++#include "templates.h"
++
++DEFINE_BUILTIN_V_V(ceil)
 === modified file 'lib/kernel/convert_type.cl'
 --- lib/kernel/convert_type.cl	2011-10-26 19:49:23 +0000
 +++ lib/kernel/convert_type.cl	2011-10-31 17:03:23 +0000
@@ -24,19 +24,19 @@
  #include "templates.h"
  #define DEFINE_CONVERT_TYPE(SRC, DST)                           \
--  DST __attribute__ ((overloadable)) convert_##DST(SRC a)       \
++  DST __attribute__ ((__overloadable__)) convert_##DST(SRC a)       \
    {                                                             \
      return (DST)a;                                              \
+   }
  #define DEFINE_CONVERT_TYPE_HALF(SRC, DST, HALFDST)                     \
--  DST __attribute__ ((overloadable)) convert_##DST(SRC a)               \
++  DST __attribute__ ((__overloadable__)) convert_##DST(SRC a)               \
    {                                                                     \
      return (DST)(convert_##HALFDST(a.lo), convert_##HALFDST(a.hi));     \
+   }
  #define DEFINE_CONVERT_TYPE_012(SRC, DST, DST01, DST2)          \
--  DST __attribute__ ((overloadable)) convert_##DST(SRC a)       \
++  DST __attribute__ ((__overloadable__)) convert_##DST(SRC a)       \
    {                                                             \
      return (DST)(convert_##DST01(a.s01), convert_##DST2(a.s2)); \
+   }
 === modified file 'lib/kernel/copysign.cl'
 --- lib/kernel/copysign.cl	2011-10-25 16:28:54 +0000
 +++ lib/kernel/copysign.cl	2011-10-31 17:03:23 +0000
@@ -21,110 +21,6 @@
     THE SOFTWARE.
  */
--float __attribute__ ((overloadable))
--copysign(float a, float b)
--{
--  return __builtin_copysignf(a, b);
--}
--
--float2 __attribute__ ((overloadable))
--copysign(float2 a, float2 b)
--{
--#ifdef __SSE__
--  return copysign(*(float4*)&a, *(float4*)&b).s01;
--#else
--  return (float2)(copysign(a.lo, b.lo), copysign(a.hi, b.hi));
--#endif
--}
--
--float3 __attribute__ ((overloadable))
--copysign(float3 a, float3 b)
--{
--#ifdef __SSE__
--  return copysign(*(float4*)&a, *(float4*)&b).s012;
--#else
--  return (float3)(copysign(a.s01, b.s01), copysign(a.s2, b.s2));
--#endif
--}
--
--float4 __attribute__ ((overloadable))
--copysign(float4 a, float4 b)
--{
--#ifdef __SSE__
--  const uint4 sign_mask = {0x80000000U, 0x80000000U, 0x80000000U, 0x80000000U};
--  return as_float4((~sign_mask & as_uint4(a)) | (sign_mask & as_uint4(b)));
--#else
--  return (float4)(copysign(a.lo, b.lo), copysign(a.hi, b.hi));
--#endif
--}
--
--float8 __attribute__ ((overloadable))
--copysign(float8 a, float8 b)
--{
--#ifdef __AVX__
--  const uint8 sign_mask =
--    {0x80000000U, 0x80000000U, 0x80000000U, 0x80000000U,
--     0x80000000U, 0x80000000U, 0x80000000U, 0x80000000U};
--  return as_float8((~sign_mask & as_uint8(a)) | (sign_mask & as_uint8(b)));
--#else
--  return (float8)(copysign(a.lo, b.lo), copysign(a.hi, b.hi));
--#endif
--}
--
--float16 __attribute__ ((overloadable))
--copysign(float16 a, float16 b)
--{
--  return (float16)(copysign(a.lo, b.lo), copysign(a.hi, b.hi));
--}
--
--double __attribute__ ((overloadable))
--copysign(double a, double b)
--{
--  return __builtin_copysign(a, b);
--}
--
--double2 __attribute__ ((overloadable))
--copysign(double2 a, double2 b)
--{
--#ifdef __SSE2__
--  const ulong2 sign_mask = {0x8000000000000000UL, 0x8000000000000000UL};
--  return as_double2((~sign_mask & as_ulong2(a)) | (sign_mask & as_ulong2(b)));
--#else
--  return (double2)(copysign(a.lo, b.lo), copysign(a.hi, b.hi));
--#endif
--}
--
--double3 __attribute__ ((overloadable))
--copysign(double3 a, double3 b)
--{
--#ifdef __AVX__
--  return copysign(*(double4*)&a, *(double4*)&b).s012;
--#else
--  return (double3)(copysign(a.s01, b.s01), copysign(a.s2, b.s2));
--#endif
--}
--
--double4 __attribute__ ((overloadable))
--copysign(double4 a, double4 b)
--{
--#ifdef __AVX__
--  const ulong4 sign_mask =
--    {0x8000000000000000UL, 0x8000000000000000UL,
--     0x8000000000000000UL, 0x8000000000000000UL};
--  return as_double4((~sign_mask & as_ulong4(a)) | (sign_mask & as_ulong4(b)));
--#else
--  return (double4)(copysign(a.lo, b.hi), copysign(a.lo, b.hi));
--#endif
--}
--
--double8 __attribute__ ((overloadable))
--copysign(double8 a, double8 b)
--{
--  return (double8)(copysign(a.lo, b.lo), copysign(a.hi, b.hi));
--}
--
--double16 __attribute__ ((overloadable))
--copysign(double16 a, double16 b)
--{
--  return (double16)(copysign(a.lo, b.lo), copysign(a.hi, b.hi));
--}
++#include "templates.h"
++
++DEFINE_BUILTIN_V_VV(copysign)
 === modified file 'lib/kernel/cross.cl'
 --- lib/kernel/cross.cl	2011-10-27 01:35:56 +0000
 +++ lib/kernel/cross.cl	2011-10-31 17:03:23 +0000
@@ -21,24 +21,24 @@
     THE SOFTWARE.
  */
--float4 __attribute__ ((overloadable)) cross(float4 a, float4 b)
++float4 __attribute__ ((__overloadable__)) cross(float4 a, float4 b)
+ {
    return (float4)(cross(a.xyz, b.xyz), 0.0f);
+ }
--float3 __attribute__ ((overloadable)) cross(float3 a, float3 b)
++float3 __attribute__ ((__overloadable__)) cross(float3 a, float3 b)
+ {
    return (float3)(a.y * b.z - a.z * b.y,
                    a.z * b.x - a.x * b.z,
                    a.x * b.y - a.y * b.x);
+ }
--double4 __attribute__ ((overloadable)) cross(double4 a, double4 b)
++double4 __attribute__ ((__overloadable__)) cross(double4 a, double4 b)
+ {
    return (double4)(cross(a.xyz, b.xyz), 0.0f);
+ }
--double3 __attribute__ ((overloadable)) cross(double3 a, double3 b)
++double3 __attribute__ ((__overloadable__)) cross(double3 a, double3 b)
+ {
    return (double3)(a.y * b.z - a.z * b.y,
                     a.z * b.x - a.x * b.z,
 === modified file 'lib/kernel/dot.cl'
 --- lib/kernel/dot.cl	2011-10-27 01:35:56 +0000
 +++ lib/kernel/dot.cl	2011-10-31 17:03:23 +0000
@@ -21,62 +21,62 @@
     THE SOFTWARE.
  */
--float __attribute__ ((overloadable)) dot(float a, float b)
--{
--  return a * b;
--}
--
--float __attribute__ ((overloadable)) dot(float2 a, float2 b)
--{
--  return a.lo * b.lo + a.hi * b.hi;
--}
--
--float __attribute__ ((overloadable)) dot(float3 a, float3 b)
--{
--  return dot(a.s01, b.s01) + a.s2 * b.s2;
--}
--
--float __attribute__ ((overloadable)) dot(float4 a, float4 b)
--{
--  return dot(a.lo, b.lo) + dot(a.hi, b.hi);
--}
--
--float __attribute__ ((overloadable)) dot(float8 a, float8 b)
--{
--  return dot(a.lo, b.lo) + dot(a.hi, b.hi);
--}
--
--float __attribute__ ((overloadable)) dot(float16 a, float16 b)
--{
--  return dot(a.lo, b.lo) + dot(a.hi, b.hi);
--}
--
--double __attribute__ ((overloadable)) dot(double a, double b)
--{
--  return a * b;
--}
--
--double __attribute__ ((overloadable)) dot(double2 a, double2 b)
--{
--  return a.lo * b.lo + a.hi * b.hi;
--}
--
--double __attribute__ ((overloadable)) dot(double3 a, double3 b)
--{
--  return dot(a.s01, b.s01) + a.s2 * b.s2;
--}
--
--double __attribute__ ((overloadable)) dot(double4 a, double4 b)
--{
--  return dot(a.lo, b.lo) + dot(a.hi, b.hi);
--}
--
--double __attribute__ ((overloadable)) dot(double8 a, double8 b)
--{
--  return dot(a.lo, b.lo) + dot(a.hi, b.hi);
--}
--
--double __attribute__ ((overloadable)) dot(double16 a, double16 b)
++float __attribute__ ((__overloadable__)) dot(float a, float b)
++{
++  return a * b;
++}
++
++float __attribute__ ((__overloadable__)) dot(float2 a, float2 b)
++{
++  return a.lo * b.lo + a.hi * b.hi;
++}
++
++float __attribute__ ((__overloadable__)) dot(float3 a, float3 b)
++{
++  return dot(a.s01, b.s01) + a.s2 * b.s2;
++}
++
++float __attribute__ ((__overloadable__)) dot(float4 a, float4 b)
++{
++  return dot(a.lo, b.lo) + dot(a.hi, b.hi);
++}
++
++float __attribute__ ((__overloadable__)) dot(float8 a, float8 b)
++{
++  return dot(a.lo, b.lo) + dot(a.hi, b.hi);
++}
++
++float __attribute__ ((__overloadable__)) dot(float16 a, float16 b)
++{
++  return dot(a.lo, b.lo) + dot(a.hi, b.hi);
++}
++
++double __attribute__ ((__overloadable__)) dot(double a, double b)
++{
++  return a * b;
++}
++
++double __attribute__ ((__overloadable__)) dot(double2 a, double2 b)
++{
++  return a.lo * b.lo + a.hi * b.hi;
++}
++
++double __attribute__ ((__overloadable__)) dot(double3 a, double3 b)
++{
++  return dot(a.s01, b.s01) + a.s2 * b.s2;
++}
++
++double __attribute__ ((__overloadable__)) dot(double4 a, double4 b)
++{
++  return dot(a.lo, b.lo) + dot(a.hi, b.hi);
++}
++
++double __attribute__ ((__overloadable__)) dot(double8 a, double8 b)
++{
++  return dot(a.lo, b.lo) + dot(a.hi, b.hi);
++}
++
++double __attribute__ ((__overloadable__)) dot(double16 a, double16 b)
+ {
    return dot(a.lo, b.lo) + dot(a.hi, b.hi);
+ }
 === modified file 'lib/kernel/fabs.cl'
 --- lib/kernel/fabs.cl	2011-10-25 16:28:54 +0000
 +++ lib/kernel/fabs.cl	2011-10-31 17:03:23 +0000
@@ -21,111 +21,6 @@
     THE SOFTWARE.
  */
--float __attribute__ ((overloadable))
--fabs(float a)
--{
--  return __builtin_fabsf(a);
--}
--
--float2 __attribute__ ((overloadable))
--fabs(float2 a)
--{
--#ifdef __SSE__
--  const uint2 sign_mask = {0x80000000U, 0x80000000U};
--  return as_float2(~sign_mask & as_uint2(a));
--#else
--  return (float2)(fabs(a.lo), fabs(a.hi));
--#endif
--}
--
--float3 __attribute__ ((overloadable))
--fabs(float3 a)
--{
--#ifdef __SSE__
--  return fabs(*(float4*)&a).s012;
--#else
--  return (float3)(fabs(a.s01), fabs(a.s2));
--#endif
--}
--
--float4 __attribute__ ((overloadable))
--fabs(float4 a)
--{
--#ifdef __SSE__
--  const uint4 sign_mask = {0x80000000U, 0x80000000U, 0x80000000U, 0x80000000U};
--  return as_float4(~sign_mask & as_uint4(a));
--#else
--  return (float4)(fabs(a.lo), fabs(a.hi));
--#endif
--}
--
--float8 __attribute__ ((overloadable))
--fabs(float8 a)
--{
--#ifdef __AVX__
--  const uint8 sign_mask =
--    {0x80000000U, 0x80000000U, 0x80000000U, 0x80000000U,
--     0x80000000U, 0x80000000U, 0x80000000U, 0x80000000U};
--  return as_float8(~sign_mask & as_uint8(a));
--#else
--  return (float8)(fabs(a.lo), fabs(a.hi));
--#endif
--}
--
--float16 __attribute__ ((overloadable))
--fabs(float16 a)
--{
--  return (float16)(fabs(a.lo), fabs(a.hi));
--}
--
--double __attribute__ ((overloadable))
--fabs(double a)
--{
--  return __builtin_fabs(a);
--}
--
--double2 __attribute__ ((overloadable))
--fabs(double2 a)
--{
--#ifdef __SSE2__
--  const ulong2 sign_mask = {0x8000000000000000UL, 0x8000000000000000UL};
--  return as_double2(~sign_mask & as_ulong2(a));
--#else
--  return (double2)(fabs(a.lo), fabs(a.hi));
--#endif
--}
--
--double3 __attribute__ ((overloadable))
--fabs(double3 a)
--{
--#ifdef __AVX__
--  return fabs(*(double4*)&a).s012;
--#else
--  return (double3)(fabs(a.s01), fabs(a.s2));
--#endif
--}
--
--double4 __attribute__ ((overloadable))
--fabs(double4 a)
--{
--#ifdef __AVX__
--  const ulong4 sign_mask =
--    {0x8000000000000000UL, 0x8000000000000000UL,
--     0x8000000000000000UL, 0x8000000000000000UL};
--  return as_double4(~sign_mask & as_ulong4(a));
--#else
--  return (double4)(fabs(a.lo), fabs(a.hi));
--#endif
--}
--
--double8 __attribute__ ((overloadable))
--fabs(double8 a)
--{
--  return (double8)(fabs(a.lo), fabs(a.hi));
--}
--
--double16 __attribute__ ((overloadable))
--fabs(double16 a)
--{
--  return (double16)(fabs(a.lo), fabs(a.hi));
--}
++#include "templates.h"
++
++DEFINE_BUILTIN_V_V(fabs)
 === modified file 'lib/kernel/floor.cl'
 --- lib/kernel/floor.cl	2011-10-25 18:52:31 +0000
 +++ lib/kernel/floor.cl	2011-10-31 17:03:23 +0000
@@ -21,132 +21,6 @@
     THE SOFTWARE.
  */
--#define _MM_FROUND_TO_NEAREST_INT 0x00
--#define _MM_FROUND_TO_NEG_INF     0x01
--#define _MM_FROUND_TO_POS_INF     0x02
--#define _MM_FROUND_TO_ZERO        0x03
--#define _MM_FROUND_CUR_DIRECTION  0x04
--
--#define _MM_FROUND_RAISE_EXC 0x00
--#define _MM_FROUND_NO_EXC    0x08
--
--#define _MM_FROUND_NINT      (_MM_FROUND_TO_NEAREST_INT | _MM_FROUND_RAISE_EXC)
--#define _MM_FROUND_FLOOR     (_MM_FROUND_TO_NEG_INF | _MM_FROUND_RAISE_EXC)
--#define _MM_FROUND_CEIL      (_MM_FROUND_TO_POS_INF | _MM_FROUND_RAISE_EXC)
--#define _MM_FROUND_TRUNC     (_MM_FROUND_TO_ZERO | _MM_FROUND_RAISE_EXC)
--#define _MM_FROUND_RINT      (_MM_FROUND_CUR_DIRECTION | _MM_FROUND_RAISE_EXC)
--#define _MM_FROUND_NEARBYINT (_MM_FROUND_CUR_DIRECTION | _MM_FROUND_NO_EXC)
--
--
--
--float __attribute__ ((overloadable))
--floor(float a)
--{
--#ifdef __SSE4_1__
--  // LLVM does not optimise this on its own
--  return ((float4)__builtin_ia32_roundss(*(float4*)&a, *(float4*)&a,
--                                         _MM_FROUND_FLOOR)).s0;
--#else
--  return __builtin_floorf(a);
--#endif
--}
--
--float2 __attribute__ ((overloadable))
--floor(float2 a)
--{
--#ifdef __SSE4_1__
--  return ((float4)floor(*(float4)&a)).s01;
--#else
--  return (float2)(floor(a.lo), floor(a.hi));
--#endif
--}
--
--float3 __attribute__ ((overloadable))
--floor(float3 a)
--{
--#ifdef __SSE4_1__
--  return ((float4)floor(*(float4)&a)).s012;
--#else
--  return (float3)(floor(a.s01), floor(a.s2));
--#endif
--}
--
--float4 __attribute__ ((overloadable))
--floor(float4 a)
--{
--#ifdef __SSE4_1__
--  return __builtin_ia32_roundps(a, _MM_FROUND_FLOOR);
--#else
--  return (float4)(floor(a.lo), floor(a.hi));
--#endif
--}
--
--float8 __attribute__ ((overloadable))
--floor(float8 a)
--{
--#ifdef __AVX__
--  return __builtin_ia32_roundps256(a, _MM_FROUND_FLOOR);
--#else
--  return (float8)(floor(a.lo), floor(a.hi));
--#endif
--}
--
--float16 __attribute__ ((overloadable))
--floor(float16 a)
--{
--  return (float16)(floor(a.lo), floor(a.hi));
--}
--
--double __attribute__ ((overloadable))
--floor(double a)
--{
--#ifdef __SSE4_1__
--  // LLVM does not optimise this on its own
--  return ((double2)__builtin_ia32_roundss(*(double2*)&a, *(double2*)&a,
--                                          _MM_FROUND_FLOOR)).s0;
--#else
--  return __builtin_floor(a);
--#endif
--}
--
--double2 __attribute__ ((overloadable))
--floor(double2 a)
--{
--#ifdef __SSE4_1__
--  return __builtin_ia32_roundpd(a, _MM_FROUND_FLOOR);
--#else
--  return (double2)(floor(a.lo), floor(a.hi));
--#endif
--}
--
--double3 __attribute__ ((overloadable))
--floor(double3 a)
--{
--#ifdef __AVX__
--  return ((double4)floor(*(double4)&a)).s012;
--#else
--  return (double3)(floor(a.s01), floor(a.s2));
--#endif
--}
--
--double4 __attribute__ ((overloadable))
--floor(double4 a)
--{
--#ifdef __AVX__
--  return __builtin_ia32_roundpd256(a, _MM_FROUND_FLOOR);
--#else
--  return (double4)(floor(a.lo), floor(a.hi));
--#endif
--}
--
--double8 __attribute__ ((overloadable))
--floor(double8 a)
--{
--  return (double8)(floor(a.lo), floor(a.hi));
--}
--
--double16 __attribute__ ((overloadable))
--floor(double16 a)
--{
--  return (double16)(floor(a.lo), floor(a.hi));
--}
++#include "templates.h"
++
++DEFINE_BUILTIN_V_V(floor)
 === modified file 'lib/kernel/fma.cl'
 --- lib/kernel/fma.cl	2011-10-26 03:01:29 +0000
 +++ lib/kernel/fma.cl	2011-10-31 17:03:23 +0000
@@ -23,5 +23,7 @@
  #include "templates.h"
++#define __builtin__cl_std_fmaf __builtin_fmaf
++#define __builtin__cl_std_fma  __builtin_fma
++
  DEFINE_BUILTIN_V_VVV(fma)
--// DEFINE_EXPR_V_VVV(fma, a*b+c)
 === modified file 'lib/kernel/fmax.cl'
 --- lib/kernel/fmax.cl	2011-10-27 02:59:34 +0000
 +++ lib/kernel/fmax.cl	2011-10-31 17:03:23 +0000
@@ -21,134 +21,12 @@
     THE SOFTWARE.
  */
++#undef fmax
++
  #include "templates.h"
--DEFINE_EXPR_V_VS(fmax, fmax(a, (vtype)b))
--
--
--
--float4 _cl_fmax_ensure_float4(float4 a)
--{
--  return a;
--}
--
--double2 _cl_fmax_ensure_double2(double2 a)
--{
--  return a;
--}
--
--
--
--float __attribute__ ((overloadable))
--fmax(float a, float b)
--{
--#ifdef __SSE__
--  // LLVM does not optimise this on its own
--  // Can't convert to float4 (why?)
--  // return ((float4)__builtin_ia32_maxss(*(float4*)&a, *(float4*)&b)).s0;
--  return _cl_fmax_ensure_float4(__builtin_ia32_maxss(*(float4*)&a, *(float4*)&b)).s0;
--#else
--  return __builtin_fmaxf(a, b);
--#endif
--}
--
--float2 __attribute__ ((overloadable))
--fmax(float2 a, float2 b)
--{
--#ifdef __SSE__
--  return ((float4)fmax(*(float4*)&a, *(float4*)&b)).s01;
--#else
--  return (float2)(fmax(a.lo, b.lo), fmax(a.hi, b.hi));
--#endif
--}
--
--float3 __attribute__ ((overloadable))
--fmax(float3 a, float3 b)
--{
--#ifdef __SSE__
--  return ((float4)fmax(*(float4*)&a, *(float4*)&b)).s012;
--#else
--  return (float3)(fmax(a.s01, b.s01), fmax(a.s2, b.s2));
--#endif
--}
--
--float4 __attribute__ ((overloadable))
--fmax(float4 a, float4 b)
--{
--#ifdef __SSE__
--  return __builtin_ia32_maxps(a, b);
--#else
--  return (float4)(fmax(a.lo, b.lo), fmax(a.hi, b.hi));
--#endif
--}
--
--float8 __attribute__ ((overloadable))
--fmax(float8 a, float8 b)
--{
--#ifdef __AVX__
--  return __builtin_ia32_maxps256(a, b);
--#else
--  return (float8)(fmax(a.lo, b.lo), fmax(a.hi, b.hi));
--#endif
--}
--
--float16 __attribute__ ((overloadable))
--fmax(float16 a, float16 b)
--{
--  return (float16)(fmax(a.lo, b.lo), fmax(a.hi, b.hi));
--}
--
--double __attribute__ ((overloadable))
--fmax(double a, double b)
--{
--#ifdef __SSE2__
--  // LLVM does not optimise this on its own
--  // Can't convert to double2 (why?)
--  // return ((double2)__builtin_ia32_maxsd(*(double2*)&a, *(double2*)&b)).s0;
--  return _cl_fmax_ensure_double2(__builtin_ia32_maxsd(*(double2*)&a, *(double2*)&b)).s0;
--#else
--  return __builtin_fmax(a, b);
--#endif
--}
--
--double2 __attribute__ ((overloadable))
--fmax(double2 a, double2 b)
--{
--#ifdef __SSE2__
--  return __builtin_ia32_maxpd(a, b);
--#else
--  return (double2)(fmax(a.lo, b.lo), fmax(a.hi, b.hi));
--#endif
--}
--
--double3 __attribute__ ((overloadable))
--fmax(double3 a, double3 b)
--{
--#ifdef __AVX__
--  return ((double4)fmax(*(double4*)&a, *(double4*)&b)).s012;
--#else
--  return (double3)(fmax(a.s01, b.s01), fmax(a.s2, b.s2));
--#endif
--}
--
--double4 __attribute__ ((overloadable))
--fmax(double4 a, double4 b)
--{
--#ifdef __AVX__
--  return __builtin_ia32_maxpd256(a, b);
--#else
--  return (double4)(fmax(a.lo, b.lo), fmax(a.hi, b.hi));
--#endif
--}
--
--double8 __attribute__ ((overloadable))
--fmax(double8 a, double8 b)
--{
--  return (double8)(fmax(a.lo, b.lo), fmax(a.hi, b.hi));
--}
--
--double16 __attribute__ ((overloadable))
--fmax(double16 a, double16 b)
--{
--  return (double16)(fmax(a.lo, b.lo), fmax(a.hi, b.hi));
--}
++#define __builtin__cl_std_fmaxf __builtin_fmaxf
++#define __builtin__cl_std_fmax  __builtin_fmax
++DEFINE_BUILTIN_V_VV(_cl_std_fmax)
++
++DEFINE_EXPR_V_VS(_cl_std_fmax, _cl_std_fmax(a, (vtype)b))
 === modified file 'lib/kernel/fmin.cl'
 --- lib/kernel/fmin.cl	2011-10-27 02:59:34 +0000
 +++ lib/kernel/fmin.cl	2011-10-31 17:03:23 +0000
@@ -21,134 +21,12 @@
     THE SOFTWARE.
  */
++#undef fmin
++
  #include "templates.h"
--DEFINE_EXPR_V_VS(fmin, fmin(a, (vtype)b))
--
--
--
--float4 _cl_fmin_ensure_float4(float4 a)
--{
--  return a;
--}
--
--double2 _cl_fmin_ensure_double2(double2 a)
--{
--  return a;
--}
--
--
--
--float __attribute__ ((overloadable))
--fmin(float a, float b)
--{
--#ifdef __SSE__
--  // LLVM does not optimise this on its own
--  // Can't convert to float4 (why?)
--  // return ((float4)__builtin_ia32_minss(*(float4*)&a, *(float4*)&b)).s0;
--  return _cl_fmin_ensure_float4(__builtin_ia32_minss(*(float4*)&a, *(float4*)&b)).s0;
--#else
--  return __builtin_fminf(a, b);
--#endif
--}
--
--float2 __attribute__ ((overloadable))
--fmin(float2 a, float2 b)
--{
--#ifdef __SSE__
--  return ((float4)fmin(*(float4*)&a, *(float4*)&b)).s01;
--#else
--  return (float2)(fmin(a.lo, b.lo), fmin(a.hi, b.hi));
--#endif
--}
--
--float3 __attribute__ ((overloadable))
--fmin(float3 a, float3 b)
--{
--#ifdef __SSE__
--  return ((float4)fmin(*(float4*)&a, *(float4*)&b)).s012;
--#else
--  return (float3)(fmin(a.s01, b.s01), fmin(a.s2, b.s2));
--#endif
--}
--
--float4 __attribute__ ((overloadable))
--fmin(float4 a, float4 b)
--{
--#ifdef __SSE__
--  return __builtin_ia32_minps(a, b);
--#else
--  return (float4)(fmin(a.lo, b.lo), fmin(a.hi, b.hi));
--#endif
--}
--
--float8 __attribute__ ((overloadable))
--fmin(float8 a, float8 b)
--{
--#ifdef __AVX__
--  return __builtin_ia32_minps256(a, b);
--#else
--  return (float8)(fmin(a.lo, b.lo), fmin(a.hi, b.hi));
--#endif
--}
--
--float16 __attribute__ ((overloadable))
--fmin(float16 a, float16 b)
--{
--  return (float16)(fmin(a.lo, b.lo), fmin(a.hi, b.hi));
--}
--
--double __attribute__ ((overloadable))
--fmin(double a, double b)
--{
--#ifdef __SSE2__
--  // LLVM does not optimise this on its own
--  // Can't convert to double2 (why?)
--  // return ((double2)__builtin_ia32_minsd(*(double2*)&a, *(double2*)&b)).s0;
--  return _cl_fmin_ensure_double2(__builtin_ia32_minsd(*(double2*)&a, *(double2*)&b)).s0;
--#else
--  return __builtin_fmin(a, b);
--#endif
--}
--
--double2 __attribute__ ((overloadable))
--fmin(double2 a, double2 b)
--{
--#ifdef __SSE2__
--  return __builtin_ia32_minpd(a, b);
--#else
--  return (double2)(fmin(a.lo, b.lo), fmin(a.hi, b.hi));
--#endif
--}
--
--double3 __attribute__ ((overloadable))
--fmin(double3 a, double3 b)
--{
--#ifdef __AVX__
--  return ((double4)fmin(*(double4*)&a, *(double4*)&b)).s012;
--#else
--  return (double3)(fmin(a.s01, b.s01), fmin(a.s2, b.s2));
--#endif
--}
--
--double4 __attribute__ ((overloadable))
--fmin(double4 a, double4 b)
--{
--#ifdef __AVX__
--  return __builtin_ia32_minpd256(a, b);
--#else
--  return (double4)(fmin(a.lo, b.lo), fmin(a.hi, b.hi));
--#endif
--}
--
--double8 __attribute__ ((overloadable))
--fmin(double8 a, double8 b)
--{
--  return (double8)(fmin(a.lo, b.lo), fmin(a.hi, b.hi));
--}
--
--double16 __attribute__ ((overloadable))
--fmin(double16 a, double16 b)
--{
--  return (double16)(fmin(a.lo, b.lo), fmin(a.hi, b.hi));
--}
++#define __builtin__cl_std_fminf __builtin_fminf
++#define __builtin__cl_std_fmin  __builtin_fmin
++DEFINE_BUILTIN_V_VV(_cl_std_fmin)
++
++DEFINE_EXPR_V_VS(_cl_std_fmin, _cl_std_fmin(a, (vtype)b))
 === modified file 'lib/kernel/max.cl'
 --- lib/kernel/max.cl	2011-10-26 21:01:40 +0000
 +++ lib/kernel/max.cl	2011-10-31 17:03:23 +0000
@@ -27,5 +27,5 @@
  DEFINE_EXPR_G_GS(max, max(a, (gtype)b))
  // Note: max() has no special semantics for inf/nan, even if fmax does
--DEFINE_EXPR_V_VV(max, fmax(a, b))
++DEFINE_EXPR_V_VV(max, select(b, a, (jtype)(a>=b)))
  DEFINE_EXPR_V_VS(max, max(a, (vtype)b))
 === modified file 'lib/kernel/maxmag.cl'
 --- lib/kernel/maxmag.cl	2011-10-26 03:01:29 +0000
 +++ lib/kernel/maxmag.cl	2011-10-31 17:03:23 +0000
@@ -23,4 +23,18 @@
  #include "templates.h"
--DEFINE_EXPR_V_VV(maxmag, fmax(fabs(a), fabs(b)))
++float __builtin_maxmagf(float x, float y)
++{
++  if (fabs(x) > fabs(y)) return x;
++  if (fabs(y) > fabs(x)) return y;
++  return fmax(x, y);
++}
++
++double __builtin_maxmag(double x, double y)
++{
++  if (fabs(x) > fabs(y)) return x;
++  if (fabs(y) > fabs(x)) return y;
++  return fmax(x, y);
++}
++
++DEFINE_BUILTIN_V_VV(maxmag)
 === modified file 'lib/kernel/min.cl'
 --- lib/kernel/min.cl	2011-10-26 21:01:40 +0000
 +++ lib/kernel/min.cl	2011-10-31 17:03:23 +0000
@@ -23,9 +23,9 @@
  #include "templates.h"
--DEFINE_EXPR_G_GG(min, a<b ? a : b)
++DEFINE_EXPR_G_GG(min, a<=b ? a : b)
  DEFINE_EXPR_G_GS(min, min(a, (gtype)b))
  // Note: min() has no special semantics for inf/nan, even if fmin does
--DEFINE_EXPR_V_VV(min, fmin(a, b))
++DEFINE_EXPR_V_VV(min, select(b, a, (jtype)(a<=b)))
  DEFINE_EXPR_V_VS(min, min(a, (vtype)b))
 === modified file 'lib/kernel/minmag.cl'
 --- lib/kernel/minmag.cl	2011-10-26 03:01:29 +0000
 +++ lib/kernel/minmag.cl	2011-10-31 17:03:23 +0000
@@ -23,4 +23,18 @@
  #include "templates.h"
--DEFINE_EXPR_V_VV(minmag, fmin(fabs(a), fabs(b)))
++float __builtin_minmagf(float x, float y)
++{
++  if (fabs(x) < fabs(y)) return x;
++  if (fabs(y) < fabs(x)) return y;
++  return fmin(x, y);
++}
++
++double __builtin_minmag(double x, double y)
++{
++  if (fabs(x) < fabs(y)) return x;
++  if (fabs(y) < fabs(x)) return y;
++  return fmin(x, y);
++}
++
++DEFINE_BUILTIN_V_VV(minmag)
 === modified file 'lib/kernel/select.cl'
 --- lib/kernel/select.cl	2011-10-27 01:35:56 +0000
 +++ lib/kernel/select.cl	2011-10-31 17:03:23 +0000
@@ -26,9 +26,9 @@
  DEFINE_EXPR_G_GGG(select, c>=(gtype)0 ? a : b)
  // This segfaults Clang 3.0, so we work around
--// DEFINE_EXPR_V_VVJ(select, c>=(jtype)0 ? a : b)
++// DEFINE_EXPR_V_VVJ(select, c ? b : a)
  DEFINE_EXPR_V_VVJ(select,
                    ({
--                    jtype result = c>=(jtype)0 ? *(jtype*)&a : *(jtype*)&b;
++                    jtype result = c ? *(jtype*)&b : *(jtype*)&a;
                      *(vtype*)&result;
                    }))
 === modified file 'lib/kernel/sqrt.cl'
 --- lib/kernel/sqrt.cl	2011-10-25 16:28:54 +0000
 +++ lib/kernel/sqrt.cl	2011-10-31 17:03:23 +0000
@@ -21,102 +21,6 @@
     THE SOFTWARE.
  */
--float __attribute__ ((overloadable))
--sqrt(float a)
--{
--  return __builtin_sqrtf(a);
--}
--
--float2 __attribute__ ((overloadable))
--sqrt(float2 a)
--{
--#ifdef __SSE__
--  return ((float4)sqrt(*(float4*)&a)).s01;
--#else
--  return (float2)(sqrt(a.lo), sqrt(a.hi));
--#endif
--}
--
--float3 __attribute__ ((overloadable))
--sqrt(float3 a)
--{
--#ifdef __SSE__
--  return ((float4)sqrt(*(float4*)&a)).s012;
--#else
--  return (float3)(sqrt(a.s01), sqrt(a.s2));
--#endif
--}
--
--float4 __attribute__ ((overloadable))
--sqrt(float4 a)
--{
--#ifdef __SSE__
--  return __builtin_ia32_sqrtps(a);
--#else
--  return (float4)(sqrt(a.lo), sqrt(a.hi));
--#endif
--}
--
--float8 __attribute__ ((overloadable))
--sqrt(float8 a)
--{
--#ifdef __AVX__
--  return __builtin_ia32_sqrtps256(a);
--#else
--  return (float8)(sqrt(a.lo), sqrt(a.hi));
--#endif
--}
--
--float16 __attribute__ ((overloadable))
--sqrt(float16 a)
--{
--  return (float16)(sqrt(a.lo), sqrt(a.hi));
--}
--
--double __attribute__ ((overloadable))
--sqrt(double a)
--{
--  return __builtin_sqrt(a);
--}
--
--double2 __attribute__ ((overloadable))
--sqrt(double2 a)
--{
--#ifdef __SSE2__
--  return __builtin_ia32_sqrtpd(a);
--#else
--  return (double2)(sqrt(a.lo), sqrt(a.hi));
--#endif
--}
--
--double3 __attribute__ ((overloadable))
--sqrt(double3 a)
--{
--#ifdef __AVX__
--  return ((double4)sqrt(*(double4*)&a)).s012;
--#else
--  return (double3)(sqrt(a.s01), sqrt(a.s2));
--#endif
--}
--
--double4 __attribute__ ((overloadable))
--sqrt(double4 a)
--{
--#ifdef __AVX__
--  return __builtin_ia32_pd256(a);
--#else
--  return (double4)(sqrt(a.lo), sqrt(a.hi));
--#endif
--}
--
--double8 __attribute__ ((overloadable))
--sqrt(double8 a)
--{
--  return (double8)(sqrt(a.lo), sqrt(a.hi));
--}
--
--double16 __attribute__ ((overloadable))
--sqrt(double16 a)
--{
--  return (double16)(sqrt(a.lo), sqrt(a.hi));
--}
++#include "templates.h"
++
++DEFINE_BUILTIN_V_V(sqrt)
 === modified file 'lib/kernel/templates.h'
 --- lib/kernel/templates.h	2011-10-27 01:35:56 +0000
 +++ lib/kernel/templates.h	2011-10-31 17:03:23 +0000
@@ -24,18 +24,18 @@
  #define IMPLEMENT_BUILTIN_V_V(NAME, VTYPE, LO, HI)      \
--  VTYPE __attribute__ ((overloadable))                  \
++  VTYPE _cl_overloadable                                \
    NAME(VTYPE a)                                         \
    {                                                     \
      return (VTYPE)(NAME(a.LO), NAME(a.HI));             \
+   }
  #define DEFINE_BUILTIN_V_V(NAME)                \
--  float __attribute__ ((overloadable))          \
++  float _cl_overloadable                        \
    NAME(float a)                                 \
    {                                             \
      return __builtin_##NAME##f(a);              \
    }                                             \
--  double __attribute__ ((overloadable))         \
++  double _cl_overloadable                       \
    NAME(double a)                                \
    {                                             \
      return __builtin_##NAME(a);                 \
@@ -52,18 +52,18 @@
    IMPLEMENT_BUILTIN_V_V(NAME, double16, lo, hi)
  #define IMPLEMENT_BUILTIN_V_VV(NAME, VTYPE, LO, HI)     \
--  VTYPE __attribute__ ((overloadable))                  \
++  VTYPE _cl_overloadable                                \
    NAME(VTYPE a, VTYPE b)                                \
    {                                                     \
      return (VTYPE)(NAME(a.LO, b.LO), NAME(a.HI, b.HI)); \
+   }
  #define DEFINE_BUILTIN_V_VV(NAME)                       \
--  float __attribute__ ((overloadable))                  \
++  float _cl_overloadable                                \
    NAME(float a, float b)                                \
    {                                                     \
      return __builtin_##NAME##f(a, b);                   \
    }                                                     \
--  double __attribute__ ((overloadable))                 \
++  double _cl_overloadable                               \
    NAME(double a, double b)                              \
    {                                                     \
      return __builtin_##NAME(a, b);                      \
@@ -80,18 +80,18 @@
    IMPLEMENT_BUILTIN_V_VV(NAME, double16, lo, hi)
  #define IMPLEMENT_BUILTIN_V_VVV(NAME, VTYPE, LO, HI)                    \
--  VTYPE __attribute__ ((overloadable))                                  \
++  VTYPE _cl_overloadable                                                \
    NAME(VTYPE a, VTYPE b, VTYPE c)                                       \
    {                                                                     \
      return (VTYPE)(NAME(a.LO, b.LO, c.LO), NAME(a.HI, b.HI, c.HI));     \
+   }
  #define DEFINE_BUILTIN_V_VVV(NAME)                      \
--  float __attribute__ ((overloadable))                  \
++  float _cl_overloadable                                \
    NAME(float a, float b, float c)                       \
    {                                                     \
      return __builtin_##NAME##f(a, b, c);                \
    }                                                     \
--  double __attribute__ ((overloadable))                 \
++  double _cl_overloadable                               \
    NAME(double a, double b, double c)                    \
    {                                                     \
      return __builtin_##NAME(a, b, c);                   \
@@ -108,74 +108,86 @@
    IMPLEMENT_BUILTIN_V_VVV(NAME, double16, lo, hi)
  #define IMPLEMENT_BUILTIN_V_U(NAME, VTYPE, UTYPE, LO, HI)       \
--  VTYPE __attribute__ ((overloadable))                          \
++  VTYPE _cl_overloadable                                        \
    NAME(UTYPE a)                                                 \
    {                                                             \
      return (VTYPE)(NAME(a.LO), NAME(a.HI));                     \
+   }
--#define DEFINE_BUILTIN_V_U(NAME)                        \
--  float __attribute__ ((overloadable))                  \
--  NAME(uint a)                                          \
--  {                                                     \
--    return __builtin_##NAME##f(a);                      \
--  }                                                     \
--  double __attribute__ ((overloadable))                 \
--  NAME(ulong a)                                         \
--  {                                                     \
--    return __builtin_##NAME(a);                         \
--  }                                                     \
--  IMPLEMENT_BUILTIN_V_U(NAME, float2  , uint2  , lo, hi) \
--  IMPLEMENT_BUILTIN_V_U(NAME, float3  , uint3  , lo, s2) \
--  IMPLEMENT_BUILTIN_V_U(NAME, float4  , uint4  , lo, hi) \
--  IMPLEMENT_BUILTIN_V_U(NAME, float8  , uint8  , lo, hi) \
--  IMPLEMENT_BUILTIN_V_U(NAME, float16 , uint16 , lo, hi) \
--  IMPLEMENT_BUILTIN_V_U(NAME, double2 , ulong2 , lo, hi) \
--  IMPLEMENT_BUILTIN_V_U(NAME, double3 , ulong3 , lo, s2) \
--  IMPLEMENT_BUILTIN_V_U(NAME, double4 , ulong4 , lo, hi) \
--  IMPLEMENT_BUILTIN_V_U(NAME, double8 , ulong8 , lo, hi) \
++#define DEFINE_BUILTIN_V_U(NAME)                                \
++  float _cl_overloadable                                        \
++  NAME(uint a)                                                  \
++  {                                                             \
++    return __builtin_##NAME##f(a);                              \
++  }                                                             \
++  double _cl_overloadable                                       \
++  NAME(ulong a)                                                 \
++  {                                                             \
++    return __builtin_##NAME(a);                                 \
++  }                                                             \
++  IMPLEMENT_BUILTIN_V_U(NAME, float2  , uint2  , lo, hi)        \
++  IMPLEMENT_BUILTIN_V_U(NAME, float3  , uint3  , lo, s2)        \
++  IMPLEMENT_BUILTIN_V_U(NAME, float4  , uint4  , lo, hi)        \
++  IMPLEMENT_BUILTIN_V_U(NAME, float8  , uint8  , lo, hi)        \
++  IMPLEMENT_BUILTIN_V_U(NAME, float16 , uint16 , lo, hi)        \
++  IMPLEMENT_BUILTIN_V_U(NAME, double2 , ulong2 , lo, hi)        \
++  IMPLEMENT_BUILTIN_V_U(NAME, double3 , ulong3 , lo, s2)        \
++  IMPLEMENT_BUILTIN_V_U(NAME, double4 , ulong4 , lo, hi)        \
++  IMPLEMENT_BUILTIN_V_U(NAME, double8 , ulong8 , lo, hi)        \
    IMPLEMENT_BUILTIN_V_U(NAME, double16, ulong16, lo, hi)
--#define IMPLEMENT_BUILTIN_J_VV(NAME, VTYPE, JTYPE, LO, HI)      \
--  JTYPE __attribute__ ((overloadable))                          \
--  NAME(VTYPE a, VTYPE b)                                        \
--  {                                                             \
--    return (JTYPE)(NAME(a.LO, b.LO), NAME(a.HI, b.HI));         \
++#define IMPLEMENT_BUILTIN_J_VV(NAME, VTYPE, STYPE, JTYPE, LO, HI)       \
++  JTYPE _cl_overloadable                                                \
++  NAME(VTYPE a, VTYPE b)                                                \
++  {                                                                     \
++    if (sizeof(a.LO) == sizeof(STYPE)) {                                \
++      if (sizeof(a.HI) == sizeof(STYPE)) {                              \
++        return (JTYPE)(-NAME(a.LO, b.LO), -NAME(a.HI, b.HI));           \
++      } else {                                                          \
++        return (JTYPE)(-NAME(a.LO, b.LO),  NAME(a.HI, b.HI));           \
++      }                                                                 \
++    } else {                                                            \
++      if (sizeof(a.HI) == sizeof(STYPE)) {                              \
++        return (JTYPE)( NAME(a.LO, b.LO), -NAME(a.HI, b.HI));           \
++      } else {                                                          \
++        return (JTYPE)( NAME(a.LO, b.LO),  NAME(a.HI, b.HI));           \
++      }                                                                 \
++    }                                                                   \
+   }
--#define DEFINE_BUILTIN_J_VV(NAME)                               \
--  int __attribute__ ((overloadable))                            \
--  NAME(float a, float b)                                        \
--  {                                                             \
--    return __builtin_##NAME##f(a, b);                           \
--  }                                                             \
--  int __attribute__ ((overloadable))                            \
--  NAME(double a, double b)                                      \
--  {                                                             \
--    return __builtin_##NAME(a, b);                              \
--  }                                                             \
--  IMPLEMENT_BUILTIN_J_VV(NAME, float2  , int2  , lo, hi)        \
--  IMPLEMENT_BUILTIN_J_VV(NAME, float3  , int3  , lo, s2)        \
--  IMPLEMENT_BUILTIN_J_VV(NAME, float4  , int4  , lo, hi)        \
--  IMPLEMENT_BUILTIN_J_VV(NAME, float8  , int8  , lo, hi)        \
--  IMPLEMENT_BUILTIN_J_VV(NAME, float16 , int16 , lo, hi)        \
--  IMPLEMENT_BUILTIN_J_VV(NAME, double2 , long2 , lo, hi)        \
--  IMPLEMENT_BUILTIN_J_VV(NAME, double3 , long3 , lo, s2)        \
--  IMPLEMENT_BUILTIN_J_VV(NAME, double4 , long4 , lo, hi)        \
--  IMPLEMENT_BUILTIN_J_VV(NAME, double8 , long8 , lo, hi)        \
--  IMPLEMENT_BUILTIN_J_VV(NAME, double16, long16, lo, hi)
++#define DEFINE_BUILTIN_J_VV(NAME)                                       \
++  int _cl_overloadable                                                  \
++  NAME(float a, float b)                                                \
++  {                                                                     \
++    return __builtin_##NAME##f(a, b);                                   \
++  }                                                                     \
++  int _cl_overloadable                                                  \
++  NAME(double a, double b)                                              \
++  {                                                                     \
++    return __builtin_##NAME(a, b);                                      \
++  }                                                                     \
++  IMPLEMENT_BUILTIN_J_VV(NAME, float2  , float , int2  , lo, hi)        \
++  IMPLEMENT_BUILTIN_J_VV(NAME, float3  , float , int3  , lo, s2)        \
++  IMPLEMENT_BUILTIN_J_VV(NAME, float4  , float , int4  , lo, hi)        \
++  IMPLEMENT_BUILTIN_J_VV(NAME, float8  , float , int8  , lo, hi)        \
++  IMPLEMENT_BUILTIN_J_VV(NAME, float16 , float , int16 , lo, hi)        \
++  IMPLEMENT_BUILTIN_J_VV(NAME, double2 , double, long2 , lo, hi)        \
++  IMPLEMENT_BUILTIN_J_VV(NAME, double3 , double, long3 , lo, s2)        \
++  IMPLEMENT_BUILTIN_J_VV(NAME, double4 , double, long4 , lo, hi)        \
++  IMPLEMENT_BUILTIN_J_VV(NAME, double8 , double, long8 , lo, hi)        \
++  IMPLEMENT_BUILTIN_J_VV(NAME, double16, double, long16, lo, hi)
  #define IMPLEMENT_BUILTIN_V_VJ(NAME, VTYPE, JTYPE, LO, HI)      \
--  VTYPE __attribute__ ((overloadable))                          \
++  VTYPE _cl_overloadable                                        \
    NAME(VTYPE a, JTYPE b)                                        \
    {                                                             \
      return (VTYPE)(NAME(a.LO, b.LO), NAME(a.HI, b.HI));         \
+   }
  #define DEFINE_BUILTIN_V_VJ(NAME)                       \
--  float __attribute__ ((overloadable))                  \
++  float _cl_overloadable                                \
    NAME(float a, int b)                                  \
    {                                                     \
      return __builtin_##NAME##f(a, b);                   \
    }                                                     \
--  double __attribute__ ((overloadable))                 \
++  double _cl_overloadable                               \
    NAME(double a, int b)                                 \
    {                                                     \
      return __builtin_##NAME(a, b);                      \
@@ -192,7 +204,7 @@
    IMPLEMENT_BUILTIN_V_VJ(NAME, double16, int16, lo, hi)
  #define IMPLEMENT_BUILTIN_V_VI(NAME, VTYPE, ITYPE, LO, HI)      \
--  VTYPE __attribute__ ((overloadable))                          \
++  VTYPE _cl_overloadable                                        \
    NAME(VTYPE a, ITYPE b)                                        \
    {                                                             \
      return (VTYPE)(NAME(a.LO, b), NAME(a.HI, b));               \
@@ -210,18 +222,18 @@
    IMPLEMENT_BUILTIN_V_VI(NAME, double16, int, lo, hi)
  #define IMPLEMENT_BUILTIN_J_V(NAME, JTYPE, VTYPE, LO, HI)       \
--  JTYPE __attribute__ ((overloadable))                          \
++  JTYPE _cl_overloadable                                        \
    NAME(VTYPE a)                                                 \
    {                                                             \
      return (JTYPE)(NAME(a.LO), NAME(a.HI));                     \
+   }
  #define DEFINE_BUILTIN_J_V(NAME)                        \
--  int __attribute__ ((overloadable))                    \
++  int _cl_overloadable                                  \
    NAME(float a)                                         \
    {                                                     \
      return __builtin_##NAME##f(a);                      \
    }                                                     \
--  int __attribute__ ((overloadable))                    \
++  int _cl_overloadable                                  \
    NAME(double a)                                        \
    {                                                     \
      return __builtin_##NAME(a);                         \
@@ -239,30 +251,31 @@
--#define IMPLEMENT_EXPR_V_V(NAME, EXPR, VTYPE, STYPE)    \
--  VTYPE __attribute__ ((overloadable))                  \
--  NAME(VTYPE a, VTYPE b)                                \
--  {                                                     \
--    typedef VTYPE vtype;                                \
--    typedef STYPE stype;                                \
--    return EXPR;                                        \
++#define IMPLEMENT_EXPR_V_V(NAME, EXPR, VTYPE, STYPE, JTYPE)     \
++  VTYPE _cl_overloadable                                        \
++  NAME(VTYPE a)                                                 \
++  {                                                             \
++    typedef VTYPE vtype;                                        \
++    typedef STYPE stype;                                        \
++    typedef JTYPE jtype;                                        \
++    return EXPR;                                                \
+   }
--#define DEFINE_EXPR_V_V(NAME, EXPR)                     \
--  IMPLEMENT_EXPR_V_V(NAME, EXPR, float   , float )      \
--  IMPLEMENT_EXPR_V_V(NAME, EXPR, float2  , float )      \
--  IMPLEMENT_EXPR_V_V(NAME, EXPR, float3  , float )      \
--  IMPLEMENT_EXPR_V_V(NAME, EXPR, float4  , float )      \
--  IMPLEMENT_EXPR_V_V(NAME, EXPR, float8  , float )      \
--  IMPLEMENT_EXPR_V_V(NAME, EXPR, float16 , float )      \
--  IMPLEMENT_EXPR_V_V(NAME, EXPR, double  , double)      \
--  IMPLEMENT_EXPR_V_V(NAME, EXPR, double2 , double)      \
--  IMPLEMENT_EXPR_V_V(NAME, EXPR, double3 , double)      \
--  IMPLEMENT_EXPR_V_V(NAME, EXPR, double4 , double)      \
--  IMPLEMENT_EXPR_V_V(NAME, EXPR, double8 , double)      \
--  IMPLEMENT_EXPR_V_V(NAME, EXPR, double16, double)
++#define DEFINE_EXPR_V_V(NAME, EXPR)                             \
++  IMPLEMENT_EXPR_V_V(NAME, EXPR, float   , float , int   )      \
++  IMPLEMENT_EXPR_V_V(NAME, EXPR, float2  , float , int2  )      \
++  IMPLEMENT_EXPR_V_V(NAME, EXPR, float3  , float , int3  )      \
++  IMPLEMENT_EXPR_V_V(NAME, EXPR, float4  , float , int4  )      \
++  IMPLEMENT_EXPR_V_V(NAME, EXPR, float8  , float , int8  )      \
++  IMPLEMENT_EXPR_V_V(NAME, EXPR, float16 , float , int16 )      \
++  IMPLEMENT_EXPR_V_V(NAME, EXPR, double  , double, long  )      \
++  IMPLEMENT_EXPR_V_V(NAME, EXPR, double2 , double, long2 )      \
++  IMPLEMENT_EXPR_V_V(NAME, EXPR, double3 , double, long3 )      \
++  IMPLEMENT_EXPR_V_V(NAME, EXPR, double4 , double, long4 )      \
++  IMPLEMENT_EXPR_V_V(NAME, EXPR, double8 , double, long8 )      \
++  IMPLEMENT_EXPR_V_V(NAME, EXPR, double16, double, long16)
  #define IMPLEMENT_EXPR_V_VV(NAME, EXPR, VTYPE, STYPE, JTYPE)    \
--  VTYPE __attribute__ ((overloadable))                          \
++  VTYPE _cl_overloadable                                        \
    NAME(VTYPE a, VTYPE b)                                        \
    {                                                             \
      typedef VTYPE vtype;                                        \
@@ -285,7 +298,7 @@
    IMPLEMENT_EXPR_V_VV(NAME, EXPR, double16, double, long16)
  #define IMPLEMENT_EXPR_V_VVV(NAME, EXPR, VTYPE, STYPE, JTYPE)   \
--  VTYPE __attribute__ ((overloadable))                          \
++  VTYPE _cl_overloadable                                        \
    NAME(VTYPE a, VTYPE b, VTYPE c)                               \
    {                                                             \
      typedef VTYPE vtype;                                        \
@@ -308,7 +321,7 @@
    IMPLEMENT_EXPR_V_VVV(NAME, EXPR, double16, double, long16)
  #define IMPLEMENT_EXPR_S_VV(NAME, EXPR, VTYPE, STYPE, JTYPE)    \
--  STYPE __attribute__ ((overloadable))                          \
++  STYPE _cl_overloadable                                        \
    NAME(VTYPE a, VTYPE b)                                        \
    {                                                             \
      typedef VTYPE vtype;                                        \
@@ -331,7 +344,7 @@
    IMPLEMENT_EXPR_S_VV(NAME, EXPR, double16, double, long16)
  #define IMPLEMENT_EXPR_V_VVS(NAME, EXPR, VTYPE, STYPE)  \
--  VTYPE __attribute__ ((overloadable))                  \
++  VTYPE _cl_overloadable                                \
    NAME(VTYPE a, VTYPE b, STYPE c)                       \
    {                                                     \
      typedef VTYPE vtype;                                \
@@ -351,7 +364,7 @@
    IMPLEMENT_EXPR_V_VVS(NAME, EXPR, double16, double)
  #define IMPLEMENT_EXPR_V_VSS(NAME, EXPR, VTYPE, STYPE)  \
--  VTYPE __attribute__ ((overloadable))                  \
++  VTYPE _cl_overloadable                                \
    NAME(VTYPE a, STYPE b, STYPE c)                       \
    {                                                     \
      typedef VTYPE vtype;                                \
@@ -371,7 +384,7 @@
    IMPLEMENT_EXPR_V_VSS(NAME, EXPR, double16, double)
  #define IMPLEMENT_EXPR_V_SSV(NAME, EXPR, VTYPE, STYPE)  \
--  VTYPE __attribute__ ((overloadable))                  \
++  VTYPE _cl_overloadable                                \
    NAME(STYPE a, STYPE b, VTYPE c)                       \
    {                                                     \
      typedef VTYPE vtype;                                \
@@ -391,7 +404,7 @@
    IMPLEMENT_EXPR_V_SSV(NAME, EXPR, double16, double)
  #define IMPLEMENT_EXPR_V_VVJ(NAME, EXPR, VTYPE, STYPE, JTYPE)   \
--  VTYPE __attribute__ ((overloadable))                          \
++  VTYPE _cl_overloadable                                        \
    NAME(VTYPE a, VTYPE b, JTYPE c)                               \
    {                                                             \
      typedef VTYPE vtype;                                        \
@@ -414,7 +427,7 @@
    IMPLEMENT_EXPR_V_VVJ(NAME, EXPR, double16, double, long16)
  #define IMPLEMENT_EXPR_V_U(NAME, EXPR, VTYPE, STYPE, UTYPE)     \
--  VTYPE __attribute__ ((overloadable))                          \
++  VTYPE _cl_overloadable                                        \
    NAME(UTYPE a)                                                 \
    {                                                             \
      typedef VTYPE vtype;                                        \
@@ -437,7 +450,7 @@
    IMPLEMENT_EXPR_V_U(NAME, EXPR, double16, double, ulong16)
  #define IMPLEMENT_EXPR_V_VS(NAME, EXPR, VTYPE, STYPE)   \
--  VTYPE __attribute__ ((overloadable))                  \
++  VTYPE _cl_overloadable                                \
    NAME(VTYPE a, STYPE b)                                \
    {                                                     \
      typedef VTYPE vtype;                                \
@@ -457,7 +470,7 @@
    IMPLEMENT_EXPR_V_VS(NAME, EXPR, double16, double)
  #define IMPLEMENT_EXPR_V_VJ(NAME, EXPR, VTYPE, STYPE, JTYPE)    \
--  VTYPE __attribute__ ((overloadable))                          \
++  VTYPE _cl_overloadable                                        \
    NAME(VTYPE a, JTYPE b)                                        \
    {                                                             \
      typedef VTYPE vtype;                                        \
@@ -480,7 +493,7 @@
    IMPLEMENT_EXPR_V_VJ(NAME, EXPR, double16, double, int16)
  #define IMPLEMENT_EXPR_V_VI(NAME, EXPR, VTYPE, STYPE, ITYPE)    \
--  VTYPE __attribute__ ((overloadable))                          \
++  VTYPE _cl_overloadable                                        \
    NAME(VTYPE a, ITYPE b)                                        \
    {                                                             \
      typedef VTYPE vtype;                                        \
@@ -501,14 +514,14 @@
    IMPLEMENT_EXPR_V_VI(NAME, EXPR, double16, double, int)
  #define IMPLEMENT_EXPR_V_VPV(NAME, EXPR, VTYPE, STYPE)  \
--  VTYPE __attribute__ ((overloadable))                  \
++  VTYPE _cl_overloadable                                \
    NAME(VTYPE a, __global VTYPE *b)                      \
    {                                                     \
      typedef VTYPE vtype;                                \
      typedef STYPE stype;                                \
      return EXPR;                                        \
    }                                                     \
--  VTYPE __attribute__ ((overloadable))                  \
++  VTYPE _cl_overloadable                                \
    NAME(VTYPE a, __local VTYPE *b)                       \
    {                                                     \
      typedef VTYPE vtype;                                \
@@ -516,7 +529,7 @@
      return EXPR;                                        \
    }                                                     \
    /* __private is not supported yet                     \
--  VTYPE __attribute__ ((overloadable))                  \
++  VTYPE _cl_overloadable                                \
    NAME(VTYPE a, __private VTYPE *b)                     \
    {                                                     \
      typedef VTYPE vtype;                                \
@@ -539,7 +552,7 @@
    IMPLEMENT_EXPR_V_VPV(NAME, EXPR, double16, double)
  #define IMPLEMENT_EXPR_V_SV(NAME, EXPR, VTYPE, STYPE)   \
--  VTYPE __attribute__ ((overloadable))                  \
++  VTYPE _cl_overloadable                                \
    NAME(STYPE a, VTYPE b)                                \
    {                                                     \
      typedef VTYPE vtype;                                \
@@ -561,48 +574,48 @@
  #define IMPLEMENT_BUILTIN_G_G(NAME, GTYPE, UGTYPE, LO, HI)      \
--  GTYPE __attribute__ ((overloadable))                          \
++  GTYPE _cl_overloadable                                        \
    NAME(GTYPE a)                                                 \
    {                                                             \
      return (GTYPE)(NAME(a.LO), NAME(a.HI));                     \
+   }
  #define DEFINE_BUILTIN_G_G(NAME)                                \
--  char __attribute__ ((overloadable))                           \
++  char _cl_overloadable                                         \
    NAME(char a)                                                  \
    {                                                             \
      return __builtin_##NAME##hh(a);                             \
    }                                                             \
--  short __attribute__ ((overloadable))                          \
++  short _cl_overloadable                                        \
    NAME(short a)                                                 \
    {                                                             \
      return __builtin_##NAME##h(a);                              \
    }                                                             \
--  int __attribute__ ((overloadable))                            \
++  int _cl_overloadable                                          \
    NAME(int a)                                                   \
    {                                                             \
      return __builtin_##NAME(a);                                 \
    }                                                             \
--  long __attribute__ ((overloadable))                           \
++  long _cl_overloadable                                         \
    NAME(long a)                                                  \
    {                                                             \
      return __builtin_##NAME##l(a);                              \
    }                                                             \
--  uchar __attribute__ ((overloadable))                          \
++  uchar _cl_overloadable                                        \
    NAME(uchar a)                                                 \
    {                                                             \
      return __builtin_##NAME##uhh(a);                            \
    }                                                             \
--  ushort __attribute__ ((overloadable))                         \
++  ushort _cl_overloadable                                       \
    NAME(ushort a)                                                \
    {                                                             \
      return __builtin_##NAME##uh(a);                             \
    }                                                             \
--  uint __attribute__ ((overloadable))                           \
++  uint _cl_overloadable                                         \
    NAME(uint a)                                                  \
    {                                                             \
      return __builtin_##NAME##u(a);                              \
    }                                                             \
--  ulong __attribute__ ((overloadable))                          \
++  ulong _cl_overloadable                                        \
    NAME(ulong a)                                                 \
    {                                                             \
      return __builtin_##NAME##ul(a);                             \
@@ -649,48 +662,48 @@
    IMPLEMENT_BUILTIN_G_G(NAME, ulong16 , ulong16 , lo, hi)
  #define IMPLEMENT_BUILTIN_UG_G(NAME, GTYPE, UGTYPE, LO, HI)     \
--  UGTYPE __attribute__ ((overloadable))                         \
++  UGTYPE _cl_overloadable                                       \
    NAME(GTYPE a)                                                 \
    {                                                             \
      return (UGTYPE)(NAME(a.LO), NAME(a.HI));                    \
+   }
  #define DEFINE_BUILTIN_UG_G(NAME)                               \
--  uchar __attribute__ ((overloadable))                          \
++  uchar _cl_overloadable                                        \
    NAME(char a)                                                  \
    {                                                             \
      return __builtin_##NAME##h(a);                              \
    }                                                             \
--  ushort __attribute__ ((overloadable))                         \
++  ushort _cl_overloadable                                       \
    NAME(short a)                                                 \
    {                                                             \
      return __builtin_##NAME##h(a);                              \
    }                                                             \
--  uint __attribute__ ((overloadable))                           \
++  uint _cl_overloadable                                         \
    NAME(int a)                                                   \
    {                                                             \
      return __builtin_##NAME(a);                                 \
    }                                                             \
--  ulong __attribute__ ((overloadable))                          \
++  ulong _cl_overloadable                                        \
    NAME(long a)                                                  \
    {                                                             \
      return __builtin_##NAME##l(a);                              \
    }                                                             \
--  uchar __attribute__ ((overloadable))                          \
++  uchar _cl_overloadable                                        \
    NAME(uchar a)                                                 \
    {                                                             \
      return __builtin_##NAME##uhh(a);                            \
    }                                                             \
--  ushort __attribute__ ((overloadable))                         \
++  ushort _cl_overloadable                                       \
    NAME(ushort a)                                                \
    {                                                             \
      return __builtin_##NAME##uh(a);                             \
    }                                                             \
--  uint __attribute__ ((overloadable))                           \
++  uint _cl_overloadable                                         \
    NAME(uint a)                                                  \
    {                                                             \
      return __builtin_##NAME##u(a);                              \
    }                                                             \
--  ulong __attribute__ ((overloadable))                          \
++  ulong _cl_overloadable                                        \
    NAME(ulong a)                                                 \
    {                                                             \
      return __builtin_##NAME##ul(a);                             \
@@ -739,7 +752,7 @@
  #define IMPLEMENT_EXPR_G_G(NAME, EXPR, GTYPE, SGTYPE, UGTYPE, SUGTYPE)  \
--  GTYPE __attribute__ ((overloadable))                                  \
++  GTYPE _cl_overloadable                                                \
    NAME(GTYPE a)                                                         \
    {                                                                     \
      typedef GTYPE gtype;                                                \
@@ -799,7 +812,7 @@
    IMPLEMENT_EXPR_G_G(NAME, EXPR, ulong16 , ulong , ulong16 , ulong )
  #define IMPLEMENT_EXPR_UG_G(NAME, EXPR, GTYPE, SGTYPE, UGTYPE, SUGTYPE) \
--  UGTYPE __attribute__ ((overloadable))                                 \
++  UGTYPE _cl_overloadable                                               \
    NAME(GTYPE a)                                                         \
    {                                                                     \
      typedef GTYPE gtype;                                                \
@@ -859,7 +872,7 @@
    IMPLEMENT_EXPR_UG_G(NAME, EXPR, ulong16 , ulong , ulong16 , ulong )
  #define IMPLEMENT_EXPR_G_GG(NAME, EXPR, GTYPE, SGTYPE, UGTYPE, SUGTYPE) \
--  GTYPE __attribute__ ((overloadable))                                  \
++  GTYPE _cl_overloadable                                                \
    NAME(GTYPE a, GTYPE b)                                                \
    {                                                                     \
      typedef GTYPE gtype;                                                \
@@ -918,7 +931,7 @@
    IMPLEMENT_EXPR_G_GG(NAME, EXPR, ulong8  , ulong , ulong8  , ulong )   \
    IMPLEMENT_EXPR_G_GG(NAME, EXPR, ulong16 , ulong , ulong16 , ulong )
  #define IMPLEMENT_EXPR_G_GGG(NAME, EXPR, GTYPE, SGTYPE, UGTYPE, SUGTYPE) \
--  GTYPE __attribute__ ((overloadable))                                  \
++  GTYPE _cl_overloadable                                                \
    NAME(GTYPE a, GTYPE b, GTYPE c)                                       \
    {                                                                     \
      typedef GTYPE gtype;                                                \
@@ -978,7 +991,7 @@
    IMPLEMENT_EXPR_G_GGG(NAME, EXPR, ulong16 , ulong , ulong16 , ulong )
  #define IMPLEMENT_EXPR_G_GS(NAME, EXPR, GTYPE, SGTYPE, UGTYPE, SUGTYPE) \
--  GTYPE __attribute__ ((overloadable))                                  \
++  GTYPE _cl_overloadable                                                \
    NAME(GTYPE a, SGTYPE b)                                               \
    {                                                                     \
      typedef GTYPE gtype;                                                \
@@ -1030,7 +1043,7 @@
    IMPLEMENT_EXPR_G_GS(NAME, EXPR, ulong16 , ulong , ulong16 , ulong )
  #define IMPLEMENT_EXPR_UG_GG(NAME, EXPR, GTYPE, SGTYPE, UGTYPE, SUGTYPE) \
--  UGTYPE __attribute__ ((overloadable))                                 \
++  UGTYPE _cl_overloadable                                               \
    NAME(GTYPE a, GTYPE b)                                                \
    {                                                                     \
      typedef GTYPE gtype;                                                \
@@ -1090,7 +1103,7 @@
    IMPLEMENT_EXPR_UG_GG(NAME, EXPR, ulong16 , ulong , ulong16 , ulong )
  #define IMPLEMENT_EXPR_LG_GUG(NAME, EXPR, GTYPE, SGTYPE, UGTYPE, LGTYPE) \
--  LGTYPE __attribute__ ((overloadable))                                 \
++  LGTYPE _cl_overloadable                                               \
    NAME(GTYPE a, UGTYPE b)                                               \
    {                                                                     \
      typedef GTYPE gtype;                                                \
@@ -1138,7 +1151,7 @@
    IMPLEMENT_EXPR_LG_GUG(NAME, EXPR, uint16  , uint  , uint16  , ulong16 )
  #define IMPLEMENT_EXPR_J_JJ(NAME, EXPR, JTYPE, SJTYPE, UJTYPE, SUJTYPE) \
--  JTYPE __attribute__ ((overloadable))                                  \
++  JTYPE _cl_overloadable                                                \
    NAME(JTYPE a, JTYPE b)                                                \
    {                                                                     \
      typedef JTYPE gtype;                                                \
@@ -1161,7 +1174,7 @@
    IMPLEMENT_EXPR_J_JJ(NAME, EXPR, uint8   , uint  , uint8   , uint  )   \
    IMPLEMENT_EXPR_J_JJ(NAME, EXPR, uint16  , uint  , uint16  , uint  )
  #define IMPLEMENT_EXPR_J_JJJ(NAME, EXPR, JTYPE, SJTYPE, UJTYPE, SUJTYPE) \
--  JTYPE __attribute__ ((overloadable))                                  \
++  JTYPE _cl_overloadable                                                \
    NAME(JTYPE a, JTYPE b, JTYPE c)                                       \
    {                                                                     \
      typedef JTYPE gtype;                                                \
 === modified file 'lib/kernel/upsample.cl'
 --- lib/kernel/upsample.cl	2011-10-26 19:49:23 +0000
 +++ lib/kernel/upsample.cl	2011-10-31 17:03:23 +0000
@@ -25,7 +25,7 @@
  // convert_* function calls
  #define IMPLEMENT_UPSAMPLE_LG_GUG(GTYPE, SGTYPE, UGTYPE, LGTYPE)        \
--  LGTYPE __attribute__ ((overloadable))                                 \
++  LGTYPE __attribute__ ((__overloadable__))                                 \
    upsample(GTYPE a, UGTYPE b)                                           \
    {                                                                     \
      int bits = CHAR_BIT * sizeof(SGTYPE);                               \
 === added file 'lib/kernel/vload.cl'
 --- lib/kernel/vload.cl	1970-01-01 00:00:00 +0000
 +++ lib/kernel/vload.cl	2011-10-31 17:03:23 +0000
@@ -0,0 +1,106 @@
++/* OpenCL built-in library: vloa()
++
++   Copyright (c) 2011 Universidad Rey Juan Carlos
++
++   Permission is hereby granted, free of charge, to any person obtaining a copy
++   of this software and associated documentation files (the "Software"), to deal
++   in the Software without restriction, including without limitation the rights
++   to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
++   copies of the Software, and to permit persons to whom the Software is
++   furnished to do so, subject to the following conditions:
++
++   The above copyright notice and this permission notice shall be included in
++   all copies or substantial portions of the Software.
++
++   THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
++   IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
++   FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
++   AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
++   LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
++   OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN
++   THE SOFTWARE.
++*/
++
++#include "templates.h"
++
++
++
++#define IMPLEMENT_VLOAD(TYPE, MOD)                                      \
++                                                                        \
++  TYPE##2 __attribute__ ((__overloadable__))                            \
++  vload2(size_t offset, const MOD TYPE *p)                              \
++  {                                                                     \
++    return (TYPE##2)(p[offset*2], p[offset*2+1]);                       \
++  }                                                                     \
++                                                                        \
++  TYPE##3 __attribute__ ((__overloadable__))                            \
++  vload3(size_t offset, const MOD TYPE *p)                              \
++  {                                                                     \
++    return (TYPE##3)(vload2(0, &p[offset*3]), p[offset*3+2]);           \
++  }                                                                     \
++                                                                        \
++  TYPE##4 __attribute__ ((__overloadable__))                            \
++  vload4(size_t offset, const MOD TYPE *p)                              \
++  {                                                                     \
++    return (TYPE##4)(vload2(0, &p[offset*4]), vload2(0, &p[offset*4+2])); \
++  }                                                                     \
++                                                                        \
++  TYPE##8 __attribute__ ((__overloadable__))                            \
++  vload8(size_t offset, const MOD TYPE *p)                              \
++  {                                                                     \
++    return (TYPE##8)(vload4(0, &p[offset*8]), vload4(0, &p[offset*8+4])); \
++  }                                                                     \
++                                                                        \
++  TYPE##16 __attribute__ ((__overloadable__))                           \
++  vload16(size_t offset, const MOD TYPE *p)                             \
++  {                                                                     \
++    return (TYPE##16)(vload8(0, &p[offset*16]), vload8(0, &p[offset*16+8])); \
++  }
++
++
++
++IMPLEMENT_VLOAD(char  , __global)
++IMPLEMENT_VLOAD(short , __global)
++IMPLEMENT_VLOAD(int   , __global)
++IMPLEMENT_VLOAD(long  , __global)
++IMPLEMENT_VLOAD(uchar , __global)
++IMPLEMENT_VLOAD(ushort, __global)
++IMPLEMENT_VLOAD(uint  , __global)
++IMPLEMENT_VLOAD(ulong , __global)
++IMPLEMENT_VLOAD(float , __global)
++IMPLEMENT_VLOAD(double, __global)
++
++IMPLEMENT_VLOAD(char  , __local)
++IMPLEMENT_VLOAD(short , __local)
++IMPLEMENT_VLOAD(int   , __local)
++IMPLEMENT_VLOAD(long  , __local)
++IMPLEMENT_VLOAD(uchar , __local)
++IMPLEMENT_VLOAD(ushort, __local)
++IMPLEMENT_VLOAD(uint  , __local)
++IMPLEMENT_VLOAD(ulong , __local)
++IMPLEMENT_VLOAD(float , __local)
++IMPLEMENT_VLOAD(double, __local)
++
++IMPLEMENT_VLOAD(char  , __constant)
++IMPLEMENT_VLOAD(short , __constant)
++IMPLEMENT_VLOAD(int   , __constant)
++IMPLEMENT_VLOAD(long  , __constant)
++IMPLEMENT_VLOAD(uchar , __constant)
++IMPLEMENT_VLOAD(ushort, __constant)
++IMPLEMENT_VLOAD(uint  , __constant)
++IMPLEMENT_VLOAD(ulong , __constant)
++IMPLEMENT_VLOAD(float , __constant)
++IMPLEMENT_VLOAD(double, __constant)
++
++/* __private is not supported yet
++IMPLEMENT_VLOAD(char  , __private)
++IMPLEMENT_VLOAD(short , __private)
++IMPLEMENT_VLOAD(int   , __private)
++IMPLEMENT_VLOAD(long  , __private)
++IMPLEMENT_VLOAD(uchar , __private)
++IMPLEMENT_VLOAD(ushort, __private)
++IMPLEMENT_VLOAD(uint  , __private)
++IMPLEMENT_VLOAD(ulong , __private)
++IMPLEMENT_VLOAD(float , __private)
++IMPLEMENT_VLOAD(double, __private)
++*/
 === added file 'lib/kernel/vstore.cl'
 --- lib/kernel/vstore.cl	1970-01-01 00:00:00 +0000
 +++ lib/kernel/vstore.cl	2011-10-31 17:03:23 +0000
@@ -0,0 +1,100 @@
++/* OpenCL built-in library: vstore()
++
++   Copyright (c) 2011 Universidad Rey Juan Carlos
++
++   Permission is hereby granted, free of charge, to any person obtaining a copy
++   of this software and associated documentation files (the "Software"), to deal
++   in the Software without restriction, including without limitation the rights
++   to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
++   copies of the Software, and to permit persons to whom the Software is
++   furnished to do so, subject to the following conditions:
++
++   The above copyright notice and this permission notice shall be included in
++   all copies or substantial portions of the Software.
++
++   THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
++   IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
++   FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
++   AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
++   LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
++   OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN
++   THE SOFTWARE.
++*/
++
++#include "templates.h"
++
++
++
++#define IMPLEMENT_VSTORE(TYPE, MOD)                     \
++                                                        \
++  void __attribute__ ((__overloadable__))               \
++  vstore2(TYPE##2 data, size_t offset, MOD TYPE *p)     \
++  {                                                     \
++    p[offset*2] = data.lo;                              \
++    p[offset*2+1] = data.hi;                            \
++  }                                                     \
++                                                        \
++  void __attribute__ ((__overloadable__))               \
++  vstore3(TYPE##3 data, size_t offset, MOD TYPE *p)     \
++  {                                                     \
++    vstore2(data.lo, 0, &p[offset*3]);                  \
++    p[offset*3+2] = data.s2;                            \
++  }                                                     \
++                                                        \
++  void __attribute__ ((__overloadable__))               \
++  vstore4(TYPE##4 data, size_t offset, MOD TYPE *p)     \
++  {                                                     \
++    vstore2(data.lo, 0, &p[offset*4]);                  \
++    vstore2(data.hi, 0, &p[offset*4+2]);                \
++  }                                                     \
++                                                        \
++  void __attribute__ ((__overloadable__))               \
++  vstore8(TYPE##8 data, size_t offset, MOD TYPE *p)     \
++  {                                                     \
++    vstore4(data.lo, 0, &p[offset*8]);                  \
++    vstore4(data.hi, 0, &p[offset*8+4]);                \
++  }                                                     \
++                                                        \
++  void __attribute__ ((__overloadable__))               \
++  vstore16(TYPE##16 data, size_t offset, MOD TYPE *p)   \
++  {                                                     \
++    vstore8(data.lo, 0, &p[offset*16]);                 \
++    vstore8(data.hi, 0, &p[offset*16+8]);               \
++  }
++
++
++
++IMPLEMENT_VSTORE(char  , __global)
++IMPLEMENT_VSTORE(short , __global)
++IMPLEMENT_VSTORE(int   , __global)
++IMPLEMENT_VSTORE(long  , __global)
++IMPLEMENT_VSTORE(uchar , __global)
++IMPLEMENT_VSTORE(ushort, __global)
++IMPLEMENT_VSTORE(uint  , __global)
++IMPLEMENT_VSTORE(ulong , __global)
++IMPLEMENT_VSTORE(float , __global)
++IMPLEMENT_VSTORE(double, __global)
++
++IMPLEMENT_VSTORE(char  , __local)
++IMPLEMENT_VSTORE(short , __local)
++IMPLEMENT_VSTORE(int   , __local)
++IMPLEMENT_VSTORE(long  , __local)
++IMPLEMENT_VSTORE(uchar , __local)
++IMPLEMENT_VSTORE(ushort, __local)
++IMPLEMENT_VSTORE(uint  , __local)
++IMPLEMENT_VSTORE(ulong , __local)
++IMPLEMENT_VSTORE(float , __local)
++IMPLEMENT_VSTORE(double, __local)
++
++/* __private is not supported yet
++IMPLEMENT_VSTORE(char  , __private)
++IMPLEMENT_VSTORE(short , __private)
++IMPLEMENT_VSTORE(int   , __private)
++IMPLEMENT_VSTORE(long  , __private)
++IMPLEMENT_VSTORE(uchar , __private)
++IMPLEMENT_VSTORE(ushort, __private)
++IMPLEMENT_VSTORE(uint  , __private)
++IMPLEMENT_VSTORE(ulong , __private)
++IMPLEMENT_VSTORE(float , __private)
++IMPLEMENT_VSTORE(double, __private)
++*/
 === added directory 'lib/kernel/x86'
 === added file 'lib/kernel/x86/Makefile.am'
 --- lib/kernel/x86/Makefile.am	1970-01-01 00:00:00 +0000
 +++ lib/kernel/x86/Makefile.am	2011-10-31 17:03:23 +0000
@@ -0,0 +1,169 @@
++# Process this file with automake to produce Makefile.in (in this,
++# and all subdirectories).
++# Makefile.am for pocl/lib/kernel/dummy.
++#
++# Copyright (c) 2011 Universidad Rey Juan Carlos
++#
++# Permission is hereby granted, free of charge, to any person obtaining a copy
++# of this software and associated documentation files (the "Software"), to deal
++# in the Software without restriction, including without limitation the rights
++# to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
++# copies of the Software, and to permit persons to whom the Software is
++# furnished to do so, subject to the following conditions:
++#
++# The above copyright notice and this permission notice shall be included in
++# all copies or substantial portions of the Software.
++#
++# THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
++# IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
++# FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
++# AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
++# LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
++# OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN
++# THE SOFTWARE.
++
++targetpkglibdir = $(pkglibdir)/x86
++targetpkglib_LIBRARIES = libkernel.a
++
++vpath %.cl @srcdir@/..
++vpath %.c @srcdir@/..
++vpath %.ll @srcdir@/..
++
++libkernel_a_SOURCES = get_global_size.c		\
++                      get_global_id.c		\
++                      get_local_id.c		\
++                      get_num_groups.c		\
++                      get_group_id.c		\
++                      as_type.cl		\
++                      convert_type.cl		\
++                      acos.cl			\
++                      acosh.cl			\
++                      acospi.cl			\
++                      asin.cl			\
++                      asinh.cl			\
++                      asinpi.cl			\
++                      atan.cl			\
++                      atan2.cl			\
++                      atan2pi.cl		\
++                      atanh.cl			\
++                      atanpi.cl			\
++                      cbrt.cl			\
++                      ceil.cl			\
++                      copysign.cl		\
++                      cos.cl			\
++                      cosh.cl			\
++                      cospi.cl			\
++                      erfc.cl			\
++                      erf.cl			\
++                      exp.cl			\
++                      exp2.cl			\
++                      exp10.cl			\
++                      expm1.cl			\
++                      fabs.cl			\
++                      fdim.cl			\
++                      floor.cl			\
++                      fma.cl			\
++                      fmax.cl			\
++                      fmin.cl			\
++                      fmod.cl			\
++                      fract.cl			\
++                      hypot.cl			\
++                      ilogb.cl			\
++                      ldexp.cl			\
++                      lgamma.cl			\
++                      log.cl			\
++                      log2.cl			\
++                      log10.cl			\
++                      log1p.cl			\
++                      logb.cl			\
++                      mad.cl			\
++                      maxmag.cl			\
++                      minmag.cl			\
++                      nan.cl			\
++                      nextafter.cl		\
++                      pow.cl			\
++                      pown.cl			\
++                      powr.cl			\
++                      remainder.cl		\
++                      rint.cl			\
++                      rootn.cl			\
++                      round.cl			\
++                      rsqrt.cl			\
++                      sin.cl			\
++                      sinh.cl			\
++                      sinpi.cl			\
++                      sqrt.cl			\
++                      tan.cl			\
++                      tanh.cl			\
++                      tanpi.cl			\
++                      tgamma.cl			\
++                      trunc.cl			\
++                      abs.cl			\
++                      abs_diff.cl		\
++                      add_sat.cl		\
++                      hadd.cl			\
++                      rhadd.cl			\
++                      clamp.cl			\
++                      clz.cl			\
++                      mad_hi.cl			\
++                      mad_sat.cl		\
++                      max.cl			\
++                      min.cl			\
++                      mul_hi.cl			\
++                      rotate.cl			\
++                      sub_sat.cl		\
++                      upsample.cl		\
++                      mad24.cl			\
++                      mul24.cl			\
++                      degrees.cl		\
++                      mix.cl			\
++                      radians.cl		\
++                      step.cl			\
++                      smoothstep.cl		\
++                      sign.cl			\
++                      cross.cl			\
++                      dot.cl			\
++                      distance.cl		\
++                      length.cl			\
++                      normalize.cl		\
++                      fast_distance.cl		\
++                      fast_length.cl		\
++                      fast_normalize.cl		\
++                      isequal.cl		\
++                      isnotequal.cl		\
++                      isgreater.cl		\
++                      isgreaterequal.cl		\
++                      isless.cl			\
++                      islessequal.cl		\
++                      islessgreater.cl		\
++                      isfinite.cl		\
++                      isinf.cl			\
++                      isnan.cl			\
++                      isnormal.cl		\
++                      isordered.cl		\
++                      isunordered.cl		\
++                      signbit.cl		\
++                      any.cl			\
++                      all.cl			\
++                      bitselect.cl		\
++                      select.cl			\
++                      vload.cl			\
++                      vstore.cl
++
++libkernel_a_LIBADD = barrier.o
++EXTRA_DIST = barrier.ll
++
++RANLIB = `@LLVM_CONFIG@ --bindir`/llvm-ranlib
++AR = `@LLVM_CONFIG@ --bindir`/llvm-ar
++
++.cl.o:
++	$(CLANG) $(AM_CPPFLAGS) $(CLANGFLAGS) -c -emit-llvm -include $(top_srcdir)/include/_kernel.h -o $@ $<
++
++.c.o:
++	$(CLANG) $(AM_CPPFLAGS) $(CLANGFLAGS) -c -emit-llvm -include $(top_srcdir)/include/_kernel.h -o $@ $<
++
++.ll.o:
++	$(LLVM_AS) -o $@ $<
++
++$(libkernel_a_SOURCES:.c=.o):  $(top_srcdir)/include/_kernel.h
++$(libkernel_a_SOURCES:.cl=.o):  $(top_srcdir)/include/_kernel.h
 === added file 'lib/kernel/x86/ceil.cl'
 --- lib/kernel/x86/ceil.cl	1970-01-01 00:00:00 +0000
 +++ lib/kernel/x86/ceil.cl	2011-10-31 17:03:23 +0000
@@ -0,0 +1,149 @@
++/* OpenCL built-in library: ceil()
++
++   Copyright (c) 2011 Universidad Rey Juan Carlos
++
++   Permission is hereby granted, free of charge, to any person obtaining a copy
++   of this software and associated documentation files (the "Software"), to deal
++   in the Software without restriction, including without limitation the rights
++   to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
++   copies of the Software, and to permit persons to whom the Software is
++   furnished to do so, subject to the following conditions:
++
++   The above copyright notice and this permission notice shall be included in
++   all copies or substantial portions of the Software.
++
++   THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
++   IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
++   FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
++   AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
++   LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
++   OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN
++   THE SOFTWARE.
++*/
++
++#define IMPLEMENT_DIRECT(NAME, TYPE, EXPR)      \
++  TYPE _cl_overloadable NAME(TYPE a)            \
++  {                                             \
++    typedef TYPE type;                          \
++    return EXPR;                                \
++  }
++
++#define IMPLEMENT_UPCAST(NAME, TYPE, UPTYPE, LO)        \
++  TYPE _cl_overloadable NAME(TYPE a)                    \
++  {                                                     \
++    return NAME(*(UPTYPE*)&a).LO;                       \
++  }
++
++#define IMPLEMENT_SPLIT(NAME, TYPE, LO, HI)     \
++  TYPE _cl_overloadable NAME(TYPE a)            \
++  {                                             \
++    return (TYPE)(NAME(a.LO), NAME(a.HI));      \
++  }
++
++
++
++#define _MM_FROUND_TO_NEAREST_INT 0x00
++#define _MM_FROUND_TO_NEG_INF     0x01
++#define _MM_FROUND_TO_POS_INF     0x02
++#define _MM_FROUND_TO_ZERO        0x03
++#define _MM_FROUND_CUR_DIRECTION  0x04
++
++#define _MM_FROUND_RAISE_EXC 0x00
++#define _MM_FROUND_NO_EXC    0x08
++
++#define _MM_FROUND_NINT      (_MM_FROUND_TO_NEAREST_INT | _MM_FROUND_RAISE_EXC)
++#define _MM_FROUND_FLOOR     (_MM_FROUND_TO_NEG_INF     | _MM_FROUND_RAISE_EXC)
++#define _MM_FROUND_CEIL      (_MM_FROUND_TO_POS_INF     | _MM_FROUND_RAISE_EXC)
++#define _MM_FROUND_TRUNC     (_MM_FROUND_TO_ZERO        | _MM_FROUND_RAISE_EXC)
++#define _MM_FROUND_RINT      (_MM_FROUND_CUR_DIRECTION  | _MM_FROUND_RAISE_EXC)
++#define _MM_FROUND_NEARBYINT (_MM_FROUND_CUR_DIRECTION  | _MM_FROUND_NO_EXC   )
++
++
++
++#define IMPLEMENT_CEIL_DIRECT_FLOAT  __builtin_ceilf(a)
++#define IMPLEMENT_CEIL_DIRECT_DOUBLE __builtin_ceil(a)
++// Using only a single asm operand leads to better code, since LLVM
++// doesn't seem to allocate input and output operands to the same
++// register
++#define IMPLEMENT_CEIL_SSE41_FLOAT                      \
++  ({                                                    \
++    __asm__ ("roundss %[dst], %[dst], %[mode]" :        \
++             [dst] "+x" (a) :                           \
++             [mode] "n" (_MM_FROUND_CEIL));             \
++    a;                                                  \
++  })
++#define IMPLEMENT_CEIL_SSE41_FLOAT4                     \
++  ({                                                    \
++    __asm__ ("roundps %[dst], %[dst], %[mode]" :        \
++             [dst] "+x" (a) :                           \
++             [mode] "n" (_MM_FROUND_CEIL));             \
++    a;                                                  \
++  })
++#define IMPLEMENT_CEIL_AVX_FLOAT8                       \
++  ({                                                    \
++    __asm__ ("roundps256 %[dst], %[dst], %[mode]" :     \
++             [dst] "+x" (a) :                           \
++             [mode] "n" (_MM_FROUND_CEIL));             \
++    a;                                                  \
++  })
++#define IMPLEMENT_CEIL_SSE41_DOUBLE                     \
++  ({                                                    \
++    __asm__ ("roundsd %[dst], %[dst], %[mode]" :        \
++             [dst] "+x" (a) :                           \
++             [mode] "n" (_MM_FROUND_CEIL));             \
++    a;                                                  \
++  })
++#define IMPLEMENT_CEIL_SSE41_DOUBLE2                    \
++  ({                                                    \
++    __asm__ ("roundpd %[dst], %[dst], %[mode]" :        \
++             [dst] "+x" (a) :                           \
++             [mode] "n" (_MM_FROUND_CEIL));             \
++    a;                                                  \
++  })
++#define IMPLEMENT_CEIL_AVX_DOUBLE4                      \
++  ({                                                    \
++    __asm__ ("roundpd256 %[dst], %[dst], %[mode]" :     \
++             [dst] "+x" (a) :                           \
++             [mode] "n" (_MM_FROUND_CEIL));             \
++    a;                                                  \
++  })
++
++
++
++#ifdef __SSE4_1__
++IMPLEMENT_DIRECT(ceil, float  , IMPLEMENT_CEIL_SSE41_FLOAT)
++IMPLEMENT_UPCAST(ceil, float2 , float4, lo)
++IMPLEMENT_UPCAST(ceil, float3 , float4, s012)
++IMPLEMENT_DIRECT(ceil, float4 , IMPLEMENT_CEIL_SSE41_FLOAT4)
++#  ifdef __AVX__
++IMPLEMENT_DIRECT(ceil, float8 , IMPLEMENT_CEIL_AVX_FLOAT8)
++#  else
++IMPLEMENT_SPLIT (ceil, float8 , lo, hi)
++#  endif
++#else
++IMPLEMENT_DIRECT(ceil, float  , IMPLEMENT_CEIL_DIRECT_FLOAT)
++IMPLEMENT_SPLIT (ceil, float2 , lo, hi)
++IMPLEMENT_SPLIT (ceil, float3 , lo, s2)
++IMPLEMENT_SPLIT (ceil, float4 , lo, hi)
++IMPLEMENT_SPLIT (ceil, float8 , lo, hi)
++#endif
++IMPLEMENT_SPLIT (ceil, float16, lo, hi)
++
++#ifdef __SSE4_1__
++IMPLEMENT_DIRECT(ceil, double  , IMPLEMENT_CEIL_SSE41_DOUBLE)
++IMPLEMENT_DIRECT(ceil, double2 , IMPLEMENT_CEIL_SSE41_DOUBLE2)
++#  ifdef __AVX__
++IMPLEMENT_UPCAST(ceil, double3 , double4, s012)
++IMPLEMENT_DIRECT(ceil, double4 , IMPLEMENT_CEIL_AVX_DOUBLE4)
++#  else
++IMPLEMENT_SPLIT (ceil, double3 , lo, s2)
++IMPLEMENT_SPLIT (ceil, double4 , lo, hi)
++#  endif
++#else
++IMPLEMENT_DIRECT(ceil, double  , IMPLEMENT_CEIL_DIRECT_DOUBLE)
++IMPLEMENT_SPLIT (ceil, double2 , lo, hi)
++IMPLEMENT_SPLIT (ceil, double3 , lo, s2)
++IMPLEMENT_SPLIT (ceil, double4 , lo, hi)
++#endif
++IMPLEMENT_SPLIT (ceil, double8 , lo, hi)
++IMPLEMENT_SPLIT (ceil, double16, lo, hi)
 === added file 'lib/kernel/x86/copysign.cl'
 --- lib/kernel/x86/copysign.cl	1970-01-01 00:00:00 +0000
 +++ lib/kernel/x86/copysign.cl	2011-10-31 17:03:23 +0000
@@ -0,0 +1,169 @@
++/* OpenCL built-in library: copysign()
++
++   Copyright (c) 2011 Universidad Rey Juan Carlos
++
++   Permission is hereby granted, free of charge, to any person obtaining a copy
++   of this software and associated documentation files (the "Software"), to deal
++   in the Software without restriction, including without limitation the rights
++   to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
++   copies of the Software, and to permit persons to whom the Software is
++   furnished to do so, subject to the following conditions:
++
++   The above copyright notice and this permission notice shall be included in
++   all copies or substantial portions of the Software.
++
++   THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
++   IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
++   FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
++   AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
++   LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
++   OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN
++   THE SOFTWARE.
++*/
++
++#if 0
++
++#include "../templates.h"
++
++// LLVM generates non-optimal code for this implementation
++DEFINE_EXPR_V_VV(copysign,
++                 ({
++                   int bits = CHAR_BIT * sizeof(stype);
++                   jtype sign_mask = (jtype)1 << (jtype)(bits - 1);
++                   jtype result = ((~sign_mask & *(jtype*)&a) |
++                                   ( sign_mask & *(jtype*)&b));
++                   *(vtype*)&result;
++                 }))
++
++#endif
++
++
++
++#define IMPLEMENT_DIRECT(NAME, TYPE, EXPR)      \
++  TYPE _cl_overloadable NAME(TYPE a, TYPE b)    \
++  {                                             \
++    return EXPR;                                \
++  }
++
++#define IMPLEMENT_UPCAST(NAME, TYPE, UPTYPE, LO)        \
++  TYPE _cl_overloadable NAME(TYPE a, TYPE b)            \
++  {                                                     \
++    return NAME(*(UPTYPE*)&a, *(UPTYPE*)&b).LO;         \
++  }
++
++#define IMPLEMENT_SPLIT(NAME, TYPE, LO, HI)             \
++  TYPE _cl_overloadable NAME(TYPE a, TYPE b)            \
++  {                                                     \
++    return (TYPE)(NAME(a.LO, b.LO), NAME(a.HI, b.HI));  \
++  }
++
++
++
++#define IMPLEMENT_COPYSIGN_DIRECT                                       \
++  ({                                                                    \
++    int bits = CHAR_BIT * sizeof(stype);                                \
++    jtype sign_mask = (jtype)1 << (jtype)(bits - 1);                    \
++    jtype result = (~sign_mask & *(jtype*)&a) | (sign_mask & *(jtype*)&b); \
++    *(vtype*)&result;                                                   \
++  })
++#define IMPLEMENT_COPYSIGN_SSE_FLOAT4                                   \
++  ({                                                                    \
++    uint4 sign_mask = {0x80000000U, 0x80000000U, 0x80000000U, 0x80000000U}; \
++    __asm__ ("andps %[src], %[dst]" :                                   \
++             [dst] "+x" (a) :                                           \
++             [src] "x" (~sign_mask));                                   \
++    __asm__ ("andps %[src], %[dst]" :                                   \
++             [dst] "+x" (b) :                                           \
++             [src] "x" (sign_mask));                                    \
++    __asm__ ("orps %[src], %[dst]" :                                    \
++             [dst] "+x" (a) :                                           \
++             [src] "x" (b));                                            \
++    a;                                                                  \
++  })
++#define IMPLEMENT_COPYSIGN_AVX_FLOAT8                                   \
++  ({                                                                    \
++    uint8 sign_mask = {0x80000000U, 0x80000000U, 0x80000000U, 0x80000000U, \
++                       0x80000000U, 0x80000000U, 0x80000000U, 0x80000000U}; \
++    __asm__ ("andps256 %[src], %[dst]" :                                \
++             [dst] "+x" (a) :                                           \
++             [src] "x" (~sign_mask));                                   \
++    __asm__ ("andps256 %[src], %[dst]" :                                \
++             [dst] "+x" (b) :                                           \
++             [src] "x" (sign_mask));                                    \
++    __asm__ ("orps256 %[src], %[dst]" :                                 \
++             [dst] "+x" (a) :                                           \
++             [b] "x" (b));                                              \
++    a;                                                                  \
++  })
++#define IMPLEMENT_COPYSIGN_SSE2_DOUBLE2                                 \
++  ({                                                                    \
++    ulong2 sign_mask = {0x8000000000000000UL, 0x8000000000000000UL};    \
++    __asm__ ("andpd %[src], %[dst]" :                                   \
++             [dst] "+x" (a) :                                           \
++             [src] "x" (~sign_mask));                                   \
++    __asm__ ("andpd %[src], %[dst]" :                                   \
++             [dst] "+x" (b) :                                           \
++             [src] "x" (sign_mask));                                    \
++    __asm__ ("orpd %[src], %[dst]" :                                    \
++             [dst] "+x" (a) :                                           \
++             [src] "x" (b));                                            \
++    a;                                                                  \
++  })
++#define IMPLEMENT_COPYSIGN_AVX_DOUBLE4                                  \
++  ({                                                                    \
++    ulong4 sign_mask = {0x8000000000000000UL, 0x8000000000000000UL,     \
++                        0x8000000000000000UL, 0x8000000000000000UL};    \
++    __asm__ ("andpd256 %[src], %[dst]" :                                \
++             [dst] "+x" (a) :                                           \
++             [src] "x" (~sign_mask));                                   \
++    __asm__ ("andpd256 %[src], %[dst]" :                                \
++             [dst] "+x" (b) :                                           \
++             [src] "x" (sign_mask));                                    \
++    __asm__ ("orpd256 %[src], %[dst]" :                                 \
++             [dst] "+x" (a) :                                           \
++             [src] "x" (b));                                            \
++    a;                                                                  \
++  })
++
++
++
++#ifdef __SSE__
++IMPLEMENT_DIRECT(copysign, float  , IMPLEMENT_COPYSIGN_SSE_FLOAT4)
++IMPLEMENT_UPCAST(copysign, float2 , float4, lo)
++IMPLEMENT_UPCAST(copysign, float3 , float4, s012)
++IMPLEMENT_DIRECT(copysign, float4 , IMPLEMENT_COPYSIGN_SSE_FLOAT4)
++#  ifdef __AVX__
++IMPLEMENT_DIRECT(copysign, float8 , IMPLEMENT_COPYSIGN_AVX_FLOAT8)
++#  else
++IMPLEMENT_SPLIT (copysign, float8 , lo, hi)
++#  endif
++IMPLEMENT_SPLIT (copysign, float16, lo, hi)
++#else
++IMPLEMENT_DIRECT(copysign, float  , IMPLEMENT_COPYSIGN_DIRECT)
++IMPLEMENT_DIRECT(copysign, float2 , IMPLEMENT_COPYSIGN_DIRECT)
++IMPLEMENT_DIRECT(copysign, float3 , IMPLEMENT_COPYSIGN_DIRECT)
++IMPLEMENT_DIRECT(copysign, float4 , IMPLEMENT_COPYSIGN_DIRECT)
++IMPLEMENT_DIRECT(copysign, float8 , IMPLEMENT_COPYSIGN_DIRECT)
++IMPLEMENT_DIRECT(copysign, float16, IMPLEMENT_COPYSIGN_DIRECT)
++#endif
++
++#ifdef __SSE2__
++IMPLEMENT_DIRECT(copysign, double  , IMPLEMENT_COPYSIGN_SSE2_DOUBLE2)
++IMPLEMENT_DIRECT(copysign, double2 , IMPLEMENT_COPYSIGN_SSE2_DOUBLE2)
++#  ifdef __AVX__
++IMPLEMENT_UPCAST(copysign, double3 , double4, s012)
++IMPLEMENT_DIRECT(copysign, double4 , IMPLEMENT_COPYSIGN_AVX_DOUBLE4)
++#  else
++IMPLEMENT_SPLIT (copysign, double3 , lo, s2)
++IMPLEMENT_SPLIT (copysign, double4 , lo, hi)
++#  endif
++IMPLEMENT_SPLIT (copysign, double8 , lo, hi)
++IMPLEMENT_SPLIT (copysign, double16, lo, hi)
++#else
++IMPLEMENT_DIRECT(copysign, double  , IMPLEMENT_COPYSIGN_DIRECT)
++IMPLEMENT_DIRECT(copysign, double2 , IMPLEMENT_COPYSIGN_DIRECT)
++IMPLEMENT_DIRECT(copysign, double3 , IMPLEMENT_COPYSIGN_DIRECT)
++IMPLEMENT_DIRECT(copysign, double4 , IMPLEMENT_COPYSIGN_DIRECT)
++IMPLEMENT_DIRECT(copysign, double8 , IMPLEMENT_COPYSIGN_DIRECT)
++IMPLEMENT_DIRECT(copysign, double16, IMPLEMENT_COPYSIGN_DIRECT)
++#endif
 === added file 'lib/kernel/x86/fabs.cl'
 --- lib/kernel/x86/fabs.cl	1970-01-01 00:00:00 +0000
 +++ lib/kernel/x86/fabs.cl	2011-10-31 17:03:23 +0000
@@ -0,0 +1,144 @@
++/* OpenCL built-in library: fabs()
++
++   Copyright (c) 2011 Universidad Rey Juan Carlos
++
++   Permission is hereby granted, free of charge, to any person obtaining a copy
++   of this software and associated documentation files (the "Software"), to deal
++   in the Software without restriction, including without limitation the rights
++   to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
++   copies of the Software, and to permit persons to whom the Software is
++   furnished to do so, subject to the following conditions:
++
++   The above copyright notice and this permission notice shall be included in
++   all copies or substantial portions of the Software.
++
++   THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
++   IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
++   FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
++   AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
++   LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
++   OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN
++   THE SOFTWARE.
++*/
++
++#if 0
++
++#include "../templates.h"
++
++// LLVM generates non-optimal code for this implementation
++DEFINE_EXPR_V_V(fabs,
++                ({
++                  int bits = CHAR_BIT * sizeof(stype);
++                  jtype sign_mask = (jtype)1 << (jtype)(bits - 1);
++                  jtype result = ~sign_mask & *(jtype*)&a;
++                  *(vtype*)&result;
++                }))
++
++#endif
++
++
++
++#define IMPLEMENT_DIRECT(NAME, TYPE, EXPR)      \
++  TYPE _cl_overloadable NAME(TYPE a)            \
++  {                                             \
++    return EXPR;                                \
++  }
++
++#define IMPLEMENT_UPCAST(NAME, TYPE, UPTYPE, LO)        \
++  TYPE _cl_overloadable NAME(TYPE a)                    \
++  {                                                     \
++    return NAME(*(UPTYPE*)&a).LO;                       \
++  }
++
++#define IMPLEMENT_SPLIT(NAME, TYPE, LO, HI)     \
++  TYPE _cl_overloadable NAME(TYPE a)            \
++  {                                             \
++    return (TYPE)(NAME(a.LO), NAME(a.HI));      \
++  }
++
++
++
++#define IMPLEMENT_FABS_DIRECT                           \
++  ({                                                    \
++    int bits = CHAR_BIT * sizeof(stype);                \
++    jtype sign_mask = (jtype)1 << (jtype)(bits - 1);    \
++    jtype result = ~sign_mask & *(jtype*)&a;            \
++    *(vtype*)&result;                                   \
++  })
++#define IMPLEMENT_FABS_SSE_FLOAT4                                       \
++  ({                                                                    \
++    uint4 sign_mask = {0x80000000U, 0x80000000U, 0x80000000U, 0x80000000U}; \
++    __asm__ ("andps %[src], %[dst]" :                                   \
++             [dst] "+x" (a) :                                           \
++             [src] "x" (~sign_mask));                                   \
++    a;                                                                  \
++  })
++#define IMPLEMENT_FABS_AVX_FLOAT8                                       \
++  ({                                                                    \
++    uint8 sign_mask = {0x80000000U, 0x80000000U, 0x80000000U, 0x80000000U, \
++                       0x80000000U, 0x80000000U, 0x80000000U, 0x80000000U}; \
++    __asm__ ("andps256 %[src], %[dst]" :                                \
++             [dst] "=x" (a) :                                           \
++             "[dst]" (a), [src] "x" (~sign_mask));                      \
++    a;                                                                  \
++  })
++#define IMPLEMENT_FABS_SSE2_DOUBLE2                                     \
++  ({                                                                    \
++    ulong2 sign_mask = {0x8000000000000000UL, 0x8000000000000000UL};    \
++    __asm__ ("andpd %[src], %[dst]" :                                   \
++             [dst] "=x" (a) :                                           \
++             "[dst]" (a), [src] "x" (~sign_mask));                      \
++    a;                                                                  \
++  })
++#define IMPLEMENT_FABS_AVX_DOUBLE4                                      \
++  ({                                                                    \
++    ulong4 sign_mask = {0x8000000000000000UL, 0x8000000000000000UL,     \
++                        0x8000000000000000UL, 0x8000000000000000UL};    \
++    __asm__ ("andpd256 %[src], %[dst]" :                                \
++             [dst] "=x" (a) :                                           \
++             "[dst]" (a), [src] "x" (~sign_mask));                      \
++    a;                                                                  \
++  })
++
++
++
++#ifdef __SSE__
++IMPLEMENT_UPCAST(fabs, float  , float2, lo)
++IMPLEMENT_UPCAST(fabs, float2 , float4, lo)
++IMPLEMENT_UPCAST(fabs, float3 , float4, s012)
++IMPLEMENT_DIRECT(fabs, float4 , IMPLEMENT_FABS_SSE_FLOAT4)
++#  ifdef __AVX__
++IMPLEMENT_DIRECT(fabs, float8 , IMPLEMENT_FABS_AVX_FLOAT8)
++#  else
++IMPLEMENT_SPLIT (fabs, float8 , lo, hi)
++#  endif
++IMPLEMENT_SPLIT (fabs, float16, lo, hi)
++#else
++IMPLEMENT_DIRECT(fabs, float  , IMPLEMENT_FABS_DIRECT)
++IMPLEMENT_DIRECT(fabs, float2 , IMPLEMENT_FABS_DIRECT)
++IMPLEMENT_DIRECT(fabs, float3 , IMPLEMENT_FABS_DIRECT)
++IMPLEMENT_DIRECT(fabs, float4 , IMPLEMENT_FABS_DIRECT)
++IMPLEMENT_DIRECT(fabs, float8 , IMPLEMENT_FABS_DIRECT)
++IMPLEMENT_DIRECT(fabs, float16, IMPLEMENT_FABS_DIRECT)
++#endif
++
++#ifdef __SSE2__
++IMPLEMENT_UPCAST(fabs, double  , double2, lo)
++IMPLEMENT_DIRECT(fabs, double2 , IMPLEMENT_FABS_SSE2_DOUBLE2)
++#  ifdef __AVX__
++IMPLEMENT_UPCAST(fabs, double3 , double4, s012)
++IMPLEMENT_DIRECT(fabs, double4 , IMPLEMENT_FABS_AVX_DOUBLE4)
++#  else
++IMPLEMENT_SPLIT (fabs, double3 , lo, s2)
++IMPLEMENT_SPLIT (fabs, double4 , lo, hi)

pocl

Merge lp:~schnetter/pocl/main into lp:~pocl/pocl/trunk

Commit message

Description of the change

Preview Diff

Subscribers