tyliu_stu_ecnu_edu_cn
/
oneAPI_course


								   // Patric Zhao, patric.zhao@intel.com


								   #include <CL/sycl.hpp>

								   #include <iostream>

								   using namespace sycl;


								   constexpr int64_t N = 10000000;


								   int main() {


								     // Enable queue profiling

								     queue my_gpu_queue(gpu_selector{});


								     std::cout << "Selected GPU device: " <<

								       my_gpu_queue.get_device().get_info<info::device::name>() << "\n";


								     int *cpu_out    = (int*)malloc(N * sizeof(int));

								     int *host_mem   = malloc_host<int>(N, my_gpu_queue);

								     int *device_mem = malloc_device<int>(N, my_gpu_queue);


								     // Init CPU data

								     for(int64_t i = 0; i < N; i++) {

								        host_mem[i] = i % 6666;

								        cpu_out[i] = i % 6666;

								     }


								     float duration_cpu = 0.0;

								     float duration_gpu = 0.0;

								     float duration_total = 0.0;


								     std::chrono::high_resolution_clock::time_point s_cpu, e_cpu;

								     std::chrono::high_resolution_clock::time_point s_gpu, e_gpu;

								     std::chrono::high_resolution_clock::time_point s_t, e_t;


								      // warmup

								     /*********************************************************************/

								      for(int64_t i = 0; i < N; i++) {

								         cpu_out[i] = cpu_out[i] * 2;

								      }


								      my_gpu_queue.memcpy(device_mem, host_mem, N * sizeof(int)).wait();

								      my_gpu_queue.submit([&](handler& h) {


								       // Parallel Computation

								       h.parallel_for(range{N}, [=](id<1> item) {

								         device_mem[item] *= 2;

								       });


								      });

								      my_gpu_queue.wait();

								     /*********************************************************************/


								     printf("\n Start CPU Computation, Number of Elems = %ld \n", N);


								     s_t = std::chrono::high_resolution_clock::now();


								     // GPU Computation

								     // submit the content to the queue for execution

								     s_gpu = std::chrono::high_resolution_clock::now();

								     auto event =  my_gpu_queue.submit([&](handler& h) {

								            // Parallel Computation

								            h.parallel_for(range{N}, [=](id<1> item) {

								            device_mem[item] *= 2;

								            });

								         });


								     // CPU computation

								     s_cpu = std::chrono::high_resolution_clock::now();

								     for(int64_t i = 0; i < N; i++) {

								         cpu_out[i] *= 2;

								     }

								     e_cpu = std::chrono::high_resolution_clock::now();


								     // Testing overlapping between CPU and GPU

								     // Delay the wait() after CPU computation

								     event.wait();

								     e_gpu = std::chrono::high_resolution_clock::now();


								     e_t = std::chrono::high_resolution_clock::now();


								     duration_cpu =  std::chrono::duration<float, std::milli>(e_cpu - s_cpu).count();

								     duration_gpu =  std::chrono::duration<float, std::milli>(e_gpu - s_gpu).count();

								     duration_total =  std::chrono::duration<float, std::milli>(e_t - s_t).count();


								     // Copy back from GPU to CPU

								     my_gpu_queue.memcpy(host_mem, device_mem, N * sizeof(int)).wait();


								     printf("\n CPU Computation,   Time = %lf \n", duration_cpu);

								     printf("\n GPU Computation,   Time = %lf \n", duration_gpu);

								     printf("\n Total Computation, TIme = %lf \n", duration_total);


								     free(cpu_out);

								     free(host_mem, my_gpu_queue);

								     free(device_mem, my_gpu_queue);


								     printf("\nTask Done!\n");


								     return 0;

								   }