tyliu_stu_ecnu_edu_cn
/
oneAPI_course


								   // Patric Zhao:  patric.zhao@intel.com


								   #include <CL/sycl.hpp>

								   #include <iostream>

								   using namespace sycl;


								   constexpr int64_t N = 10000000;


								   int main() {


								     // Enable queue profiling

								     auto propList = cl::sycl::property_list {cl::sycl::property::queue::enable_profiling()};

								     queue my_gpu_queue(gpu_selector{}, propList);


								     std::cout << "Selected GPU device: " <<

								       my_gpu_queue.get_device().get_info<info::device::name>() << "\n";


								     int *host_mem   = malloc_host<int>(N, my_gpu_queue);

								     int *cpu_mem   = malloc_host<int>(N, my_gpu_queue);

								     int *device_mem = malloc_device<int>(N, my_gpu_queue);


								     // Init CPU data

								     for(int64_t i = 0; i < N; i++) {

								        host_mem[i] = i % 6666;

								     }


								     float duration_cpu = 0.0;

								     float duration_gpu_a = 0.0;

								     float duration_gpu_b = 0.0;

								     float duration_gpu_c = 0.0;


								     std::chrono::high_resolution_clock::time_point s, e;

								     std::chrono::high_resolution_clock::time_point s_a, e_a;

								     std::chrono::high_resolution_clock::time_point s_b, e_b;

								     std::chrono::high_resolution_clock::time_point s_c, e_c;


								     // CPU computation

								     printf("\n Start CPU Computation, Number of Elems = %ld \n", N);


								     s = std::chrono::high_resolution_clock::now();

								     // CPU code here

								     for(int64_t i = 0; i < N; i++) {

								         cpu_mem[i] = host_mem[i] * 2;

								     }

								     e = std::chrono::high_resolution_clock::now();

								     duration_cpu =  std::chrono::duration<float, std::milli>(e - s).count();

								     printf("\n End CPU Computation, Time = %lf \n", duration_cpu);


								     // warmup

								     /*********************************************************************/

								      my_gpu_queue.memcpy(device_mem, host_mem, N * sizeof(int)).wait();

								      my_gpu_queue.submit([&](handler& h) {


								       // Parallel Computation

								       h.parallel_for(range{N}, [=](id<1> item) {

								         device_mem[item] *= 2;

								       });


								      });

								      my_gpu_queue.wait();

								     /*********************************************************************/


								     s_c = std::chrono::high_resolution_clock::now();

								     // Copy from host(CPU) to device(GPU)

								     my_gpu_queue.memcpy(device_mem, host_mem, N * sizeof(int)).wait();


								     s_b = std::chrono::high_resolution_clock::now();

								     s_a = std::chrono::high_resolution_clock::now();

								     // submit the content to the queue for execution

								     auto event = my_gpu_queue.submit([&](handler& h) {


								       // Parallel Computation

								       h.parallel_for(range{N}, [=](id<1> item) {

								         device_mem[item] *= 2;

								       });


								     });

								     // wait the computation done

								     my_gpu_queue.wait();

								     e_b = std::chrono::high_resolution_clock::now();

								     duration_gpu_b =  std::chrono::duration<float, std::milli>(e_b - s_b).count();


								     duration_gpu_a =

								      (event.get_profiling_info<info::event_profiling::command_end>() -

								      event.get_profiling_info<info::event_profiling::command_start>()) /1000.0f/1000.0f;


								     // Copy back from GPU to CPU

								     my_gpu_queue.memcpy(host_mem, device_mem, N * sizeof(int)).wait();

								     e_c = std::chrono::high_resolution_clock::now();

								     duration_gpu_c =  std::chrono::duration<float, std::milli>(e_c - s_c).count();


								     printf("\n GPU Computation, GPU Time A = %lf \n", duration_gpu_a);

								     printf("\n GPU Computation, GPU Time B = %lf \n", duration_gpu_b);

								     printf("\n GPU Computation, GPU Time C = %lf \n", duration_gpu_c);


								     printf("\nTask Done!\n");


								     return 0;

								   }