Pertanyaan Wawancara Coding Ilmu Data

Melihat tren pasar kerja ilmu data dalam beberapa tahun terakhir, menjadi bukti bahwa ilmuwan data lebih dari sekadar analis data. Mereka juga memahami bagaimana mempelajari kumpulan data dapat menghasilkan keputusan penting yang dapat meningkatkan produk atau meningkatkan operasi bisnis. Awalnya, wawancara ilmu data memiliki komponen pengkodean yang terbatas. Namun, dalam beberapa tahun terakhir, wawancara ini telah menggambarkan peningkatan penekanan pada dasar-dasar ilmu komputer yang melibatkan sedikit pengkodean. Sebagian besar perusahaan yang mempekerjakan profesional untuk peran ilmuwan data saat ini memerlukan kredensial bahasa pemrograman seperti sertifikasi pemrograman Python atau R.

Ini karena data scientist sering harus berurusan dengan beberapa alat, teknik, dan lingkungan yang memerlukan semacam penyesuaian. Latar belakang pengkodean sangat berguna pada saat ini. Ini karena, tanpa pengkodean, mereka harus bergantung pada bantuan eksternal untuk tugas pengkodean dasar. Misalnya, ilmuwan data menggunakan kecerdasan buatan dan teknik pembelajaran mesin untuk menggambar prediksi akurat dari volume data yang sangat besar. Untuk mengoperasikan alat, model, dan perpustakaan pembelajaran mesin, latar belakang pengkodean menjadi penting bagi seorang ilmuwan data. Kedua, karena peran mereka sering melibatkan pengembang dan insinyur perangkat lunak, keterampilan pengkodean memungkinkan mereka untuk bekerja secara kolaboratif secara efektif dengan pemangku kepentingan lainnya.

Pertanyaan wawancara pengkodean Ilmu Data yang sering

Daftar kurasi pertanyaan wawancara pengkodean ilmu data berikut akan meningkatkan pemahaman kandidat tentang wawancara Ilmu Data, dengan beberapa penjelasan untuk menjamin mereka mendapatkan wawancara yang luar biasa.

·         Jelaskan parsing string dalam bahasa R

Kumpulan huruf dan kata gabungan dikenal sebagai string. Setiap kali Anda bekerja dengan teks, Anda harus dapat menggabungkan kata-kata (merangkainya) dan memisahkannya. Di R, Anda dapat menggunakan fungsi paste() untuk menggabungkan string dan fungsi strsplit() untuk memisahkan.

·         Dari poin yang diberikan, bagaimana Anda menghitung jarak Euclidean dengan Python?

Dalam Python, NumPy dan SciPy adalah modul untuk menemukan jarak Euclidean antara dua titik menggunakan fungsi distance.euclidean() atau math.dist() .

petak1 = [1,3]

plot2 = [2,5]

Jarak Euclidean mengacu pada jarak terpendek antara dua titik dalam dimensi tertentu. Ini diperoleh dengan menghitung akar kuadrat dari jumlah kuadrat selisih antara dua titik dan dihitung sebagai berikut:

euclidean_distance = sqrt( (plot1[0]-plot2[0])**2 + (plot1[1]-plot2[1])**2 )

·         Apa itu vektor fitur?

Dalam pembelajaran mesin dan pengenalan pola, sebagian besar fitur objek diberi representasi numerik untuk memungkinkan dilakukannya analisis statistik menggunakan algoritme pembelajaran mesin. Representasi numerik ini dikenal sebagai vektor fitur. Oleh karena itu, vektor fitur mengacu pada vektor n-dimensi di mana n mewakili jumlah dimensi yang diperlukan untuk mendeskripsikan objek.

1.     Apa itu model regresi logistik?

Model regresi logistik adalah algoritma yang digunakan dalam klasifikasi statistik untuk memprediksi nilai variabel data dependen biner dengan menganalisis hubungan antara satu atau lebih variabel independen

·         Bagaimana Anda bisa menghindari overfitting model Anda?

Overfitting adalah kesalahan pemodelan yang terjadi ketika model terlalu dekat dengan sekumpulan titik data yang terbatas sehingga mengambil noise dan sinyal untuk secara negatif membahayakan akurasi yang akan digunakan model untuk memprediksi data di masa mendatang. Untuk menghindari overfitting, teknik berikut dapat diterapkan.

  • Penyederhanaan model data . Menjaga model tetap sederhana dengan mempertimbangkan lebih sedikit variabel, sehingga menghilangkan beberapa gangguan dalam dataset pelatihan.
  • Validasi silang . Dalam hal ini, dataset pelatihan dibagi menjadi beberapa partisi, kemudian model dijalankan melalui setiap partisi dan error rata-rata dihitung. Misalnya teknik validasi silang k-fold.
  • Regularisasi . Teknik regularisasi seperti teknik LASSO yang menghukum parameter model tertentu jika cenderung menyebabkan overfitting.
  • augmentasi data . Menggunakan kumpulan data yang lebih besar membantu mengurangi overfitting. Namun, dalam situasi di mana memperoleh kumpulan data yang lebih besar tidak memungkinkan, menambah kumpulan data yaitu membuat kumpulan data baru secara artifisial dari kumpulan data yang ada.

·         Apakah metode penurunan gradien selalu menyatu ke titik yang sama?

Penurunan gradien adalah algoritme pengoptimalan yang digunakan untuk menemukan minimum lokal dari fungsi yang dapat dibedakan. Metode penurunan gradien tidak selalu menyatu ke titik yang sama. Ini karena dalam beberapa kasus, metode ini mencapai titik minimum atau optimal lokal sehingga tidak mencapai titik optimal global. Ini ditentukan oleh data dalam permainan serta kondisi awal.

·         Jelaskan secara singkat algoritma pohon keputusan

Ini adalah bentuk algoritme pembelajaran mesin yang diawasi, paling cocok untuk memecahkan masalah klasifikasi karena pengaturan strukturnya yang seperti pohon. Itu terbuat dari:

  • Simpul keputusan adalah simpul atau titik perantara yang dapat dipisahkan di mana keputusan harus dibuat. Mereka dibagi menjadi simpul akar dan cabang. Simpul akar mewakili titik awal pohon dan populasi yang akan dianalisis, sedangkan cabang mewakili keputusan alternatif yang mungkin, masing-masing dengan konsekuensinya.
  • Node daun mewakili hasil akhir dari keputusan yang diambil di mana semua label titik data bersifat homogen dan tidak ada pemisahan node lebih lanjut yang dimungkinkan

1.     Apa itu pemangkasan dan apa signifikansinya dalam algoritma pohon keputusan?

Teknik pemangkasan digunakan dalam algoritme pohon keputusan untuk mengurangi ukuran dan kompleksitasnya dengan menghilangkan redundan atau tidak penting untuk klasifikasi instance. Ini meningkatkan akurasi kinerja prediktif dari pohon keputusan.

·         Beri nama algoritma pengurutan data yang tersedia dalam bahasa R

Ada lima cara dasar atau algoritme di mana data dapat diurutkan dalam R. Mereka meliputi:

  • Semacam gelembung
  • Sortir penyisipan
  • Sortir seleksi
  • Menggabungkan mengurutkan
  • Sortir cepat

·         Tulis algoritma pengurutan untuk kumpulan data numerik dengan Python

def sort (daftar saya):

n = len(daftarsaya)

untuk saya dalam rentang (n):

untuk j dalam rentang (0, ni-1):

jika daftarku[j] > daftarku[j+1]:

daftarku[j], daftarku[j+1] = daftarku[j+1], daftarku[j]

cetak(daftarsaya)

urutkan([80, 55, 70])

·         Apa output yang benar untuk urutan operasi berikut pada struktur data tumpukan?

dorong(5)

dorong(8)

pop

dorong(2)

dorong(5)

pop

pop

pop

dorong(1)

pop

Jawaban: Berdasarkan fakta bahwa struktur data stack mengikuti prinsip last-in-first-out, maka outputnya menjadi 8 5 2 5 1.

·         Bagaimana Anda memastikan bahwa model yang Anda latih tidak menurun seiring waktu?

Degradasi model mengacu pada penurunan kinerja prediksi model ketika diterapkan selama beberapa waktu pada kumpulan data baru di lingkungan yang terus berubah. Untuk alasan ini, penting untuk terus mengevaluasi dan melatih ulang model pada kumpulan data baru agar tetap diperbarui.

Kesimpulan

Wawancara koding, seperti wawancara teknis lainnya,
membutuhkan persiapan yang sistematis dan efektif. Mudah-mudahan, pertanyaan-pertanyaan ini memberi Anda beberapa wawasan tentang apa yang diharapkan dalam wawancara pengkodean untuk posisi terkait DS dan bagaimana mempersiapkannya. Ingatlah bahwa mengasah keterampilan pengkodean Anda sangat bermanfaat tidak hanya untuk mendapatkan pekerjaan impian Anda, tetapi juga untuk unggul dalam hal itu.

Related Posts