Menyiapkan Data Organisasi untuk digunakan dengan AI

Solusi Kecerdasan Buatan Memerlukan Data Berkualitas Tinggi

Anthony Quattrone, PhD 1 Mei 2022

Data organisasional ditangkap dan disimpan dalam berbagai format, mulai dari spreadsheet hingga dokumen word, basis data relasional dan file teks. Pemanfaatan data organisasional melibatkan serangkaian langkah pra-pemrosesan untuk membuatnya cocok untuk digunakan dalam sistem kecerdasan bisnis untuk pelaporan dan analitik. Sistem AI memerlukan dataset yang sangat terspesialisasi untuk pelatihan guna memastikan tingkat spesialisasi yang tinggi.

Persiapan data organisasi untuk digunakan dalam sistem kecerdasan buatan memerlukan banyak proses Extract-Transform-Load (ETL) yang kompleks untuk menghasilkan dataset pelatihan sebelum dimasukkan ke dalam AI. Kerangka regulasi banyak organisasi menyiratkan bahwa hukum dan peraturan privasi harus dipatuhi sebelum ekstraksi dapat dilakukan. Selain itu, proses penyimpanan yang ketat harus mematuhi aturan setelah ekstraksi selesai untuk memastikan bahwa data disimpan dan digunakan dengan aman.

Ada sejumlah besar data dalam lingkungan organisasi saat ini, beberapa di antaranya tidak terstruktur dalam format yang mudah digunakan. Ada juga tantangan teknis dalam memproses informasi ini. Kompleksitas persiapan data meningkat ketika data tidak statis dan terus berubah secara real-time, serta membutuhkan proses dinamis.

Kami akan mengeksplorasi pertimbangan data utama di bagian-bagian berikut.

Sumber Data Organisasi Umum

Data disimpan dalam berbagai format dan mencakup banyak dimensi, dari data keuangan hingga informasi spasial. Data yang ditangkap dalam suite produktivitas kantor seperti Microsoft Office dan sistem sumber internal yang sesuai untuk tujuan tertentu tidak cocok untuk digunakan langsung dalam sistem kecerdasan buatan.

Berikut mencantumkan sumber data yang familiar; daftar ini sama sekali tidak lengkap:

  • Data Keuangan untuk Sistem Akuntansi ERP (Oracle, SAP)
  • Data Spasial dari Sistem GIS (ESRI ArcGIS)
  • Spreadsheet dari Alat Produktivitas Perkantoran (Microsoft Excel, Microsoft Access)
  • Basis data SQL khusus yang digunakan di balik sistem sumber (Microsoft SQL, MySQL, Oracle, SAP)
  • Basis data flat file yang diambil dalam sistem lama (IBM Mainframes, file terindeks)

Sistem yang berbeda dapat menyimpan data dalam berbagai format. Kumpulan data memerlukan penggabungan; hal ini menimbulkan tantangan ketika ada beberapa sistem. Umum bagi analis data untuk memasukkan informasi secara manual menggunakan spreadsheet. Tren saat ini adalah memasukkan data ke dalam data lake, sehingga insinyur data dapat bekerja dengannya tanpa harus berinteraksi langsung dengan sistem kritis. Dengan demikian, diperlukan transformasi data untuk mencapai tujuan.

Sistem Kecerdasan Buatan dapat memanfaatkan data ini dengan sangat baik. Namun, hanya ketika data tersebut pertama kali diproses dalam format yang sesuai untuk dimasukkan ke dalam sistem tersebut, di sinilah data lake dan data warehouse menjadi sangat penting dalam menghasilkan dataset berkualitas tinggi.

Kecerdasan Buatan dan kaitannya dengan proses Extract-Transform-Load (ETL)

Proses ETL tradisional kemungkinan tidak akan berubah seiring kecerdasan buatan menjadi lebih menonjol. Lebih mungkin teknik tersebut akan diubah targetnya untuk menghasilkan dataset yang kondusif untuk pembelajaran yang bekerja baik dengan sistem AI. Contohnya adalah mengambil foto objek dan memberi label dengan asosiasi untuk memungkinkan sistem AI belajar.

Ada peluang besar yang tersedia bagi ilmuwan data dan insinyur data untuk menggunakan keterampilan persiapan data mereka untuk membangun dataset bagi sistem kecerdasan buatan. Penting bahwa proses ETL diotomatisasi dan tidak mengandalkan proses manual untuk mendapatkan efisiensi maksimal dari sistem kecerdasan buatan real-time.

Data Lakes dan Data Warehouses sebagai Sumber Kebenaran Tunggal untuk digunakan dalam Kecerdasan Buatan

Data mentah yang disimpan di berbagai sistem menghasilkan fragmentasi. Untuk mengatasi hal ini, diinginkan untuk menyalurkan semua data ke satu lokasi, seperti database relasional yang memungkinkan kueri dan manipulasi data. Setelah semua data disimpan di satu area, data tersebut dapat lebih mudah diakses dan dikerjakan untuk menghasilkan dataset yang memberikan informasi berharga. Sangat penting untuk menentukan satu sumber kebenaran.

Data Warehouse kemudian dapat didefinisikan menggunakan standar seperti Kimball atau Inmon untuk membuat dimensi yang menentukan fakta atau ukuran. Fakta biasanya merupakan data kategoris, sedangkan ukuran biasanya merupakan data numerik dalam pemahaman umum. Memproses data menggunakan standar tersebut menawarkan manfaat yang signifikan dalam memastikan efisiensi dan akurasi.

Mungkin keuntungan paling signifikan bagi organisasi yang telah berinvestasi dalam memiliki gudang data yang baik adalah bahwa hal itu membuka kumpulan data organisasi kepada organisasi yang lebih luas. Mengingat organisasi besar, sebagian besar karyawan tidak memiliki akses ke sistem sumber penting yang menjalankan bisnis; namun, mereka memiliki akses ke gudang data, biasanya hanya-baca. Gudang data memungkinkan karyawan untuk mengidentifikasi wawasan yang mungkin tidak umum diketahui oleh struktur manajemen organisasi.

Pembuatan gudang data memastikan bahwa pertimbangan privasi dan regulasi didefinisikan. Gudang data membantu memastikan bahwa data ditransfer secara aman antara pemangku kepentingan. Akses ke danau data dan gudang data juga dapat meningkatkan transparansi dan akuntabilitas bagaimana fungsi organisasi dilaksanakan, memungkinkan prosedur operasi yang lebih stabil.

Visualisasi Big Data Organisasi

Tantangan big data adalah bagaimana cara terbaik untuk melihatnya dan menyampaikan cerita yang dikisahkannya. Pendekatan sebelumnya termasuk layanan pelaporan yang menggabungkan data dari tingkat yang lebih rendah ke tingkat yang lebih tinggi untuk ditampilkan dalam bagan standar seperti bagan batang, bagan garis, dan plot pencar. Pendekatan ini cocok untuk laporan manajemen (mis. laporan penjualan, laporan akun) yang merupakan bagian dari operasi bisnis sehari-hari. Microsoft SSRS adalah alat yang paling umum digunakan untuk pelaporan di seluruh perusahaan.

Program visualisasi tingkat lanjut muncul untuk mengatasi kesenjangan ini, dengan Tableau dan QlikView mendominasi pasar. Tableau sangat fokus pada visualisasi yang memukau, sementara QlikView berhasil menyeimbangkan layanan pelaporan tradisional seperti Microsoft SSRS dan Tableau. Microsoft PowerBI telah mendominasi pasar dan dianggap lebih kompleks oleh Gartner. Program-program ini membuat dasbor yang sangat berguna untuk memantau berbagai metrik kunci dan mengintegrasikan pemantauan tersebut sebagai bagian dari proses organisasi yang komprehensif. Pengambil keputusan strategis baru-baru ini membuat dasbor yang hebat untuk mengambil keputusan berbasis data, sementara manajer operasi dapat merespons lebih cepat untuk mencapai tujuan perusahaan.

Dengan munculnya AI, visualisasi akan memainkan peran penting. Wawasan yang dihasilkan oleh sistem Kecerdasan Buatan bersifat kompleks, dan perlu dikomunikasikan dalam representasi visual yang mudah dipahami oleh orang. Contoh yang sangat baik dari hal ini adalah menyajikan peta self-organising (SOM) untuk melihat data multivariat.

Penggabungan Data untuk Dimasukkan ke dalam Sistem Kecerdasan Buatan

Dengan akses ke dataset, kemudian dimungkinkan untuk mengambil data dari basis data relasional dan menyediakan konektor ke sistem kecerdasan buatan. Sebagian besar sistem AI modern dibangun menggunakan Python dan mengandalkan modul yang biasanya diimplementasikan dalam C/C++ untuk memastikan efisiensi.

Karena Python saat ini adalah alat utama untuk berinteraksi dengan AI, serangkaian konektor data yang lengkap tersedia untuk berbagai jenis basis data untuk mengakses data. Selanjutnya, Python sangat cocok untuk manipulasi data dan lebih lanjut memperluas fungsionalitas native dengan pustaka yang lengkap seperti NumPy dan Pandas untuk lebih membantu memproses data awal yang dimasukkan ke dalam sistem AI tertentu. Kerangka kerja saat ini sangat ketat terkait format data yang diterima. Kerangka kerja data yang diketik secara statis dapat membantu hal ini. Pemrosesan GPU memerlukan tipe data tertentu, yang kemungkinan besar tidak akan berubah. Dengan demikian, pertimbangan tipe data harus dilakukan sebelumnya.

Sistem Kecerdasan Buatan di bidang AI sempit memiliki persyaratan data spesifik, dan sangatlah berharga untuk meluangkan waktu mempertimbangkan hal ini selama tahap perencanaan pembuatan dataset yang akan digunakan dalam sistem tersebut.

Menangkap, Menyimpan, dan Menafsirkan Hasil Kecerdasan Buatan

Sistem Kecerdasan Buatan, berdasarkan masukan yang diberikan, akibatnya akan menghasilkan keluaran yang perlu disimpan. Lebih menarik lagi, hasilnya dapat dimasukkan kembali ke dalam data lake/data warehouse dan melanjutkan proses penghasilan wawasan karena wawasan dapat menghasilkan wawasan lebih lanjut. Pengelolaan bagaimana keluaran disimpan perlu dipertimbangkan dengan cermat dalam kerangka kerja tata kelola data yang lebih besar.

Mengingat bahwa sistem kecerdasan buatan memproses kuantitas informasi yang sangat besar, kemungkinan besar akan menemukan wawasan kontra-intuitif yang biasanya dilewatkan oleh manusia. Biasanya wawasan inilah yang menghasilkan keunggulan kompetitif yang paling signifikan. Dengan demikian, organisasi tidak akan punya pilihan selain berurusan dengan sistem ini sebagai sarana untuk tetap kompetitif.

Interpretasi hasil kecerdasan buatan akan memerlukan pertimbangan yang cermat. Sama seperti penelitian saat ini, ada kemungkinan bahwa hal tersebut akan disalahtafsirkan. Oleh karena itu, analis data harus menelusuri semua titik data dan menelusuri kembali mengapa sistem AI telah menghasilkan temuan tertentu atau berisiko bertindak keliru berdasarkan wawasan. Penggunaan alat visualisasi data seperti yang dijelaskan di atas dapat diterapkan pada hasil yang dihasilkan oleh AI.

Memasuki dekade mendatang, organisasi akan mulai bergantung pada informasi yang dihasilkan oleh sistem AI dan bagaimana data yang mendasari sistem ini dikelola dan diimplementasikan akan menjadi sangat penting.

Hubungi kami hari ini untuk konsultasi gratis tentang bagaimana Telemus AI™ dapat diintegrasikan ke dalam organisasi Anda.