Ketika saya menggunakan kata. . . . Data—penggunaan dan kepemilikan

Jeffrey K AronsonPusat Kedokteran Berbasis Bukti, Departemen Nuffield Ilmu Kesehatan Perawatan Primer, Universitas Oxford, Oxford OX2, UKTwitter @JKAronson

Etimologi, tata bahasa, dan penggunaan semua mendukung pandangan bahwa “data” tidak hanya kata benda jamak tetapi juga harus digunakan seperti itu dalam banyak kasus. Namun, mungkin di bawah pengaruh cara penggunaannya di media berita, penggunaan umum beralih ke penggunaan tunggal. Namun demikian, mengenai “data” sebagai kata benda jamak juga menginformasikan pertanyaan yang lebih sulit tentang siapa yang memiliki data (item individual) atau database (koleksi). Ini menunjukkan bahwa setiap individu memiliki miliknya sendiri [plural] data, ketika data ada sebagai potongan informasi terpisah tentang individu—menggunakan kata “informasi” dalam arti umum, non-teknis, di luar penggunaannya dalam ilmu komputer. Namun, tidak ada individu atau institusi yang memiliki koleksi data yang dianonimkan dalam database atau bank data, meskipun mereka yang mengumpulkan data atau membayar untuk mengumpulkannya mungkin memiliki klaim preferensial yang sah. Namun demikian masuk akal untuk berharap bahwa koleksi data harus dibagikan dan secara komunal setiap orang memilikinya, sambil menghormati anonimitas individu yang datanya diwakili.

Data—tunggal atau jamak?

Setelah menggunakan etimologi dan tata bahasa untuk menyelesaikan pertanyaan tentang singularitas atau pluralitas kata “data” (tampaknya berayun dua arah, meskipun biasanya jamak1), kita dapat menambah bukti dengan menentukan bagaimana orang menggunakan kata tersebut dalam praktik. Dalam melakukannya, kita mengingat diktum Ludwig Wittgenstein bahwa “Untuk sejumlah besar kasus—walaupun tidak untuk semua—di mana kita menggunakan kata ‘makna’, dapat didefinisikan sebagai berikut: arti sebuah kata adalah penggunaannya dalam bahasa. .”2 Atau, seperti yang lebih sederhana diungkapkan oleh Humpty Dumpty karya Lewis Carroll, “Ketika saya menggunakan sebuah kata, itu berarti apa yang saya maksudkan—tidak lebih dan tidak kurang.”

Untuk menyelidiki penggunaan kata “data”, saya mulai dengan menelusuri PubMed untuk contoh “data adalah” dibandingkan dengan “data adalah” dan untuk contoh “data ini” dibandingkan dengan “data ini” dari tahun 1960 hingga 2022. Berikut adalah hasilnya, dekade demi dekade:

● 1960-an: 90–100% jamak;

● 1970-an: 90–94% jamak;

● 1980-an: 95–96% jamak;

● 1990-an: 95–96% jamak;

● 2000-an: 91–95% jamak;

● 2010-an: 85–91% jamak;

● Tiga tahun terakhir: 82–91% jamak;

Dengan demikian, bentuk jamak sangat banyak digunakan dalam literatur biosains yang diindeks di PubMed, dan meskipun ada sedikit pergeseran ke arah penggunaan bentuk tunggal dalam beberapa tahun terakhir, bentuk jamak masih banyak digunakan daripada bentuk tunggal. Tidak ada variasi yang signifikan dari satu negara ke negara lain. Di negara-negara berbahasa Inggris, persentase makalah yang menggunakan bentuk jamak adalah 85–93% dan di seluruh dunia 77–94%.

Namun, hasil gabungan menyembunyikan variasi dalam data dan fakta bahwa disiplin Anda sebagian menentukan penggunaan Anda. Saya mencari alamat di database untuk berbagai disiplin ilmu (misalnya, Departemen Komputasi atau Ilmu Komputasi dll). Ini menunjukkan bahwa mereka yang berada di bidang statistik/matematika/komputasi lebih cenderung menggunakan “data” tunggal daripada ilmuwan praklinis, dokter, dan ahli epidemiologi. Ketika setiap istilah sapaan digunakan untuk mengesampingkan semua yang lain (yaitu menghilangkan makalah yang mewakili kombinasi disiplin ilmu), hasil persentasenya persis sama. Ketika salah satu dari definisi statistik/matematika/komputasi digabungkan dengan yang lain, penggunaan jamak dikurangi menjadi 79%, menunjukkan pengaruh modifikasi dari kelompok sebelumnya pada yang terakhir.

Begitu banyak untuk komunitas ilmiah. Bagaimana dengan orang lain? Untuk mengetahui bagaimana orang lain menggunakan kata tersebut, saya mencari di dua database lain, Hansard (1980–2005) dan British National Corpus (1980-an–1993). Korpus Hansard kembali ke 1803 dan berisi catatan hampir setiap pidato yang diberikan di parlemen Inggris di Westminster, 1,6 miliar kata secara keseluruhan. British National Corpus (BNC) berisi 100 juta kata teks dari berbagai sumber bahasa Inggris British, termasuk kata yang diucapkan, fiksi, majalah, surat kabar, dan teks akademik umum. Bentuk jamak dari “data” digunakan di sekitar 70% kasus di Parlemen dan di sekitar 58% kasus dalam penggunaan umum, sebagaimana direfleksikan oleh BNC. Dalam kasus Hansard tidak ada perubahan waktu sejak tahun 1980-an, yang sebelumnya terlalu sedikit contoh untuk membuat kesimpulan tegas. Analisis terkait waktu tidak tersedia untuk BNC yang jauh lebih kecil.

Bandingkan hasil ini dengan kata lain yang bentuk jamaknya sering disalahartikan sebagai tunggal, seperti “fenomena” dan “kriteria”. Yang pertama diakui sebagai bentuk jamak baik dalam bahasa umum (dalam BNC 81%) dan di parlemen (77%), seperti yang terakhir (masing-masing 85% dan 91%). Bentuk “fenomena adalah” dan “kriteria adalah” jarang. Dengan demikian, sangat sedikit yang tidak mengenal bentuk tunggal “fenomena” dan “kriteria”, dan sebagian besar yang mengakui bentuk jamak yang bersesuaian.

Dalam mencapai kesimpulan, seseorang harus mengingat frekuensi penggunaan kata-kata ini secara umum. Hanya ada 59 contoh “datum” bentuk tunggal di BNC, dibandingkan dengan 17.808 contoh “data”. Jumlah contoh gabungan “kriteria” dan “fenomena” adalah 3453 dan bentuk jamaknya 5172. Hal ini memperkuat poin yang telah saya buat sebelumnya,1 bahwa karena “datum” jarang digunakan, “data” bebas berkeliaran. ruang tunggal/jamak dengan cara yang bukan “fenomena” dan “kriteria”.

Surat kabar dan panduan gaya mereka

Sekarang kami memiliki analisis masalah yang kurang lebih lengkap. Etimologi, tata bahasa, dan penggunaan, baik dalam teks teknis maupun bahasa sehari-hari, semuanya menegaskan bahwa “data” adalah jamak dan lebih sering digunakan sebagai jamak, bahkan oleh mereka yang beberapa di antaranya memiliki keyakinan kuat bahwa data itu tunggal ( yaitu ilmuwan komputer).

Namun, terlepas dari hasil yang diuraikan di atas, saya mendapat kesan bahwa dalam beberapa tahun terakhir telah terjadi pergeseran ke arah bentuk tunggal dalam bahasa sehari-hari. Saya bertanya-tanya apakah itu dapat dikaitkan dengan penggunaan di media berita. Untuk menguji hipotesis ini, saya memutuskan untuk mencari Korpus SEKARANG (Berita di Web) (2010–tanggal), yang berisi 16,9 miliar kata, tumbuh hingga 200 juta kata setiap bulan. Menggabungkan “data” dan “data ini” menghasilkan 83.971 klik, dan menggabungkan “data” dan “data ini” menghasilkan 287.822 klik (77%). Jadi penggunaan di media berita mungkin mendorong penggunaan “data” sebagai kata benda tunggal dalam bahasa sehari-hari.

Hal ini sejalan dengan berita terkini bahwa The Financial Times telah menginformasikan kepada kontributornya bahwa panduan gayanya telah berubah dan mulai sekarang akan selalu menggunakan bentuk tunggal.

Jadi, bagaimana dengan panduan gaya lainnya? Inilah yang mereka katakan:

● The Economist “Tidak bisa cukup ditekankan bahwa ini adalah jamak (tunggal, datum), meskipun penggunaannya hampir universal sebagai kata benda tunggal. Jangan takut dengan mayoritas.”

● The Times dan The Sunday Times “[“Data” is] sangat jamak, dan masih diperlakukan seperti itu oleh misalnya ilmuwan, yang preferensinya dapat dihormati bila diperlukan. Namun, penggunaan umum, yang secara keseluruhan mungkin juga kita ikuti, sekarang cenderung untuk diobati [it] sebagai kata benda massal dengan kata kerja tunggal.

● Penjaga “[“Data,”] meskipun sangat jamak, mengambil kata kerja tunggal (seperti agenda): datanya jelas, dll; tidak ada yang pernah menggunakan agenda atau datum.

The Economist memahaminya dengan tepat. The Times dan The Sunday Times memulai dengan baik tetapi kemudian berkata “apa-apaan, sebaiknya kita mengikuti arus,” meskipun tampaknya merekalah, di antara surat kabar lain, yang membuatnya seperti itu. Dan The Guardian benar-benar salah—seperti yang telah saya tunjukkan sebelumnya,1 “data” tidak boleh dianggap sama dengan “agenda”, dan fakta bahwa “agenda” digunakan sebagai kata benda tunggal tidak berarti bahwa “data” harus digunakan dengan cara yang sama.

Siapa pemilik datanya?

Jawaban atas pertanyaan yang tampaknya kecil tentang apakah “data” itu tunggal atau jamak sebenarnya menginformasikan jawaban atas pertanyaan yang jauh lebih penting dan sulit: siapa yang memiliki data (item individual) atau basis data (koleksi)?

Pertimbangkan kumpulan data individu yang dikumpulkan selama uji klinis atau data dalam rekam medis pasien—usia, tinggi badan, berat badan, jenis kelamin, jenis kelamin, dan sebagainya. Itu, saya sarankan, milik pasien dan bukan milik orang lain. Itulah mengapa anonimisasi kumpulan data individual dalam kumpulan data adalah penting. Tidak ada individu yang memiliki kumpulan data orang lain, hanya milik mereka sendiri. Namun, tersirat dalam pengumpulan data semacam itu sehingga kolektor juga memiliki minat dalam pengumpulan tersebut. Misalnya, sudah sepantasnya seorang dokter umum atau dokter yang merawat pasien selama di rumah sakit harus dimintai izin untuk memberikan catatan pasien kepada pasien, karena catatan tersebut akan berisi materi, selain informasi tentang pasien. , relevan dengan dokter; umumnya diharapkan bahwa izin tersebut akan segera diberikan, kecuali jika ada alasan yang sangat bagus sebaliknya. Hal yang sama mungkin berlaku ketika diminta untuk merilis rekaman tersebut kepada orang lain; dalam hal ini, izin dari pasien dan dokter akan diperlukan. Pasien yang mengajukan tuntutan hukum terhadap profesional kesehatan harus berharap bahwa data mereka akan tersedia untuk pihak oposisi di bawah praktik hukum umum.

Tetapi siapa yang memiliki koleksi semua data yang dianonimkan? Mereka yang tampaknya memiliki klaim kepemilikan termasuk mereka yang telah mengumpulkannya (dokter umum atau dokter rumah sakit, pencoba dalam uji klinis, atau mereka yang menjadi penerima laporan kasus individu, misalnya, badan pengawas yang mengumpulkan laporan dugaan reaksi merugikan) dan mereka yang telah mendanai studi. Yang pertama mungkin termasuk penyelidik utama, penyelidik bersama, anggota komite pemantauan data independen, dan peneliti lainnya. Yang terakhir mungkin, misalnya, perusahaan obat, lembaga filantropi, atau organisasi pemberi hibah pemerintah atau amal. Tentu saja, hak yang mungkin dimiliki oleh organisasi semacam itu akan diimbangi dengan kewajiban timbal balik untuk menjaga data dengan baik—bukan, misalnya, mengungkapkannya kepada orang lain tanpa izin dari pemilik individu dan tanpa berhati-hati untuk melindungi anonimitas.

Pertanyaan tentang siapa yang mendapat untung terkait erat dengan pertanyaan ini. Dapat dikatakan bahwa individu yang data atau sumber dayanya digunakan untuk keuntungan memiliki hak atas penggunaan tersebut. Ini diperdebatkan dalam kasus kelompok obat antikanker yang disebut taxanes setelah ditemukan di kulit pohon yew Pasifik. Simpul Gordian tertentu itu dipotong ketika turunannya disintesis, menghilangkan kebutuhan untuk memanen pohon.

Analisis linguistik mendukung pluralitas “data” menunjukkan bahwa data harus dianggap sebagai bit informasi individu yang relevan dengan individu yang berbeda, tetapi memungkinkan kumpulan data tersebut dianggap sebagai objek tunggal. Jadi, secara ringkas, jawaban saya atas pertanyaan tentang siapa yang memiliki data adalah bahwa setiap individu memiliki miliknya sendiri. Jawaban saya atas pertanyaan tentang siapa yang memiliki koleksi data yang dianonimkan adalah bahwa tidak ada individu atau institusi yang memilikinya, meskipun mereka yang mengumpulkan data atau membayar untuk mengumpulkannya mungkin memiliki klaim yang sah. Namun, pada hari-hari transparansi ini, sama-sama dapat dibenarkan untuk mengambil pandangan bahwa kumpulan data harus dibagikan dan secara komunal semua orang memilikinya. Setelah mengumpulkan data, saya memiliki kewajiban sosial untuk menyediakannya secara umum, tetapi saya menghormati otonomi pasien dengan memastikan bahwa data tersebut dianonimkan.