Gabungkan Beberapa Dataset Di Stata Forex


Stata untuk Peneliti: Menggabungkan Kumpulan Data Ini adalah bagian ke delapan dari seri Stata for Researchers. Untuk daftar topik yang tercakup dalam seri ini, lihat Pendahuluan. Jika Anda baru mengenal Stata, kami sangat merekomendasikan membaca artikel secara berurutan. Menggabungkan dua kumpulan data adalah tugas manajemen data yang umum, dan satu hal yang sangat mudah dilakukan. Namun, juga sangat mudah salah. Sebelum menggabungkan kumpulan data pastikan Anda memahami struktur kumpulan data dan logika cara Anda menggabungkannya. Jika tidak, Anda bisa mendapatkan data set yang menurut Anda siap untuk dianalisis, tapi benar-benar omong kosong belaka. Stata mencoba untuk memastikan bahwa Anda telah memikirkan apa yang Anda lakukan, tapi tidak dapat memberi tahu Anda apa yang masuk akal dan apa yang tidak. Stata selalu bekerja dengan satu kumpulan data sekaligus, jadi Anda akan selalu menggabungkan kumpulan data di memori (kumpulan data master) dengan kumpulan data lain pada disk (disebut kumpulan data yang digunakan, untuk alasan yang akan jelas saat Anda melihat Sintaksnya). Menambahkan Data Set Stata menyebutnya menambahkan ketika Anda menambahkan pengamatan dari penggunaan kumpulan data ke kumpulan data master. Menambahkan masuk akal saat pengamatan di kedua kumpulan data mewakili hal yang sama, tapi bukan hal yang sama. Misalnya, Anda mungkin menambahkan kumpulan data orang dari Wisconsin ke kumpulan data orang-orang dari Illinois. Kumpulan data harus memiliki variabel yang sama atau kebanyakan sama, dengan nama yang sama. Jika sebuah variabel hanya muncul dalam satu kumpulan data, pengamatan dari kumpulan data lainnya akan diberikan nilai yang hilang untuk variabel tersebut. Sintaksnya adalah untuk melakukan penambahan sederhana: muat kumpulan data master dan ketik: tambahkan menggunakan dataset dimana dataset adalah nama kumpulan data yang ingin Anda tambahkan. Penggabungan Kumpulan Data Stata menyebutnya penggabungan saat pengamatan dari dua kumpulan data digabungkan. Ada empat teori penggabungan: Dalam penggabungan satu lawan satu, satu pengamatan dari kumpulan data master digabungkan dengan satu pengamatan dari kumpulan data yang digunakan. Gabungan satu lawan satu masuk akal saat pengamatan di kedua kumpulan data menggambarkan hal yang sama, namun memiliki informasi yang berbeda tentang mereka. Misalnya, Anda bisa menggabungkan jawaban yang diberikan orang dalam satu survei dengan jawaban yang diberikan oleh orang yang sama dalam dua survei. Dalam gabungan satu-ke-banyak atau banyak-ke-satu, satu pengamatan dari satu kumpulan data dikombinasikan dengan banyak pengamatan dari yang lain (perbedaan antara satu-ke-banyak dan banyak-ke-satu, apakah kumpulan data master Memiliki kuota kuota atau kumpulan data yang digunakan). Penggabungan ini masuk akal bila Anda memiliki data hierarkis, dan satu kumpulan data berisi informasi tentang level satu unit sementara yang lainnya berisi informasi tentang level dua unit. Misalnya, Anda bisa menggabungkan informasi tentang rumah tangga dengan informasi tentang individu yang tinggal di rumah tangga tersebut. Pada prinsipnya ada juga banyak penggabungan banyak. Dalam prakteknya mereka jarang sekali berguna. Jika Anda merasa ingin melakukan penggabungan banyak-ke-banyak, Anda harus memikirkan kembali apa yang Anda lakukan. Seringkali yang benar-benar perlu Anda lakukan adalah mengidentifikasi dan memperbaiki pengenal duplikat, dan kemudian penggabungan Anda akan bekerja sebagai satu lawan satu atau satu-ke-banyak. Dalam semua gabungan baik dibahas, Stata menggabungkan pengamatan yang memiliki nilai variabel kunci yang sama, biasanya sebuah ID. Anda juga dapat mencocokkan berdasarkan beberapa variabel (misalnya menggabungkan data untuk negara dan tahun yang sama). Dalam gabungan satu-ke-banyak atau banyak-ke-satu, ini adalah pengenal untuk tingkat dua unit yang merupakan variabel kunci (misalnya ID rumah tangga, bukan ID individual). Yang sangat penting bahwa variabel kunci memiliki format yang sama di kedua kumpulan data. Jika pengamatan dalam satu kumpulan data tidak sesuai dengan pengamatan di sisi lain, akan diberikan nilai yang hilang untuk variabel dari kumpulan data lainnya. Karena kelayakan sebuah proyek penelitian sering kali bergantung pada seberapa banyak pengamatan yang benar-benar digabungkan (misalnya, berapa banyak orang dari satu gelombang survei dapat ditemukan dalam gelombang dua) Stata memberi Anda alat untuk mencari tahu berapa banyak pengamatan yang benar-benar digabungkan dan untuk memeriksa pertanyaan yang Tidak. Jika sebuah variabel ada di kedua kumpulan data, nilai dari kumpulan data master akan disimpan dan nilai dari kumpulan data yang digunakan akan dibuang. Terkadang inilah yang Anda inginkan, namun cenderung menjadi kesalahan. Secara umum Anda harus mengatur data Anda sedemikian rupa sehingga satu-satunya variabel file yang akan digabungkan memiliki kesamaan adalah variabel kunci. Sintaks untuk gabungan adalah: menggabungkan tipe keyvars menggunakan dataset Tipe harus 1: 1 (satu-ke-satu), 1: m (satu-ke banyak), m: 1 (banyak ke satu) atau m: M (banyak ke banyak) keyvars adalah variabel kunci atau variabel dan kumpulan data adalah nama dari kumpulan data yang ingin Anda gabungkan. Contoh Menggabungkan Kumpulan Data Contoh mencakup beberapa file yang berisi informasi siswa fiktif dari tahun 2007. scores. dta berisi nilai siswa pada tes standar, demografi. dta berisi informasi demografis tentang mereka, dan guru. dta berisi informasi tentang guru mereka. Luangkan waktu sejenak untuk melihat setiap file, lalu jalankan file do yang memuat skor. Dalam kumpulan data ini, setiap observasi mewakili seorang siswa. Browse dan Anda akan melihat bahwa Anda memiliki ID siswa (id), guru ID (guru) dan skor untuk masing-masing. Tugas pertama Anda adalah menambahkan informasi demografis. Dalam demografi. dta setiap observasi juga mewakili seorang siswa, dengan variabel id dan ras. Jadi ini adalah pekerjaan untuk penggabungan satu lawan satu dan variabel utamanya adalah id. Menggabungkan 1: 1 id menggunakan demografi Stata akan melaporkan bahwa semua 60 observasi cocok. Ini juga akan menciptakan variabel yang disebut penggabungan. Satu di gabungan berarti pengamatan hanya berasal dari data master yang mengatur dua alat itu hanya berasal dari kumpulan data yang digunakan dan tiga artinya pengamatan berhasil dicocokkan dan oleh karenanya berasal dari keduanya. Dalam hal ini kita melihat bahwa semua pengamatan dicocokkan dan dengan demikian memiliki gabungan yang sama dengan tiga, jadi kita tidak perlu menyimpan variabelnya. Sebenarnya kita perlu menjatuhkannya (atau mengganti namanya) sebelum melakukan penggabungan lebih lanjut: Selanjutnya tambahkan informasi tentang guru. Di dalam guru. Setiap pengamatan mewakili seorang guru, dan setiap guru memiliki banyak siswa. Itu membuat ini gabungan banyak-ke-satu (karena banyak siswa saat ini dalam ingatan dan satu guru berada dalam rangkaian data yang digunakan). Variabel kunci bukan id. Karena itu mengacu pada siswa, tapi guru: menggabungkan m: 1 guru menggunakan guru Sekali lagi, semua 60 pengamatan digabungkan dengan benar, sehingga Anda bisa drop merge. Menggabungkan Data Panel Sekarang anggaplah Anda melacak siswa-siswa ini selama beberapa tahun. Kumpulan data panel2007.dta berisi versi penyandian data yang disederhanakan ini: hanya id dan skor. Kumpulan data panel2008.dta memiliki variabel yang sama untuk tahun yang berbeda. Bagaimana Anda menggabungkannya Cara yang tepat untuk menggabungkannya tergantung pada struktur data yang Anda inginkan. Ini adalah data hirarkis dimana tingkat dua unit adalah siswa dan satu level satu unit adalah data siswa untuk tahun tertentu. Dengan demikian dapat diwakili dalam bentuk yang luas (satu observasi per siswa), atau dalam bentuk panjang (satu observasi per siswa per tahun). Untuk memasukkan data dalam bentuk panjang cukup susun dua kumpulan data menggunakan lampiran. Namun, Anda perlu tahu tahun mana setiap pengamatan mewakili. Untuk melakukan itu, tambahkan variabel tahun ke kedua kumpulan data, dengan nilai 2007 untuk data 2007 dan nilai 2008 untuk data tahun 2008. Anda bisa melakukannya dengan file-file berikut ini: hapus semua set lebih banyak dari log close log close menggunakan combine1.log, ganti panel20000 menggunakan gen tahun2007 save panel2007append menggunakan panel2008 gen year2008 menambahkan menggunakan panel2007append save appendedData, ganti Untuk memasukkan data dalam bentuk lebar, Lakukan penggabungan satu-ke-satu dengan id sebagai variabel kunci. Tapi pertama-tama Anda perlu mengganti nama variabel. Ingatlah bahwa dalam bentuk yang luas, itu adalah nama variabel yang memberi tahu Anda level satu unit yang Anda bicarakan. Jadi bukan skor. Anda perlu score2007 dan score2008. Hapus semua set lebih banyak dari log close log log menggunakan combine2.log, ganti menggunakan panel2007 rename score score2007 save panel2007merge gunakan panel2008 rename score score2008 gabungkan 1: 1 id menggunakan panel2007merge save diggedData, ganti Kali ini kamu akan melihat satu pengamatan tidak cocok. Anda bisa melihat yang mana dengan mengetik: Nomor siswa 55 tidak ada di panel2008 dan karenanya tidak bisa diimbangi. Akibatnya, kami tidak tahu apa nilai ujiannya di tahun 2008. Sayangnya, ini sangat umum. Para siswa pindah dari distrik sekolah di antara tes sepanjang waktu. Jika keseluruhan agenda penelitian Anda bergantung pada kedua skor tes tersebut, Anda mungkin perlu membuang pengamatan yang tidak ada di kedua kumpulan data. Anda dapat melakukannya pada titik ini dengan menambahkan: drop jika merge3 Anda juga dapat menentukan observasi mana yang harus disimpan secara langsung dalam perintah penggabungan: menggabungkan 1: 1 id menggunakan panel2007merge, tetap menjaga (match) tetap berarti hanya menjaga pengamatan yang sesuai . Alternatifnya adalah master dan penggunaan. Dan Anda bisa daftar lebih dari satu. Misalnya, untuk menjaga pengamatan yang sesuai dan pengamatan yang hanya berasal dari kumpulan data master, sembari membuang pengamatan yang hanya berasal dari penggunaan kumpulan data, Anda bilang tetap (master match). Masalah Umum dengan Merges Merges akan mengungkap segala macam masalah dengan kumpulan data Anda (dan jika mereka tidak melakukan penggabungan tetap akan mengenalkan yang baru). Berikut adalah dua metode umum dan cara memperbaikinya: Variabel Kunci Disimpan dalam Format yang Berbeda Sementara Stata dengan senang hati akan mencocokkan berbagai jenis angka (contoh dan pelampung, misalnya), cant cocok dengan angka dan senar. ID dapat disimpan sebagai salah satu (selama Anda memilih tipe numerik yang memiliki cukup presisi. Bekerja dengan Data) dan tidak jarang menemukan bahwa kumpulan data Anda menyimpan ID dengan cara yang berbeda. Dalam hal ini biasanya paling baik untuk mengubah angka menjadi string: gen idStringstring (id) drop id rename idString id Fungsi string () mengambil sebuah angka dan mengubahnya menjadi sebuah string. Anda bisa memberikan argumen kedua yang berisi format di mana nomor tersebut harus dituliskan jika diperlukan. ID duplikat Jika Anda mencoba melakukan penggabungan dan Anda mendapatkan pesan kesalahan seperti id quotvariable tidak secara unik mengidentifikasi pengamatan di dataquot master ini berarti Anda memiliki ID duplikat pada kumpulan data yang disebutkan. Masalah ini harus diperbaiki sebelum Anda melanjutkan. Jangan hanya mengubah jenis penggabungan untuk kumpulan data yang relevan dari kuotot kuotasi ke quotmanyquot dengan harapan agar pesan kesalahan hilang. Akibatnya, kumpulan data yang dihasilkan tidak akan masuk akal untuk pengamatan yang terpengaruh. Salah satu sumber duplikat yang mungkin adalah kesalahan round-off karena menyimpan ID dalam tipe variabel yang tidak sesuai. Dalam kasus ini, Anda harus kembali ke data asli dan memastikan pengenal disimpan sebagai tipe yang tidak sesuai dengan mereka, seperti panjang, ganda, atau string. Perhatikan bahwa untuk tujuan penggabungan, nilai yang hilang diperlakukan seperti nilai lainnya. Jika Anda memiliki pengamatan dengan ID ID yang hilang akan menghitungnya sebagai duplikat. Mungkin Anda harus menurunkannya sebelum digabungkan. Namun sebagian besar duplikat ID hasil dari kesalahan dalam data. Anda harus melakukan sesuatu terhadap mereka sebelum Anda dapat melakukan penggabungan Anda. Jalankan file do yang memuat data set mergeerror. Kumpulan data ini berisi siswa, namun beberapa di antaranya memiliki ID duplikat yang perlu diperbaiki. Anda dapat melihat berapa banyak masalah yang Anda hadapi dengan laporan duplikat: id laporan duplikat Ini memberi tahu Anda berapa banyak pengamatan memiliki nilai id yang sama. Keluaran memberitahu Anda bahwa tidak ada ID yang muncul lebih dari dua kali, namun dua belas pengamatan memiliki ID duplikat. Untuk pemeriksaan lebih lanjut, buat sebuah variabel yang memberitahu Anda berapa banyak salinan yang ada dari masing-masing ID: bysort id: gen copiesN Kemudian Anda dapat melihat hanya masalah pengamatan dengan: browse if copygt1 Untuk pengamatan dengan id sama dengan 9, 26, dan 33, kedua pengamatan dengan ID yang sama identik. Hal ini menunjukkan bahwa siswa yang sama telah masuk dua kali dan Anda dapat memperbaiki masalahnya dengan hanya membuang pengamatan ekstra. Lakukan dengan: Perhatikan bahwa tidak seperti perintah laporan duplikat yang Anda jalankan sebelumnya, perintah ini tidak memiliki varlist. Ini berarti hanya tetes pengamatan duplikat jika mereka memiliki nilai yang sama untuk semua variabel, bukan hanya id. Anda bisa memberikannya sebuah varlist sehingga bisa menurunkan pengamatan jika hanya variabel-variabel tersebut memiliki nilai yang sama, namun berhati-hatilah melakukannya. Pada titik ini dalam masalah kompleks Anda mungkin ingin menjatuhkan variabel salinan yang Anda buat sebelumnya dan membuatnya jadi telusuri jika salinan tidak akan lagi menunjukkan pengamatan yang telah Anda tetapkan, namun tidak perlu dilakukan dalam kumpulan data ini. Untuk pengamatan dengan id sama dengan 64, 74, dan 94, variabel lainnya menunjukkan bahwa pengamatan dengan ID yang sama tidak sama. Ini adalah masalah utama untuk penggabungan: Anda tidak dapat memastikan data kuotasi mana yang ada dalam kumpulan data ini sesuai dengan kuotot kuotasi pada kumpulan data hipotetis lainnya. Menambahkan lebih banyak variabel dapat membantu. Misalnya, dalam kasus ini, penggabungan oleh id dan ras akan memungkinkan Anda mencocokkan kedua subjek dengan id sama dengan 94. Penggabungan dengan id. ras. Dan kelas akan memungkinkan Anda untuk benar sesuai dengan subjek dengan id sama dengan 74. Perlu diingat bahwa jika kumpulan data yang ingin Anda gabungkan dengan yang satu ini adalah untuk tahun ajaran berikutnya seperti pada contoh sebelumnya, Anda harus mengurangi satu dari yang Kelas pertama. Jika Anda memilih untuk pergi ke rute ini, buat ulang variabel salinan dengan menggunakan kumpulan variabel lengkap yang akan Anda cocokkan dengan awalan dan lihat berapa banyak duplikat yang tersisa. Tidak ada yang akan membantu kedua observasi dengan id sama dengan 64, dan dalam kumpulan data yang lebih besar, kemungkinannya lebih kecil yang cocok dengan beberapa variabel lagi akan memungkinkan Anda mengidentifikasi subjek secara unik. Dalam kasus seperti itu, Anda mungkin perlu membuang semua pengamatan yang tidak dapat Anda identifikasi secara unik, karena Anda andal tidak dapat mencocokkannya. Anda bisa melakukannya dengan: drop jika copygt1 Cara alternatif untuk menggabungkan kumpulan data menjadi bentuk yang luas adalah dengan terlebih dahulu menambahkannya dan kemudian membentuk kembali. Kombinasikan panel2007 dan panel2008 ke dalam bentuk lebar dengan menggunakan metode ini. (Solusi) Jika Anda menggabungkan dua tahun data menjadi bentuk panjang dengan menggunakan tambahan. Bagaimana Anda bisa menemukan pengamatan yang tidak muncul pada tahun 2008 (Solusi) Kombinasikan error2007.dta dan error2008.dta dengan menggabungkannya ke dalam bentuk yang luas, memperbaiki masalah apa pun yang Anda temukan. Kemudian tambahkan dua kumpulan data dan coba cari masalah yang sama. (Solusi) Revisi Terakhir: 12292015Dalam Stata, bagaimana cara menggabungkan dua kumpulan data Untuk menggabungkan dua kumpulan data di Stata, urutkan dulu setiap kumpulan data pada variabel kunci yang menjadi basis penggabungan. Kemudian, gunakan perintah. merge diikuti dengan daftar variabel kunci dan kumpulan data. Pada Stata versi 11 dan yang lebih baru: gabungkan daftar lagu 1: 1 menggunakan namafile, pilihan Jika Anda menggunakan versi Stata 10 atau lebih tua, hilangkan spesifikasi 1: 1. Pengamatan di setiap kumpulan data harus unik dalam gabungan satu lawan satu pertandingan. Misalkan kita memiliki dua variabel kunci id dan nama dalam dua kumpulan data stat dan matematika. Kode berikut mengurutkan dan menyimpan kumpulan data stat dan kemudian menyusun kumpulan data matematika. Kemudian, sementara kumpulan data matematika masih dalam memori, ia menggabungkan (menggunakan kumpulan data stat) pada variabel kunci id dan nama: Jika dua data menetapkan variabel saham selain variabel utama, gunakan opsi update untuk mengganti nilai yang hilang di File master (dalam memori) dengan nilai non-missing yang sesuai di file sekunder. Gunakan, update ganti untuk mengganti nilai yang tidak hilang dalam file induk dengan nilai non-missing yang sesuai di file sekunder. Untuk menggunakan menu drop-down di Stata versi 11 dan yang lebih baru: Dataxa0gt Combinexa0Datasetsxa0gt Mergexa0Twoxa0Dataset Jika Anda memiliki pertanyaan tentang penggunaan perangkat lunak statistik dan matematika di Indiana University, hubungi Research Analytics. Penelitian Analytics yang berada di kampus IU Bloomington di staf Woodburn Hall 200 tersedia untuk konsultasi pada hari Senin-Jumat 9 pagi dan dengan janji temu.

Comments

Popular posts from this blog

Backtest Forex