Ad Code

Teori Dilema Tawanan dan Game Theory dalam Hubungan Internasional bagi Mahasiswa dan Umum

Bayangkan diri Anda sebagai seorang pencuri. Anda dan seorang komplotan telah ditangkap polisi karena merampok sebuah bank. Kalian berdua disimpan di dua ruang interogasi terpisah. Kalian tidak bisa berkomunikasi satu sama lain. Seorang detektif datang kepada Anda dengan penawaran yang menggiurkan.

"Dengarlah baik-baik. Kami tahu kalian berdua terlibat dalam perampokan besar itu, tapi bukti kami hanya cukup kuat untuk menjerat kalian dengan tuduhan yang lebih ringan, satu tahun penjara. Kecuali... salah satu dari kalian mau bekerja sama dengan kami. Jika kamu mengaku dan memberikan kesaksian bahwa komplotanmulah dalangnya, kamu langsung bebas, dan dia akan mendekam 10 tahun. Tapi, jika kalian berdua saling mengkhianati, maka kami bisa memberatkan kalian berdua, masing-masing 4 tahun penjara. Namun, jika kalian berdua tutup mulut, kami hanya bisa menahan kalian selama 6 bulan. Oh ya, aku menawarkan hal yang sama kepada temanmu di seberang sana."

Apa yang akan Anda lakukan? Akankah Anda diam (bekerja sama) atau mengaku (berkhianat)? Inilah jantung dari Prisoner's Dilemma (Dilema Tahanan): Sebuah skenario hipotetis sederhana, namun dengan implikasi yang sangat luas dan mendalam, terutama dalam memahami mengapa negara-negara berdaulat, yang rasional sekalipun, sering kali gagal bekerja sama meskipun kerja sama itu akan menguntungkan semua pihak (Amadae, 2025, hlm. 324).

Esai populer-ilmiah Prisoner's Dilemma: logika rasionalitas, dilema keamanan, perlombaan senjata, perubahan iklim, dan strategi Tit-for-Tat dalam hubu

Jika Anda merasa bahwa artikel telalu panjang untuk dibaca secara online,
maka silakan Unduh PDF-nya di sini.

Esai ini akan membawa Anda menyelami logika Prisoner's Dilemma, dari fondasi teoretisnya hingga aplikasinya yang luas dalam hubungan internasional. Kita akan melihat bagaimana model ini menjelaskan perlombaan senjata nuklir selama Perang Dingin, kesulitan mencapai kesepakatan perubahan iklim global, dan dinamika perang dagang antarnegara adidaya. Lebih dari itu, kita akan mengeksplorasi "jalan keluar"-nya: Bagaimana iterasi interaksi, strategi "tit-for-tat" (balas budi), peran institusi, dan faktor-faktor domestik dapat membalikkan logika konflik menjadi logika kerja sama.
Gaya penulisan esai ini sengaja memadukan bahasa populer yang mudah dicerna dengan ketelitian ilmiah. Kita tidak akan sekadar "bercerita" tentang Prisoner's Dilemma; kita akan membedahnya dengan pisau analisis dari para pemikir besar: Robert Axelrod yang menunjukkan bagaimana kerja sama bisa berevolusi di antara para egois, Kenneth Oye yang mengidentifikasi syarat-syarat struktural bagi kerja sama, Duncan Snidal yang mengkritik dan memperluas penggunaan model ini, serta Robert Jervis yang mengaplikasikannya pada dilema keamanan.

Logika Dasar Prisoner's Dilemma

Matriks Hasil

Untuk memahami Prisoner's Dilemma, kita harus memvisualisasikannya. Para ahli teori permainan menggunakan matriks hasil (payoff matrix). Mari kita beri nama dua pemain kita A dan B (bisa dua individu, dua perusahaan, atau (dalam studi kita, dua negara). Masing-masing hanya memiliki dua pilihan: Cooperate (C) atau Defect (D).

Dalam konteks cerita pencuri di atas, "bekerja sama" (C) berarti tetap diam dan tidak mengkhianati komplotan. "Berbalik" (D) berarti mengaku kepada polisi. Hasil dari setiap kombinasi pilihan sering kali dinotasikan dengan empat huruf: R (Reward), S (Sucker), T (Temptation), P (Punishment). Matriksnya, yang diformalkan oleh Albert W. Tucker pada tahun 1950 sebagai alat bantu mengajar untuk menyederhanakan temuan Merrill Flood dan Melvin Dresher, terlihat seperti ini:

Esai populer-ilmiah Prisoner's Dilemma: logika rasionalitas, dilema keamanan, perlombaan senjata, perubahan iklim, dan strategi Tit-for-Tat dalam hubu


Kunci dari Prisoner's Dilemma adalah urutan nilai dari keempat hasil ini. Bagi seorang pemain yang egois dan rasional, urutan preferensinya adalah:

T > R > P > S

Ini adalah "resep" dari sebuah dilema (Axelrod, 1984, hlm. 8-9). Mari kita uraikan:
  • (T) Temptation: Hasil terbaik. Anda mengkhianati sementara lawan Anda bekerja sama. Anda bebas (0 tahun), dia masuk penjara (10 tahun).
  • (R) Reward: Hasil terbaik kedua. Anda berdua bekerja sama. Anda berdua mendapat hukuman ringan (masing-masing 6 bulan).
  • (P) Punishment: Hasil terbaik ketiga. Anda berdua saling mengkhianati. Anda berdua mendapat hukuman sedang (masing-masing 4 tahun).
  • (S) Sucker's Payoff: Hasil terburuk. Anda bekerja sama, tetapi lawan Anda mengkhianati Anda. Anda masuk penjara lama (10 tahun), dia bebas.

Dari Individu ke Hasil Kolektif yang Buruk

Di sinilah letak "dilema" yang sebenarnya. Apa keputusan paling rasional bagi seorang individu yang hanya peduli pada dirinya sendiri?
  1. Jika Anda pikir lawan akan bekerja sama (C): Pilihan Anda adalah antara R (Anda juga bekerja sama, hasil: Anda berdua dihukum ringan) atau T (Anda berkhianat, hasil: Anda BEBAS). Karena T > R, maka pilihan rasional Anda adalah berkhianat (D).
  2. Jika Anda pikir lawan akan berkhianat (D): Pilihan Anda adalah antara S (Anda bekerja sama, hasil: Anda kena hukuman berat) atau P (Anda juga berkhianat, hasil: hukuman sedang). Karena P > S, maka pilihan rasional Anda adalah berkhianat (D).
Anda lihat? Apa pun yang dilakukan lawan, pilihan terbaik bagi seorang individu adalah selalu berkhianat (Defect). Dalam bahasa teori permainan, "Defect" adalah sebuah strategi dominan, sebuah strategi yang memberikan hasil terbaik tanpa memedulikan strategi yang dipilih oleh pemain lain (Amadae, 2025, hlm. 324).

Paradoksnya, jika kedua pihak mengikuti logika individual yang rasional ini, mereka berdua akan berakhir di hasil (P), saling mengkhianati dan sama-sama menerima hukuman 4 tahun. Ini adalah hasil yang secara kolektif lebih buruk daripada jika mereka berdua bekerja sama (R) dan hanya menerima hukuman 6 bulan. Inilah inti tragedinya: Rasionalitas individu menghasilkan irasionalitas kolektif.

Nash Equilibrium

Dalam teori permainan, hasil (P, P)—di mana kedua pemain berkhianat, adalah apa yang disebut Nash Equilibrium. Ini adalah titik keseimbangan di mana, setelah mengetahui strategi yang dipilih oleh pemain lain, tidak ada satu pemain pun yang memiliki insentif untuk secara sepihak mengubah strateginya sendiri (Spaniel, 2011, hlm. 12-15).

Begitu kedua tahanan memutuskan untuk saling mengkhianati, tidak ada satu pun dari mereka yang akan berpikir, "Oh, andai aku tadi memilih diam, keadaanku pasti akan lebih baik." Karena jika ia memilih diam, sementara komplotannya tetap memilih berkhianat, ia justru akan mendapatkan hasil terburuk (S, "Sucker's Payoff"). Jadi, meski hasil (P, P) itu buruk, ia "stabil" secara strategis. Inilah mengapa struktur dilema ini begitu kuat dan "menjebak."

Aplikasi dalam Hubungan Internasional

Struktur Anarki dan Dilema Keamanan

Mengapa cerita tentang dua penjahat ini relevan untuk memahami politik global? Karena struktur dari interaksi mereka, yang oleh para ahli Hubungan Internasional (HI) disebut sebagai anarki, secara fundamental sama.

Dalam sistem internasional, tidak ada "pemerintah dunia" atau "polisi global" yang dapat memaksakan perjanjian dan menghukum pelanggar. Negara-negara berdaulat adalah aktor tertinggi, dan mereka harus mengandalkan diri sendiri (self-help) untuk bertahan hidup. Dalam lingkungan seperti ini, "rasa saling tidak percaya" adalah kondisi default (Jervis, 1978, hlm. 167-170). Logika Prisoner's Dilemma lalu menjadi cetak biru yang sempurna untuk menjelaskan fenomena seperti dilema keamanan (security dilemma):
"The PD model is used to study anarchy and the security dilemma in International Relations, and has also been applied to analysing nuclear deterrence and arms races." (Amadae, 2025, hlm. 324-325).
Bayangkan dua negara, Negara A dan Negara B, yang bertetangga. Masing-masing tidak memiliki niat menyerang. Namun, karena tidak ada kepastian tentang niat baik tetangganya (dilema informasi), mereka masing-masing berpikir:
  1. Jika B tidak mempersenjatai diri (C): A bisa "berkhianat" (D) dengan memperkuat militernya, sehingga A menjadi jauh lebih aman dan berpotensi dominan (hasil T). Atau, A bisa tetap tidak mempersenjatai diri (C), yang mana itu lebih berisiko (hasil R lebih rendah).
  2. Jika B mempersenjatai diri (D): Maka A harus mempersenjatai diri juga (D) untuk melindungi dirinya; jika tidak, A akan menjadi rentan dan menjadi "sucker" (hasil S). Maka dari itu, A memilih untuk mempersenjatai diri (P) agar setidaknya aman.
Hasilnya tak terhindarkan: Kedua negara memutuskan untuk mempersenjatai diri. Sebuah langkah defensif oleh satu negara diinterpretasikan sebagai langkah ofensif oleh negara lain, memicu spiral balasan yang dikenal sebagai perlombaan senjata (arms race). Mereka berdua kini merasa kurang aman dan menghabiskan sumber daya yang jauh lebih besar daripada jika mereka bisa sepakat untuk mengurangi anggaran militer bersama-sama. Ini adalah hasil (P, P) yang klasik (Jervis, 1978, hlm. 186-190).

Perlombaan Senjata Nuklir

Selama Perang Dingin, Prisoner's Dilemma menjadi model favorit untuk menjelaskan dinamika antara Amerika Serikat (AS) dan Uni Soviet (USSR). Kedua negara adidaya itu terjebak dalam perlombaan senjata yang menghabiskan triliunan dolar. Secara individual, masing-masing lebih memilih "militerku kuat, dan milikmu lemah" (T), tetapi jika keduanya berpikir seperti itu, mereka berdua berakhir dengan "militer kita sama-sama kuat, tapi kita bangkrut" (P).

Namun, perlu dicatat bahwa untuk situasi "krisis" yang sudah sangat akut (seperti Krisis Rudal Kuba 1962) model yang lebih tepat sering kali bukanlah Prisoner's Dilemma, melainkan Game of "Chicken." Dalam "Chicken," hasil terburuk bukanlah (S), melainkan (P, P) yakni saling tidak mau mengalah yang berujung pada tabrakan fatal atau perang nuklir. Dalam Prisoner's Dilemma, pilihan rasional adalah "selalu berkhianat." Dalam "Chicken," pilihan rasional justru terkadang harus mengalah untuk menghindari kehancuran bersama (Lackey, 1989, hlm. 209-210).

Bertrand Russell, dalam bukunya Common Sense and Nuclear Warfare, bahkan secara satir menggambarkan "Chicken" sebagai permainan yang dimainkan oleh "para negarawan tua dan para pemuda bejat" (elder statesmen and youthful degenerates) yang saling mengadu nyali di jalan, di mana yang pertama membelokkan setir dianggap "pengecut" (Russell, 1959, dikutip dalam Lackey, 1989, hlm. 209-210).

Perubahan Iklim

Jika perlombaan senjata adalah Prisoner's Dilemma di bidang keamanan, maka perubahan iklim adalah Prisoner's Dilemma di bidang lingkungan. Struktur insentifnya nyaris identik. Bagi setiap negara, pilihan yang paling "rasional" secara ekonomi jangka pendek adalah:
  1. Defect (D): Tidak membatasi emisi karbon dan terus menggunakan bahan bakar fosil murah untuk mendorong pertumbuhan ekonomi. Jika negara lain mengurangi emisinya (C), maka negara yang "berkhianat" ini akan menikmati manfaat ekonomi yang sangat besar (T).
  2. Cooperate (C): Melakukan transisi energi yang mahal ke sumber daya terbarukan, yang mungkin memperlambat pertumbuhan ekonomi dalam jangka pendek (R).
Jika semua negara memilih "D" (khianat), maka bumi akan menghadapi bencana iklim yang dahsyat (P), hasil yang jauh lebih buruk bagi semua pihak. Marvin Soroos dengan jelas menggambarkan paralel ini:
"Parallels are drawn between the options available to achieve military and environmental security with reference to the Prisoner's Dilemma game, which has been used widely to explain why states seek military security through counterproductive arms buildups rather than through a potentially much less costly strategy of mutual arms reductions." (Soroos, 1994, hlm. 318).
Dan persis seperti yang diramalkan oleh logika PD, negosiasi iklim internasional selama puluhan tahun sering kali menemui jalan buntu. Negara-negara saling mencurigai bahwa yang lain akan menjadi "free-rider" (penumpang gratis) yang menikmati stabilitas iklim tanpa menanggung biaya mitigasi. "Climate change is a classic 'prisoner's dilemma,' and overcoming its game theory dynamic is exceptionally hard," demikian ulasan sebuah analisis kebijakan (R Street Institute, 2025).

Namun, perlu dicatat bahwa dalam negosiasi Protokol Montreal untuk melindungi lapisan ozon, logika Prisoner's Dilemma justru tidak berlaku. Di sana, insentif untuk "membelot" tidak sebesar dalam kasus karbon, karena pengganti CFC (zat perusak ozon) relatif cepat ditemukan dan tidak terlalu mahal, sehingga kerja sama lebih mudah tercipta (Soroos, 1994, hlm. 322-323). Ini adalah contoh sempurna bahwa tidak semua masalah global adalah Prisoner's Dilemma murni.

Jalan Keluar dari Dilema

Jika negara-negara selamanya terjebak dalam logika single-shot (sekali interaksi) Prisoner's Dilemma, maka kerja sama internasional akan menjadi seekor unicorn: sesuatu yang sering dibicarakan tetapi tak pernah terlihat. Kenyataannya, kerja sama ada di mana-mana: Aliansi militer, perjanjian perdagangan bebas, hingga penanganan pandemi global. Lalu, apa yang membalikkan logika ini? Jawaban singkatnya: Iterasi dan institusi.

Keajaiban Iterasi

Perbedaan paling fundamental antara Prisoner's Dilemma di ruang interogasi dan di panggung internasional adalah pengulangan (iterasi) . Para tahanan umumnya hanya menghadapi dilema itu sekali seumur hidup (single-shot). Sementara itu, negara-negara terus-menerus berinteraksi satu sama lain selama puluhan, bahkan ratusan, tahun. Ini secara fundamental mengubah kalkulus rasional.

Gagasan ini secara elegan ditangkap oleh konsep "the shadow of the future" (bayang-bayang masa depan). Kenneth Oye (1985), yang secara sistematis mengeksplorasi syarat-syarat bagi kerja sama di bawah anarki dalam buku suntingannya, menjelaskan bahwa ketika para aktor memperkirakan bahwa mereka akan terus berinteraksi untuk jangka waktu yang panjang (dengan kata lain, "bayang-bayang masa depan" itu panjang), maka insentif untuk bekerja sama di masa kini meningkat secara signifikan. Keuntungan jangka pendek dari pengkhianatan (T) akan pudar di hadapan kemungkinan panjang dari kerja sama timbal balik (R) di masa depan (Oye, 1985, hlm. 12-14).

Logikanya sederhana, "Jika aku mengkhianatimu sekarang, maka di lain waktu kau tidak akan bekerja sama denganku. Aku akan kehilangan keuntungan dari semua potensi kerja sama di masa depan. Maka, lebih baik aku bekerja sama sekarang."

Turnamen Axelrod dan Kemenangan "Tit-for-Tat"

Untuk menguji logika ini secara empiris, Robert Axelrod (1984) melakukan salah satu eksperimen paling terkenal dalam sejarah ilmu sosial. Ia mengundang para akademisi dari berbagai disiplin ilmu untuk mengirimkan program komputer yang berisi strategi untuk bermain dalam turnamen Iterated Prisoner's Dilemma (IPD) . Setiap program akan bertanding melawan semua program lain, dan melawan dirinya sendiri, selama 200 iterasi.

Kejutan besar terjadi. Strategi yang keluar sebagai pemenang dari turnamen itu bukanlah strategi yang paling licik atau paling rumit. Pemenangnya adalah strategi paling sederhana dan "nice" (baik hati) yang diajukan oleh Anatol Rapoport: Tit-for-Tat (TFT) .

Strategi TFT hanya memiliki dua aturan sederhana:
  1. Mulailah dengan bekerja sama (Cooperate) pada langkah pertama.
  2. Setelah itu, lakukan apa pun yang dilakukan lawanmu pada langkah sebelumnya. (Axelrod, 1984, hlm. viii, 31).
Jadi, jika lawan bekerja sama, TFT akan membalasnya dengan kerja sama. Jika lawan berkhianat, TFT akan segera menghukumnya dengan pengkhianatan di langkah berikutnya. Namun, sifat ini tidak pendendam. Ia bersedia kembali bekerja sama begitu lawan menunjukkan itikad baik.

Dari turnamen ini, Axelrod menyimpulkan empat kunci sukses sebuah strategi dalam IPD:
  1. "Nice" (Baik Hati): Jangan pernah menjadi yang pertama berkhianat. Strategi yang memulai dengan agresi selalu berkinerja buruk.
  2. "Retaliatory" (Pembalas): Jangan menjadi "sucker" yang selalu pasif. Hukumlah pengkhianatan dengan segera dan tegas.
  3. "Forgiving" (Pemaaf): Jangan menyimpan dendam selamanya. Jika lawan sudah kembali bekerja sama, Anda juga harus segera kembali bekerja sama untuk memulihkan keuntungan bersama.
  4. "Clear" (Jelas): Strategi Anda harus mudah dipahami oleh lawan, sehingga mereka bisa menyesuaikan diri dan melihat manfaat dari kerja sama (Axelrod, 1984, hlm. 53-54).

Tit-for-Tat menjadi bukti konsep yang dahsyat bahwa "Mutual cooperation can emerge in a world of egoists without central control by starting with a cluster of individuals who rely on reciprocity" (Axelrod, 1984, hlm. 174).

Peran Institusi Internasional

Kaum liberalis institusional dalam HI, yang dipelopori oleh Robert Keohane, mengambil inspirasi dari temuan Axelrod dan melangkah lebih jauh. Jika kerja sama bisa muncul secara spontan, mengapa kita butuh institusi internasional seperti PBB, WTO, atau WHO? Jawaban Keohane dalam After Hegemony (1984) adalah bahwa institusi ada untuk mempermudah dan memperkuat dinamika yang mendorong kerja sama.

Negara-negara di dunia nyata sering kali gagal bekerja sama bukan karena mereka benar-benar jahat, melainkan karena masalah informasi. Mereka tidak tahu apakah negara lain serius dalam berjanji, dan mereka khawatir tentang "free-riding" (Keohane, 1984, hlm. 92-95). Keohane menunjukkan bahwa pada praktiknya, negara-negara sering kali memainkan iterated Prisoner's Dilemma, bukan single-shot, karena mereka bernegosiasi di berbagai isu sekaligus dan berulang kali dari waktu ke waktu (Keohane, 1984, hlm. 75-76). Institusi bertindak sebagai "penyelesai masalah" (problem-solvers) yang menyediakan:
  1. Sumber Informasi. Aturan dan mekanisme pelaporan dalam sebuah rezim internasional mengurangi ketidakpastian tentang kepatuhan negara lain.
  2. Mekanisme Akuntabilitas. Dengan memonitor dan mempublikasikan perilaku negara, institusi menciptakan "reputasi" yang berharga. Negara yang sering melanggar akan sulit mendapatkan mitra kerja sama di masa depan, sebuah dinamika yang pas dengan logika Bayesian dari shadow of the future.
  3. Forum Negosiasi. Menyediakan tempat untuk bertemu dan membangun kepercayaan secara berulang (Keohane, 1984, hlm. 97-100).

Kritik, Perluasan, dan Kompleksitas

Meskipun sangat berpengaruh, model Prisoner's Dilemma tidak luput dari kritik. Kritik-kritik ini justru memperkaya pemahaman kita dan menunjukkan bahwa PD bukanlah "satu model untuk mengatur segalanya" (One Model to Rule Them All), melainkan alat analisis yang harus digunakan secara kontekstual.

Dari Konstruktivis

Kaum konstruktivis, seperti Alexander Wendt, memberikan kritik fundamental terhadap pendekatan game theory, termasuk PD. Bagi mereka, "preferensi" para aktor (dalam hal ini negara) bukanlah sesuatu yang given, tetap, dan materialistis. Preferensi itu dibentuk oleh norma, identitas, dan interaksi sosial.

Dalam logika PD, preferensi aktor sudah ditentukan: T > R > P > S. Namun, konstruktivis akan bertanya, “Bagaimana jika sebuah negara tidak mendefinisikan tetangganya sebagai "lawan" potensial, melainkan sebagai "teman" atau "saudara"? Bagaimana jika norma multilateralisme sudah begitu terinternalisasi sehingga "pengkhianatan unilateral" (D) menjadi tindakan yang memalukan dan tidak terpikirkan? Dalam kasus itu, struktur insentifnya bisa berubah sama sekali, menjadi bukan PD lagi, melainkan sebuah Assurance Game di mana setiap pihak hanya butuh jaminan bahwa yang lain juga akan bekerja sama. Kritik terhadap PD ini terutama menyasar pada "overuse" dan penerapannya yang berlebihan (Amadae, 2025, hlm. 325).

Sebuah studi dari Mazhab Kopenhagen secara spesifik mengkritik metafora "penjara" itu sendiri sebagai lensa untuk melihat hubungan internasional. Mereka berargumen bahwa metafora ini mereduksi kompleksitas politik global menjadi biner yang sederhana dan mengabaikan konteks historis serta sosial yang kaya (Marks, 2004, hlm. 115-118).

Dari Realis

Kaum realis, yang menekankan pada perjuangan untuk kekuasaan, mengkritik asumsi dasar dari model PD neoliberal. Mereka, terutama Joseph Grieco, berpendapat bahwa negara-negara tidak hanya peduli pada absolute gains (keuntungan absolut, "Apakah aku menjadi lebih kaya?"), tetapi terutama pada relative gains (keuntungan relatif, "Apakah keuntunganku lebih besar daripada keuntunganmu?"). Dalam PD standar, pemain hanya peduli pada hasil mereka sendiri. Namun, dalam politik internasional, jika B mendapatkan T (keuntungan besar) dan A mendapatkan S (keuntungan kecil), A mungkin lebih memilih hasil P (keuntungan kecil untuk semua) untuk mencegah B menjadi terlalu kuat dan mengancam keamanannya di masa depan.

Duncan Snidal (1991) secara brilian menguji proposisi ini dengan menggunakan model Iterated Prisoner's Dilemma yang dimodifikasi. Ia menemukan bahwa kekhawatiran tentang relative gains memang bisa menghilangkan kerja sama dalam interaksi dua aktor. Namun, begitu jumlah aktor (negara) bertambah banyak, dampak relative gains ini menurun drastis dan menjadi kurang relevan sebagai penghalang kerja sama (Snidal, 1991, hlm. 390-392). Kesimpulannya, realis mungkin melebih-lebihkan hambatan ini, setidaknya di luar konteks bipolar.

Ketika Musuh Hanyalah Konstruksi Pikiran

Salah satu kritik paling menarik terhadap aplikasi PD dalam perlombaan senjata adalah bahwa preferensi aktor mungkin tidak selalu T > R > P > S. Sebuah studi empiris awal oleh John Davidson dan Margaret Newman (1990) menemukan bukti awal tentang adanya Perceptual Dilemma. Beberapa kalangan di Australia ternyata mempersepsikan Uni Soviet sebagai pihak yang lebih agresif, menggambarkan situasi bukan sebagai konflik kepentingan, melainkan kesalahpahaman persepsi (Davidson & Newman, 1990, hlm. 22-24).

Dilema persepsi menyatakan bahwa kedua belah pihak mungkin sebenarnya memiliki preferensi yang sama, yaitu sama-sama menginginkan perlucutan senjata (R > T). Namun, masalahnya adalah mereka salah persepsi (misperceive) satu sama lain. Masing-masing berpikir bahwa pihak lain sebenarnya lebih suka berkhianat (D > C).
 
Konsep ini lebih lanjut dieksplorasi oleh Plous (1993), yang menyajikan bukti empiris baru dari anggota parlemen Australia dan Israel bahwa perlombaan senjata nuklir lebih merupakan Perceptual Dilemma daripada Prisoner's Dilemma murni, terutama pada akhir Perang Dingin (Plous, 1993, hlm. 241-245). Implikasi dari temuan ini sangat penting. Jika masalahnya adalah PD murni (benturan kepentingan), maka solusinya adalah negosiasi alot tentang insentif. Namun, jika masalahnya adalah perceptual dilemma (salah paham), maka solusinya adalah diplomasi, transparansi, dan langkah-langkah membangun kepercayaan (confidence-building measures).

Aplikasi Empiris

Mari kita tinggalkan perdebatan abstrak dan melihat bagaimana logika PD dan solusinya bekerja dalam kasus-kasus nyata.

Perlombaan Senjata Yunani-Turki dan Kerja Sama Ekonomi

Hubungan Yunani dan Turki, dua anggota NATO, menyajikan studi kasus yang sempurna. Keduanya telah terlibat dalam perlombaan senjata konvensional selama puluhan tahun, sebuah contoh klasik Prisoner's Dilemma. Sebuah studi oleh Peace Research Institute Oslo (PRIO) memodelkan interaksi ini sebagai permainan 2x2, di mana masing-masing negara memilih antara anggaran militer "tinggi" atau "rendah" setiap tahunnya. Hasilnya menunjukkan pola yang konsisten dengan logika PD: kedua negara memilih anggaran tinggi, meskipun secara ekonomi hal itu sangat membebani (PRIO, 2000).

Namun, yang membuatnya menarik adalah adanya pertukaran isu (issue linkage). Dalam periode-periode tertentu, prospek kerja sama ekonomi yang lebih erat, seperti dalam kerangka menuju keanggotaan UE, meningkatkan "bayangan masa depan." Keuntungan ekonomi di masa depan menjadi "bayaran sampingan" (side-payments) yang mengubah kalkulus keseluruhan, membuat kerja sama di bidang keamanan menjadi sedikit lebih mungkin. Ini adalah contoh sempurna dari "cutting slack" dalam terminologi two-level games Putnam.

Perang Dagang dan Bukti Dukungan Dunia Usaha terhadap Strategi "Tit-for-Tat"

Dalam ranah ekonomi politik internasional, logika PD sangat kentara. Setiap negara lebih suka jika pasar negara lain terbuka lebar (defect by others; kita bebas ekspor), sementara negara itu sendiri memproteksi pasarnya (defect by us; melindungi industri lokal). Ini adalah godaan (T). Jika semua negara melakukan ini (P,P), dunia akan terjerumus ke dalam perang dagang, seperti yang terjadi setelah pengesahan Smoot-Hawley Tariff Act pada tahun 1930.

Namun, bukti empiris menunjukkan bahwa strategi "tit-for-tat" bisa menjadi alat diplomasi yang efektif untuk menegakkan aturan perdagangan bebas. Sebuah studi oleh lembaga penelitian Austria, FIW, menemukan bahwa negara-negara yang lebih sering terlibat dalam sengketa WTO yang berisi strategi "tit-for-tat" (seperti mengancam atau menerapkan tarif balasan) justru cenderung memiliki rezim perdagangan yang lebih liberal dalam jangka panjang (FIW, 2012, hlm. 12-13). Ini menunjukkan bahwa "hukuman" dalam TFT bukan untuk menghancurkan, melainkan untuk mendisiplinkan dan membawa semua pihak kembali ke meja perundingan.

Penelitian terbaru oleh Naoi (2026) pada negosiasi tarif AS-Jepang di era Trump memberikan bukti mikro yang menarik. Survei terhadap perusahaan-perusahaan Jepang menunjukkan bahwa mereka tidak secara membabi buta menginginkan "balas dendam." Sebaliknya, preferensi mereka terdistribusi antara diplomasi, tit-for-tat, dan decoupling (pemutusan hubungan), tergantung pada seberapa besar paparan mereka terhadap gangguan rantai pasok. Ini menunjukkan bahwa preferensi di Tingkat II domestik sangat kompleks dan membentuk win-set untuk strategi tit-for-tat negara di Tingkat I (Naoi, 2026, hlm. 4-6).

Kegagalan Kerja Sama Iklim

Kembali ke iklim, artikel Marvin Soroos (1994) secara prescient sudah memperingatkan bahwa sementara Protokol Montreal untuk lapisan ozon adalah kisah sukses menghindari PD, perubahan iklim adalah cerita yang berbeda. Satu dekade setelah peringatan itu, kita masih menyaksikannya hari ini.
Setiap negara masih memiliki insentif kuat untuk "membelot." Janji-janji Nationally Determined Contributions (NDC) di bawah Perjanjian Paris bersifat sukarela dan tidak memiliki mekanisme penegakan yang kuat. Perjanjian itu sendiri adalah upaya untuk mengubah struktur permainan, dari PD menjadi Coordination Game atau Assurance Game dengan menyediakan "nama dan malu" (naming and shaming) serta mekanisme transparansi. Namun, ketika negara-negara dengan emisi besar seperti AS menarik diri, logika PD kembali muncul, "Jika dia tidak berkorban, mengapa aku harus?" Ini adalah pertanyaan yang menghantui setiap Konferensi Para Pihak (COP) (Soroos, 1994, hlm. 323-326).

Ketika "Tit-for-Tat" Bertemu Perbedaan Kultur

Prisoner's Dilemma tidak hanya tentang institusi dan bayang-bayang masa depan. Ia juga tentang manusia di baliknya, dengan norma dan bias budaya yang berbeda. Sebuah eksperimen terkini memberikan wawasan tentang bagaimana kultur memainkan peran.

Sebuah studi oleh para ekonom yang diterbitkan di China Economic Review (2022) melakukan eksperimen Prisoner's Dilemma dengan mahasiswa di AS dan China. Hasilnya sangat menarik: Partisipan China secara keseluruhan menunjukkan tingkat kerja sama yang lebih rendah daripada partisipan Amerika. Namun, partisipan China juga menunjukkan tingkat kerja sama bersyarat (conditional cooperation) yang lebih tinggi. Ini berarti mereka lebih mungkin untuk bekerja sama jika mereka yakin bahwa rekan mereka juga akan bekerja sama (Chiu et al., 2022, hlm. 101807).

Implikasi untuk hubungan internasional sangat besar. Strategi TFT mungkin lebih efektif antara para aktor dari budaya yang sama (Barat) yang sudah memiliki norma-norma resiprositas yang diterima bersama. Namun, ketika berhadapan dengan aktor dari budaya berbeda—seperti dalam hubungan AS-China, dinamika "belief elicitation" (membangun keyakinan tentang niat baik pihak lain) menjadi sangat krusial. Orang Amerika cenderung over-estimasi kemungkinan mitra China untuk bekerja sama, yang bisa berujung pada eksploitasi. Sebaliknya, orang China lebih akurat dalam memprediksi, tetapi lebih defensif. Ini adalah Perceptual Dilemma dalam praktik, yang berakar pada psikologi dan budaya.

Masa Depan Dilema

Apakah Prisoner's Dilemma masih relevan di abad ke-21 yang semakin kompleks? Jawabannya, dengan beberapa modifikasi, adalah ya. Evolusi model ini terus berlanjut.

“Punishing the Prince" dan Politik Domestik

Salah satu perluasan paling cerdik adalah membawa "aktor" (negara) kembali ke dalam fokus dan mengakui bahwa negara bukanlah "bola biliar" yang monolitik. Dalam Punishing the Prince, McGillivray dan Smith (2008) menggabungkan IPD level internasional dengan politik domestik. Mereka berargumen bahwa para pemimpin (pangeran) memiliki insentif berbeda dari negara. Kadang-kadang, seorang pemimpin mungkin memilih "khianat" di level internasional bukan untuk keuntungan nasional, tetapi untuk bertahan hidup secara politik di level domestik. Pemilih dapat "menghukum pangeran" yang gagal bekerja sama, tetapi hanya jika ada transparansi dan akuntabilitas yang cukup.

Strategi "Contrite Tit-for-Tat" dan Dunia yang Bising

Penelitian mutakhir kini bergulat dengan kenyataan bahwa interaksi di dunia nyata "bising" (noisy). Pengkhianatan mungkin terjadi bukan karena niat jahat, tetapi karena kecelakaan, miskomunikasi, atau birokrasi. Dalam lingkungan seperti ini, TFT murni bisa gagal karena bisa memulai "spiral konflik" dari sebuah insiden tak disengaja. Inilah mengapa para peneliti di Harvard mengidentifikasi Contrite Tit-for-Tat (CTFT) sebagai strategi yang lebih unggul, karena strategi ini memiliki mekanisme internal untuk "memaafkan" kesalahan yang berasal dari sumber kebisingan, mencegah spiral kekerasan akibat kesalahpahaman (Wu & Axelrod, 1995, hlm. 1-3).

Apakah "Tit-for-Tat" adalah Kebajikan?

Kita harus mengakhiri esai ini dengan sebuah pertanyaan etis. Model Prisoner's Dilemma dan resep "Tit-for-Tat" sering kali dirayakan sebagai resep untuk dunia egois. Namun, apakah kita nyaman dengan sebuah dunia yang berjalan di atas prinsip "Aku akan baik padamu hanya jika kau baik padaku, dan aku akan segera menyakitimu jika kau menyakitiku"?

Inilah yang disebut sebagai "etika minim" dari PD. Ia adalah etika untuk para egois, bukan para altruis. Ia bisa menghasilkan ketertiban dan kerja sama, tetapi jenis kerja samanya bersifat transaksional dan rapuh, selalu rentan terhadap bayang-bayang pengkhianatan. Kritikus dari tradisi kritis dan pasca-strukturalis akan menunjukkan bahwa etika ini tidak memiliki ruang untuk pengampunan tanpa syarat, solidaritas dengan yang lemah, atau transformasi fundamental dari identitas musuh menjadi mitra. Dalam Retorika Keamanan, para pemimpin yang membingkai pesaingnya sebagai "tahanan yang pasti akan khianat" justru akan mewujudkan dunia konfliktual yang mereka duga. Inilah inti dari "self-fulfilling prophecy" yang berbahaya dalam politik global.

Jalan Panjang Menuju Kerja Sama

Kita telah menempuh perjalanan panjang, dari ruang interogasi polisi yang sempit hingga panggung geopolitik global. Prisoner's Dilemma, meskipun merupakan abstraksi matematis sederhana, tetap menjadi salah satu alat paling tajam dalam kotak peralatan intelektual kita untuk membedah mengapa konflik dan kegagalan kerja sama sering kali terjadi di antara para aktor yang rasional sekalipun.
Pelajaran yang bisa kita bawa pulang ada beberapa, di antaranya:
  1. Pertama, struktur masalah itu penting. Sebelum merancang solusi, kita harus mendiagnosis dengan benar jenis permainan apa yang kita mainkan. Apakah ini Prisoner's Dilemma klasik, dilema persepsi, atau Assurance Game? Miskomunikasi diagnosis dapat menghasilkan kebijakan yang kontraproduktif dan berbahaya.
  2. Kedua, konteks adalah segalanya. Logika suram dari PD single-shot bisa berubah secara radikal ketika kita memperhitungkan "bayang-bayang masa depan," jumlah pemain, dan kehadiran institusi yang memantau dan memverifikasi. Ini mengajarkan bahwa diplomasi adalah seni memperpanjang bayang-bayang masa depan dan membangun arsitektur kepercayaan.
  3. Ketiga, strategi sederhana sering kali paling ampuh. Kemenangan "Tit-for-Tat" menunjukkan bahwa dalam lingkungan yang kompleks dan anarkis, sinyal yang jelas, resiprositas yang dapat diprediksi, dan kemauan untuk memaafkan adalah fondasi yang lebih kokoh untuk ketertiban daripada strategi yang rumit dan licik.
  4. Keempat, dan yang paling penting, kerja sama itu mungkin. Ini adalah pesan paling optimis dari seluruh tradisi penelitian ini. Bahkan di antara para egois yang rasional, tanpa pemerintah dunia, kerja sama dapat muncul, bertahan, dan berkembang. Ini bukan berarti kerja sama itu mudah atau niscaya. Ia memerlukan kerja keras, desain institusional yang cerdas, dan sering kali keberanian untuk mengambil langkah pertama yang penuh risiko, langkah "nice" pertama dari Tit-for-Tat.
Pada akhirnya, memahami Prisoner's Dilemma bukanlah untuk mengamini pesimisme, tetapi untuk menggali optimisme yang bersandar pada pemahaman. Ia mengajarkan bahwa tragedi itu nyata, tetapi jalan keluar juga demikian. Ia tidak menjanjikan surga dunia yang penuh dengan malaikat, tetapi ia menawarkan cetak biru bagi para pembuat kebijakan, diplomat, dan warga dunia biasa yang ingin membangun dunia yang sedikit lebih kooperatif daripada sebelumnya. Dan di zaman yang penuh dengan tantangan lintas batas, iklim, pandemi, proliferasi nuklir, hal itu mungkin sudah cukup baik untuk diperjuangkan.

Daftar Pustaka

Amadae, S. M. (2025). Prisoner's Dilemma. In B. Jahn & S. Schindler (Eds.), Elgar Encyclopedia of International Relations (pp. 324-325). Edward Elgar. https://doi.org/10.4337/9781035312283.000147

Axelrod, R. (1984). The evolution of cooperation. Basic Books.

Chiu, Y.-W., Hsiao, C.-W., & Wang, Y.-L. (2022). An experimental study of intra- and international cooperation: Chinese and American play in the Prisoner’s Dilemma Game. China Economic Review, 74, 101807. https://doi.org/10.1016/j.chieco.2022.101807

Davidson, J., & Newman, M. (1990). Australian perceptions of the nuclear arms race: A conflict of interests or a misunderstanding? Australian Psychologist, 25(1), 15-24. https://doi.org/10.1080/00050069008259587

FIW. (2012). (When) Does Tit-for-Tat Diplomacy in Trade Policy Pay Off? (FIW Working Paper No. 101). https://www.fiw.ac.at

Jervis, R. (1978). Cooperation under the security dilemma. World Politics, 30(2), 167-214. https://doi.org/10.2307/2009958

Keohane, R. O. (1984). After hegemony: Cooperation and discord in the world political economy. Princeton University Press.

Lackey, D. P. (1989). Prisoners and chickens. In S. Luper-Foy (Ed.), Problems of international justice (pp. 209-222). Westview Press. https://doi.org/10.4324/9780429303111-14

Marks, M. P. (2004). The prison as metaphor: Re-imagining international relations. Peter Lang.

Naoi, M. (2026, February 22). Geopolitics and firm demand for diplomacy, tit-for-tat, and decoupling: Evidence from Japan during Trump's tariff negotiations [Seminar]. Munk School of Global Affairs and Public Policy, University of Toronto. UT Synergy Journal. http://utsynergyjournal.org/2026/02/22/geopolitics-and-firm-demand-for-diplomacy-tit-for-tat-and-decoupling-evidence-from-japan-during-trumps-tariff-negotiations/

Oye, K. A. (Ed.). (1985). Cooperation under anarchy. Princeton University Press.

Plous, S. (1993). The nuclear arms race: Prisoner's dilemma or perceptual dilemma? Journal of Peace Research, 30(2), 163-179. https://doi.org/10.1177/0022343393030002004

PRIO. (2000). The Prisoner's Dilemma and regime-switching in the Greek-Turkish arms race. Peace Research Institute Oslo.

R Street Institute. (2025, December 12). Low-Energy Fridays: Why is it so hard to get nations to agree to reduce greenhouse gas emissions? R Street Institute. https://www.rstreet.org

Snidal, D. (1991). International cooperation among relative gains maximizers. International Studies Quarterly, 35(4), 387-402. https://doi.org/10.2307/2600947

Soroos, M. S. (1994). Global change, environmental security, and the prisoner's dilemma. Journal of Peace Research, 31(3), 317-332. https://doi.org/10.1177/0022343394031003006

Spaniel, W. (2011). Game theory 101: The complete textbook. William Spaniel.

Wu, J., & Axelrod, R. (1995). How to cope with noise in the iterated prisoner's dilemma. Journal of Conflict Resolution, 39(1), 183-189.

Posting Komentar

0 Komentar