ISSM Reflection

學習

Author

YinYun Li

Published

December 23, 2025

Background

這個營隊的前身是政治學計量方法研習營，主要招收政治系的學生，直到2023年更名為社會科學計量方法研習營，招生對象拓展至整個社會科學領域（經濟、社會、法律、心理……）。

我看了一下過往的營隊主題，無非是圍繞在因果推論、類別資料分析、跨時或跨層次的資料分析，今年則是首度以資料科學作為主題，但課程內容與過往某些題材是有呼應的。不過如果之後想報名的，可以研究一下課表看自己想學的是什麼，再決定報名也不遲。

那我為什麼報名呢？好像也沒什麼強烈的動機。有兩個朋友傳了連結給我，也在另一個朋友的貼文看到這則資訊，看著課名也猜不出具體想傳授的內容，反正報名也無須負擔任何成本，就簡單寫了一些文件完成手續。

當初收到錄取通知的時候，還跟參加過這個營隊的學長聊過，結論是到這個營隊主要還是去交朋友的，這項資訊在我心中形塑了對ISSM沒有特別期待的prior belief，畢竟我沒有那麼喜歡社交。但我就是那種選上的課程就不會想退掉的人，所以最後還是選擇來中研院三周，想說認識一些新的概念或他人的研究也不錯。而事後看來這趟也算是不虛此行。

Coursework

Causal Inference

前面提到今年的主題是資料科學，其中有很大一部份在講因果推論(causal inference)。我是經濟系大學部的學生，在參加營隊前已經修過最基礎的統計與計量經濟學，也略懂因果推論的架構(Angrist’s Mostly Harmless Econometrics)，但我想這樣就足夠應付營隊裡面跟causal inference有關的課程（當然還是有些例外），畢竟這個營隊沒有涉及太多的數學推導。

我所學的causal inference，是從potential outcome framework出發(比如Roy model)，理解反事實推論是整個因果推論最本質的難題(the fundamental problem of causal inference)。

社會科學關心causality，在某些情境下可以被定義為treatment effect，資料上沒辦法直接看到反事實的部分，意即沒辦法直接求出treatment effect，這時候就需要仰賴一些identification assumption去測量這個效果。所謂的identification，就是當樣本數趨近無限大時，可以”正確”recover 我們關心的參數。當我們確定效果可以被識別後，這時候才進入統計估計(estimation)與檢定的環節。

簡單來說，因果推論主要走過的流程就是 “definition \(\rightarrow\) identification \(\rightarrow\) estimation”。當然這只是很粗略的介紹，很多名詞沒有被明確的定義，如果修過計量經濟學，然後來到這個營隊上課，加起來可能會聽了5,6輪左右，所以如果很熟因果推論的可能會有點小失望或無聊，倒不是因為本身就知道這些東西，而是大部分的內容就是蜻蜓點水的帶過，作為接觸不只一次的學習者來說，會更渴望知道背後更多的細節。

舉例來說，這次因果推論的課程，內容涵蓋的identification strategy主要有random assignment, CIA, instrumental variable, regression discontinuity。很多老師都很喜歡講IV, 初學者一定會從同質性(homogeneous)的treatment effect出發，接著開始考慮異質性(heterogeneous) treatment effect，就像是在做實驗的時候，研究者給受試者treatment，後者會選擇要不要接受(compliance)，這時就需要額外的假設去估計所謂的local average treatment effect。這些東西是最基礎的計量經濟學內容，每次聽不同的人講都會有不同的詮釋與理解方式，不過如果IV想要再多學一點點，或許應該多加一點延伸的題材，比如Heckman selection model或是Generalized Methods of Moments(GMM)，這些都是我還沒真的學過或弄懂，但一直聽到的名詞。

但整體而言，我認為營隊的這些課程，某方面讓我回憶過往所學，某方面又拓展了新的知識領域，更重要的是可以拿到素材，在未來需要的時刻可以用上，或者閒來無事（好像沒有這種時候？）時可以拿起來把玩。以下容我以流水帳的帶過這些內容：

Introduction to Data Science

講了一些原理性的內容，老實說聽的時候挺無聊的，還好老師有寫一些github pages document 跟一些 sample code，算是非常豐富的學習資源。

Categorical data analysis

這是某些年度計量營的主題，其實本質上就是在講 logistic regression。想當自己當初修民意調查的時候為了跑 ordered logistic 還自己跑去了研究一番，所以聽下來整個脈絡是清楚的，只是最後好像還是沒辦法腦袋很清晰地去詮釋係數代表的意義，必須要停下來想一想、動筆推一推，用 odd ratio 的變化去解釋。

Text analysis / Dimension Reduction

不太知道未來甚麼時候會需要用到文本分析，但在半天維度縮減的課程中，林澤民老師用紅樓夢80/40回的作者爭議作為案例，用PCA去看前後部分寫作的差異，算是滿有趣的。至於技術上的細節，我想等修完線性代數再來研究。

Causal Inference and Machine Learning

周翔——本次營隊最大魔王。Regression estimator跟inverse probability estimator 因為冠銘有教所以也算是複習，doubly robust estimator 概念上就是前兩種的混合所以也很好理解，只是跨到機器學習的那塊就有點似懂非懂了。

第二天講到了連續型的treatment，以及周翔擅長的mediation analysis，似乎社會學很喜歡用，我希望有機會能弄懂。

周翔甚至擔任了一場keynote speech的講者，講了一篇他發表的paper，主題是如何衡量不平等這件事情。他先說了傳統分解方法 (KOB method)的侷限，再提出一個prescriptive的方法，從既有的資料去做一些實驗看哪種分配方式比較公平（如果我沒有理解錯的話?）

聽完的感想就是，雖然他是Harvard社會學系的教授，他講了半天都在講方法論的東西，甚至還看到他有發過期刊是關於一些方法的推廣，很好奇為什麼不是他不是方法論的學者，或者從經濟系的角度來說為什麼他不是計量經濟學家……

Agent-Based Modelling

還沒搞懂ABM跟賽局之間的關係。雖然上課的模型比較偏向流行病學的研究，但看到一些差/微分方程的圖，直接想起修古媽賽局時演化賽局這個主題，包含計算replicator equation，找到一個穩定的rest point，最後還要去證明這些候選點在特定的情況下會是演化穩定策略(evolutionary stable strategy)。雖然沒辦法直接連結賽局與ABM，但感受到兩者間存在某種關聯，在上課的那個當下就快要跳起來了，因為感到特別興奮。

Others

當然還有一些很棒的課程與老師，只是沒什麼特別的心得好寫的，重點是能不能把這些素材吸收完才是重點。

比如任教於Madison的Adelin講授的Survey Experiments, Hebert談了computational social science，並與資料科學做結合；還有一天請了四位客座講師，討論了如何從資料走向研究。

葉高華老師的纏足研究中，找遺漏變數的方法實在太酷了；至於data-driven本身是好是壞，我想應該很難否認適時「偷窺」data來尋找靈感這件事情，剩下的就等我累積一些東西再來思考這個哲學層次上的問題吧！

林明仁老師也就不用說了，每次上他的經原就在聽故事一樣，這次又講了他常常掛在嘴邊的evidence-based policy的內容，每次聽完都能重新感受林老師說故事的風采與能力。

Presentation

無庸置疑，學習新知是營隊的第一收穫，我認為這營隊第二個有意義的地方在於要提一個研究主題。雖然我當初填表單的時候是沒有想要上台發表的意願，但最後知道每個人都必須上台後，就開始苦思冥想要做甚麼題目。（所以說當初為什麼表單要問這一題？）

果然我最大的罩門還是問不出一個好問題。有想過要做家庭托育跟年金改革，但感覺在三周的時間內沒辦法轉換成一個可行的研究設計。看了一下當初寄出去的研究興趣寫著：

（家庭托育）當政府提供不同的托育方案，對於已婚卻沒有小孩的家庭，會如何影響他們的生育決策？對於必須照顧幼齡兒童的雙薪家庭而言，在小孩出生後，應該如何安排照顧？準公共托育實施後，父母親的勞動供給與家庭內部分工會有甚麼改變？我想試圖建構一個家庭決策模型，利用實際資料回答上述的問題。

（年金）自2023年起，初任公教人員不再適用原先退撫基金制度，轉為以個人專戶決定退休金的確定提撥制。我想從這項變革出發，延伸探討公私部門的薪資結構與退休金制度差異，如何影響個人的職涯選擇與工作動機。

這些都是重要的問題，但處理起來太過複雜，再加上現在的我孤陋寡聞，可能必須想一些更簡單的題目，但結論就是沒有想到，如果不是可以抱團，我可能現在也還沒想到題目。

Proposal

C原本的提議是想做女性生育對勞動或薪資的影響，由於這會有selection的問題，所以最理想的做法就是去找 IV。只能說 IV 是可遇不可求的，你心中想的所有IV，很可能別人都想過了，而且要說服別人我們找的 IV是符合一些假設的，感覺就要經過一番論戰。加上一些原因，我認為這個題目或許很難用我們現在會的工具去分析的，所以不太想要做這個題目。

C後來又想到看義務役役期改革對薪資的影響，一開始是想說第一份薪資，但後來修正為看某一個歲數的薪資，從人力資本的角度來看算是有故事的，假如兩個相似的個體，一個當一年兵，一個當4個月的兵，假如當兵後進入勞動市場所花的時間相同，那麼累積到25歲時，感覺上當4個月的兵薪資成長比較高。而政府這項兵役改革的斷點定在出生年1994，理論上就可以設計一個regression discontinuity。我們拿了 repeated cross-sectional的survey data 看看有沒有所謂的斷點產生，但資料點真的是少得可憐（樣本數、出生年沒有細緻到月），根本沒辦法看到跳升的感覺。而且如果硬跑一個RD卻發現共線性的問題，我自己想了半天也想不出來，結果到前一天跟C討論才發現這是survey data的問題。唉！雖然我懂共線性，但在那個當下真的完全沒想到survey data會有這種問題（以及是我們的dependent variable 是 wage at the specific age）。

既然看不到任何初步的結果，我們上台也只講了：

此處的RDD沒辦法用於survey data，可能需要行政資料。
硬跑一個event study說服大家latter cohort在某歲數的薪資是有上升的趨勢 (這裡感謝指導的助教 Y)。
寫了一個不是很好的dynamic discrete choice model（因為我只會這個），看能不能用structural model 去做政策實驗，比如可以看4個月改回1年對勞工的影響。

結果C跟我還是有拿到林繼文獎學金，相比其他人的作品實在是有點羞愧，感覺有著大學生紅利才拿獎的XD 畢竟是52名學員取16名，大部分拿獎的是碩士生或博士候選人，很多都是他們已經寫完的碩士論文，我們甚至沒有做出什麼名堂來，只能說自己滿幸運的。

也感謝在營隊結識的朋友T，他想了一個很有趣的主題，關於酒駕修法對量刑的影響，我只不過是在旁邊多嘴了幾句，結果最後就被他掛名了，真是不好意思 ~~

至於我多嘴了什麼呢？原本他想做RD in time，但第一周聽到這個東西似乎跟傳統的RD有點差異，跟所學有點衝突，幸好最後沒有用（講評人說如果要申請博班千萬不要用這個東西XD）；後來我又想了是不是可以跑 staggered DiD，結果實際跑過才知道這根本不是一個panel data；最後只能回到regression monkey最會的伎倆OLS，兜出一個有趣的法實證故事。

Recap

總整一下，我認為在營隊學到的比想像中還多。還記得當初的prior belief是不抱太大的期待，但營隊過後形塑了完全不同的posterior belief。

第一個自然是學到新的東西，需要花一些時間吸收，如果只是線上聽這個營隊的課程，一來是沒有material，二來是有些課程不會直播，我個人感覺只有實體參加這個營隊才有學習的感覺。

第二個則是練習提proposal。這個是計量營，所以本質上應該是要多往方法這塊著墨。對於我這種紙上談兵的人來說，這次是真的有實際的案例去思考自己的regression有哪些犯規的地方，然後試著找出來並思考如何解決，我想這是最重要的。

一個小抱怨，因為這是計量營，也就是方法論的營隊，有點不太明白為什麼很多評論者都一直圍著報告者的研究問題評論，我想能不能好好地解釋採用的方法可以identify 某種因果關係，這才是重要的吧？

最後則是人脈，朋友C跟學姊Y我本來就認識，讓我這個邊緣人在營隊可以正常生活；也剛好有機會遇見T，這是非常意想不到的收穫；也感謝一起住了三周的碩四室友，聽了他許多有趣的分享。對於我這種生活圈相對狹隘的人，或許只有在一些機緣下（比如計量營），才有辦法真實感受到碩博士的想法與自己的不同，或者從某個角度來說比大學生更有層次。至於其他的人，有些是點頭之交，有些則是完全沒有搭話過的，這些弱連結在未來是不是真的有甚麼實質上的幫助，我覺得很難說，此刻可能先按下不表。

所以要我推薦這個營隊嗎？我是鼓勵參加的，不過單純看個人的取向為何。比如你想學東西、或是你想交朋友。而我自己從頭到尾就只想著第一個，朋友的話隨緣就好，不過就結果來看是獲得更多額外的東西，所以整體來看是滿不賴的，是吧。