ISSM Reflection
Background
這個營隊的前身是政治學計量方法研習營,主要招收政治系的學生,直到2023年更名為社會科學計量方法研習營,招生對象拓展至整個社會科學領域 (經濟、社會、法律、心理……)。
我看了一下過往的營隊主題,無非是圍繞在因果推論、類別資料分析、跨時或跨層次的資料分析,今年則是首度以資料科學作為主題,但課程內容與過往某些題材是有呼應的。不過如果之後想報名的,可以研究一下課表看自己想學的是什麼,再決定報名也不遲。
那我為什麼報名呢?好像也沒什麼強烈的動機。有兩個朋友傳了連結給我,也在另一個朋友的貼文看到這則資訊,看著課名也猜不出具體想傳授的內容,反正報名也無須負擔任何成本,就簡單寫了一些文件完成手續。
當初收到錄取通知的時候,還跟參加過這個營隊的學長聊過,結論是到這個營隊主要還是去交朋友的,這項資訊在我心中形塑了對ISSM沒有特別期待的prior belief,畢竟我沒有那麼喜歡社交。但我就是那種選上的課程就不會想退掉的人,所以最後還是選擇來中研院三周,想說認識一些新的概念或他人的研究也不錯。而事後看來這趟也算是不虛此行。
Coursework
Causal Inference
前面提到今年的主題是資料科學,其中有很大一部份在講因果推論(causal inference)。我是經濟系大學部的學生,在參加營隊前已經修過最基礎的統計與計量經濟學,也略懂因果推論的架構(Angrist’s Mostly Harmless Econometrics),但我想這樣就足夠應付營隊裡面跟causal inference有關的課程(當然還是有些例外),畢竟這個營隊沒有涉及太多的數學推導。
我所學的causal inference,是從potential outcome framework出發(比如Roy model),理解反事實推論是整個因果推論最本質的難題(the fundamental problem of causal inference)。
社會科學關心causality,在某些情境下可以被定義為treatment effect,資料上沒辦法直接看到反事實的部分,意即沒辦法直接求出treatment effect,這時候就需要仰賴一些identification assumption去測量這個效果。所謂的identification,就是當樣本數趨近無限大時,可以”正確”recover 我們關心的參數。當我們確定效果可以被識別後,這時候才進入統計估計(estimation)與檢定的環節。
簡單來說,因果推論主要走過的流程就是 “definition \(\rightarrow\) identification \(\rightarrow\) estimation”。當然這只是很粗略的介紹,很多名詞沒有被明確的定義,如果修過計量經濟學,然後來到這個營隊上課,加起來可能會聽了5,6輪左右,所以如果很熟因果推論的可能會有點小失望或無聊,倒不是因為本身就知道這些東西,而是大部分的內容就是蜻蜓點水的帶過,作為接觸不只一次的學習者來說,會更渴望知道背後更多的細節。
舉例來說,這次因果推論的課程,內容涵蓋的identification strategy主要有random assignment, CIA, instrumental variable, regression discontinuity。很多老師都很喜歡講IV, 初學者一定會從同質性(homogeneous)的treatment effect出發,接著開始考慮異質性(heterogeneous) treatment effect,就像是在做實驗的時候,研究者給受試者treatment,後者會選擇要不要接受(compliance),這時就需要額外的假設去估計所謂的local average treatment effect。這些東西是最基礎的計量經濟學內容,每次聽不同的人講都會有不同的詮釋與理解方式,不過如果IV想要再多學一點點,或許應該多加一點延伸的題材,比如Heckman selection model或是Generalized Methods of Moments(GMM),這些都是我還沒真的學過或弄懂,但一直聽到的名詞。
但整體而言,我認為營隊的這些課程,某方面讓我回憶過往所學,某方面又拓展了新的知識領域,更重要的是可以拿到素材,在未來需要的時刻可以用上,或者閒來無事(好像沒有這種時候?)時可以拿起來把玩。以下容我以流水帳的帶過這些內容:
Introduction to Data Science
講了一些原理性的內容,老實說聽的時候挺無聊的,還好老師有寫一些github pages document 跟一些 sample code,算是非常豐富的學習資源。
Categorical data analysis
這是某些年度計量營的主題,其實本質上就是在講 logistic regression。想當自己當初修民意調查的時候為了跑 ordered logistic 還自己跑去了研究一番,所以聽下來整個脈絡是清楚的,只是最後好像還是沒辦法腦袋很清晰地去詮釋係數代表的意義,必須要停下來想一想、動筆推一推,用 odd ratio 的變化去解釋。
Text analysis / Dimension Reduction
不太知道未來甚麼時候會需要用到文本分析,但在半天維度縮減的課程中,林澤民老師用紅樓夢80/40回的作者爭議作為案例,用PCA去看前後部分寫作的差異,算是滿有趣的。至於技術上的細節,我想等修完線性代數再來研究。
Causal Inference and Machine Learning
周翔——本次營隊最大魔王。Regression estimator跟inverse probability estimator 因為冠銘有教所以也算是複習,doubly robust estimator 概念上就是前兩種的混合所以也很好理解,只是跨到機器學習的那塊就有點似懂非懂了。
第二天講到了連續型的treatment,以及周翔擅長的mediation analysis,似乎社會學很喜歡用,我希望有機會能弄懂。
周翔甚至擔任了一場keynote speech的講者,講了一篇他發表的paper,主題是如何衡量不平等這件事情。他先說了傳統分解方法 (KOB method)的侷限,再提出一個prescriptive的方法,從既有的資料去做一些實驗看哪種分配方式比較公平(如果我沒有理解錯的話?)
聽完的感想就是,雖然他是Harvard社會學系的教授,他講了半天都在講方法論的東西,甚至還看到他有發過期刊是關於一些方法的推廣,很好奇為什麼不是他不是方法論的學者,或者從經濟系的角度來說為什麼他不是計量經濟學家……
Agent-Based Modelling
還沒搞懂ABM跟賽局之間的關係。雖然上課的模型比較偏向流行病學的研究,但看到一些差/微分方程的圖,直接想起修古媽賽局時演化賽局這個主題,包含計算replicator equation,找到一個穩定的rest point,最後還要去證明這些候選點在特定的情況下會是演化穩定策略(evolutionary stable strategy)。雖然沒辦法直接連結賽局與ABM,但感受到兩者間存在某種關聯,在上課的那個當下就快要跳起來了,因為感到特別興奮。
Others
當然還有一些很棒的課程與老師,只是沒什麼特別的心得好寫的,重點是能不能把這些素材吸收完才是重點。
比如任教於Madison的Adelin講授的Survey Experiments, Hebert談了computational social science,並與資料科學做結合;還有一天請了四位客座講師,討論了如何從資料走向研究。
葉高華老師的纏足研究中,找遺漏變數的方法實在太酷了;至於data-driven本身是好是壞,我想應該很難否認適時「偷窺」data來尋找靈感這件事情,剩下的就等我累積一些東西再來思考這個哲學層次上的問題吧!
林明仁老師也就不用說了,每次上他的經原就在聽故事一樣,這次又講了他常常掛在嘴邊的evidence-based policy的內容,每次聽完都能重新感受林老師說故事的風采與能力。
Presentation
無庸置疑,學習新知是營隊的第一收穫,我認為這營隊第二個有意義的地方在於要提一個研究主題。雖然我當初填表單的時候是沒有想要上台發表的意願,但最後知道每個人都必須上台後,就開始苦思冥想要做甚麼題目。(所以說當初為什麼表單要問這一題?)
果然我最大的罩門還是問不出一個好問題。有想過要做家庭托育跟年金改革,但感覺在三周的時間內沒辦法轉換成一個可行的研究設計。看了一下當初寄出去的研究興趣寫著:
(家庭托育)當政府提供不同的托育方案,對於已婚卻沒有小孩的家庭,會如何影響他們的生育決策?對於必須照顧幼齡兒童的雙薪家庭而言,在小孩出生後,應該如何安排照顧?準公共托育實施後,父母親的勞動供給與家庭內部分工會有甚麼改變?我想試圖建構一個家庭決策模型,利用實際資料回答上述的問題。
(年金)自2023年起,初任公教人員不再適用原先退撫基金制度,轉為以個人專戶決定退休金的確定提撥制。我想從這項變革出發,延伸探討公私部門的薪資結構與退休金制度差異,如何影響個人的職涯選擇與工作動機。
這些都是重要的問題,但處理起來太過複雜,再加上現在的我孤陋寡聞,可能必須想一些更簡單的題目,但結論就是沒有想到,如果不是可以抱團,我可能現在也還沒想到題目。
Proposal
C原本的提議是想做女性生育對勞動或薪資的影響,由於這會有selection的問題,所以最理想的做法就是去找 IV。只能說 IV 是可遇不可求的,你心中想的所有IV,很可能別人都想過了,而且要說服別人我們找的 IV是符合一些假設的,感覺就要經過一番論戰。加上一些原因,我認為這個題目或許很難用我們現在會的工具去分析的,所以不太想要做這個題目。
C後來又想到看義務役役期改革對薪資的影響,一開始是想說第一份薪資,但後來修正為看某一個歲數的薪資,從人力資本的角度來看算是有故事的,假如兩個相似的個體,一個當一年兵,一個當4個月的兵,假如當兵後進入勞動市場所花的時間相同,那麼累積到25歲時,感覺上當4個月的兵薪資成長比較高。而政府這項兵役改革的斷點定在出生年1994,理論上就可以設計一個regression discontinuity。我們拿了 repeated cross-sectional的survey data 看看有沒有所謂的斷點產生,但資料點真的是少得可憐(樣本數、出生年沒有細緻到月),根本沒辦法看到跳升的感覺。而且如果硬跑一個RD卻發現共線性的問題,我自己想了半天也想不出來,結果到前一天跟C討論才發現這是survey data的問題。唉!雖然我懂共線性,但在那個當下真的完全沒想到survey data會有這種問題(以及是我們的dependent variable 是 wage at the specific age)。
既然看不到任何初步的結果,我們上台也只講了:
- 此處的RDD沒辦法用於survey data,可能需要行政資料。
- 硬跑一個event study說服大家latter cohort在某歲數的薪資是有上升的趨勢 (這裡感謝指導的助教 Y)。
- 寫了一個不是很好的dynamic discrete choice model(因為我只會這個),看能不能用structural model 去做政策實驗,比如可以看4個月改回1年對勞工的影響。
結果C跟我還是有拿到林繼文獎學金,相比其他人的作品實在是有點羞愧,感覺有著大學生紅利才拿獎的XD 畢竟是52名學員取16名,大部分拿獎的是碩士生或博士候選人,很多都是他們已經寫完的碩士論文,我們甚至沒有做出什麼名堂來,只能說自己滿幸運的。
也感謝在營隊結識的朋友T,他想了一個很有趣的主題,關於酒駕修法對量刑的影響,我只不過是在旁邊多嘴了幾句,結果最後就被他掛名了,真是不好意思 ~~
至於我多嘴了什麼呢?原本他想做RD in time,但第一周聽到這個東西似乎跟傳統的RD有點差異,跟所學有點衝突,幸好最後沒有用(講評人說如果要申請博班千萬不要用這個東西XD);後來我又想了是不是可以跑 staggered DiD,結果實際跑過才知道這根本不是一個panel data;最後只能回到regression monkey最會的伎倆OLS,兜出一個有趣的法實證故事。
Recap
總整一下,我認為在營隊學到的比想像中還多。還記得當初的prior belief是不抱太大的期待,但營隊過後形塑了完全不同的posterior belief。
第一個自然是學到新的東西,需要花一些時間吸收,如果只是線上聽這個營隊的課程,一來是沒有material,二來是有些課程不會直播,我個人感覺只有實體參加這個營隊才有學習的感覺。
第二個則是練習提proposal。這個是計量營,所以本質上應該是要多往方法這塊著墨。對於我這種紙上談兵的人來說,這次是真的有實際的案例去思考自己的regression有哪些犯規的地方,然後試著找出來並思考如何解決,我想這是最重要的。
一個小抱怨,因為這是計量營,也就是方法論的營隊,有點不太明白為什麼很多評論者都一直圍著報告者的研究問題評論,我想能不能好好地解釋採用的方法可以identify 某種因果關係,這才是重要的吧?
最後則是人脈,朋友C跟學姊Y我本來就認識,讓我這個邊緣人在營隊可以正常生活;也剛好有機會遇見T,這是非常意想不到的收穫;也感謝一起住了三周的碩四室友,聽了他許多有趣的分享。對於我這種生活圈相對狹隘的人,或許只有在一些機緣下(比如計量營),才有辦法真實感受到碩博士的想法與自己的不同,或者從某個角度來說比大學生更有層次。至於其他的人,有些是點頭之交,有些則是完全沒有搭話過的,這些弱連結在未來是不是真的有甚麼實質上的幫助,我覺得很難說,此刻可能先按下不表。
所以要我推薦這個營隊嗎?我是鼓勵參加的,不過單純看個人的取向為何。比如你想學東西、或是你想交朋友。而我自己從頭到尾就只想著第一個,朋友的話隨緣就好,不過就結果來看是獲得更多額外的東西,所以整體來看是滿不賴的,是吧。