Ray Sin Learning notes

喜歡分析資料、計算數字、善用工具的統計學家

2020-03-04

Covariate shift Notes

Covariate shift

What is covariate shift
- 粗淺
  - 假設x是屬於特徵空間的某一樣本點，y是標籤。
  - covariate，就是這裡的x。
  - covariate shift 根據字面意思就是樣本點x的變化
- 規範
  - 假設
    - q1(x)是測試集中一個樣本點的機率密度，
    - q0(x)是訓練集中一個樣本點的機率密度。
    - 最終我們估計一個條件機率密度p(y|x, θ), 它是由x和一組參數θ={θ1, θ2, ..., θm}所決定。
  - 對於一組參數來說，可用loss(θ)函數去評估性能的好壞
  - 這裡有一個問題，當我們找出在q0(x)分布上最優的一組θ'時，能否保證q1(x)上的測試時也最好呢?
    - 傳統機器學習
      - 假設訓練集和測試集是獨立同分布的，即q0(x)=q1(x), 所以可以推出最優θ'，進而保證q1(x)是最優的。
    - 現實
      - 假設往往不成立，伴隨新數據產生，老數據會過時，當q0(x)不再等於q1(x)，就被稱作covariate shift
How to solve the problem of covariate shift
- 附加一個由x決定的權值
  - w(x)=q1(x)/q0(x)
  - 重要
    - q1(x) 很大
    - q0(x) 很小
  - 老數據
    - q1(x) 很小
    - q0(x) 很大
從遷移學習的角度來看
- 一種用source domain的標籤數據，結合target domain的無標籤數據，指導進行知識遷移的方法。

reference:https://blog.csdn.net/mao_xiao_feng/article/details/54317852

回首頁