Data Preprocessing

離散資料和連續資料

離散資料和連續資料是統計學中常用的兩種資料類型,它們之間的主要區別在於值的型態和可取的值範圍。


離散資料:

投擲一枚骰子,可能出現的點數是1、2、3、4、5、6,這些點數是離散的,因為骰子不會出現1.5或3.7等中間值。

一個班級裡學生的人數,例如30人、31人、32人等,這些數字是離散的,因為學生的人數不會是31.5或32.7等小數。


連續資料:

一個人的身高,可以是任何實數值,例如160厘米、165.5厘米、172.3厘米等,這些數字是連續的,因為身高可以是任意一個數值,包括小數。

某城市每小時的溫度變化,例如20°C、21.5°C、22.8°C等,這些溫度是連續的,因為溫度可以是任何實數值。


簡而言之,離散資料的值是有限且不連續的,而連續資料的值則是無限且可以是任意的實數值。

資料切割 Data Splitting

資料切割(Data Splitting)是機器學習中常用的一個步驟,主要是將原始數據集切割成訓練集(training set)、驗證集(validation set)和測試集(testing set),以便用於模型訓練、調優和評估。

總的來說,訓練集用於訓練模型,驗證集用於調整模型的超參數和評估模型的性能,而測試集用於最終評估模型在未見過的新數據上的預測能力。這樣的數據切割方式有助於確保模型訓練和評估的準確性和穩定性。

特徵縮放 - 標準化和正規化

特徵縮放是在機器學習和數據分析中常用的一個步驟,目的是將特徵值進行轉換,使其在一個特定的範圍內,以便更好地進行模型訓練或數據分析。

總的來說,標準化是將特徵值轉換成均值為0,標準差為1的標準分佈,而正規化則是將特徵值縮放到一個特定的範圍內,使其具有一致的尺度。這兩種方法都有助於提高模型的性能和準確性。

特徵編碼 Feature Encoding

特徵編碼(Feature encoding)是在機器學習和數據分析中常用的一個步驟,主要是將原始的類別型特徵轉換成數值型特徵,以便機器學習模型能夠更好地理解和處理這些特徵。特徵編碼的目的是將非數值型的資料轉換成數值型,從而可以應用於機器學習算法中。

以下是幾種常用的特徵編碼方法:

特徵編碼的選擇取決於數據的特性、機器學習模型的需求以及對模型性能的影響。正確的特徵編碼方法可以提高模型的準確性和泛化能力。