什么是天氣預報算法(什么是天氣預報算法的基本)

天氣預測又名氣象預報是由強大的超級計算機,其處理的當前天氣狀況的觀測數十萬完成。為了觀察當前的天氣,人類已經向太空發射了無數的衛星。這些衛星穿越地球并捕獲數據,然后發送到地球上建立的數據中心。
從衛星接收的數據是RAW格式,不提供任何類型的信息。因此,為了獲得知識,我們需要使用各種數學模型來處理它。
為了從RAW數據預測天氣,我們需要使數據適合于數學模型的輸入。處理后的數據存儲在數據倉庫中。那些存儲的數據可以直接將其作為數學模型的輸入,最終為我們提供所需的信息。
將RAW數據轉換為清理數據的過程稱為知識發現過程,換句話說,我們稱之為數據挖掘。為了預測信息,使用了各種數據挖掘方法,例如;
決策樹
基于規則的方法
神經網絡
樸素貝葉斯
貝葉斯信念網絡
支持向量機
在這些方法中,最著名的方法是決策樹方法。
什么是決策樹?
決策樹是樹狀圖或決策模型及其可能的后果,包括機會事件結果,資源成本和效用。決策樹的圖形表示可以是:
使用以下決策樹算法創建決策樹。
ID3(迭代dichotomiser3)
C4.5 (ID3的繼承者)
CART(分類和回歸樹)
CHAID(chi - squared自動互動探測器)
MARS(擴展決策樹以更好地處理數值數據)
使用ID3算法的示例:
讓我解釋一下,如何生成決策樹以及如何使用它進行預測。為了計算,我使用了ID3算法。使用以下數據集,我們將預測11月18日的天氣。
要從任何數據集創建決策樹,我們需要執行一些計算,比如熵,它是對消息來源不確定性的度量。它給了我們數據的無序程度。另一個是信息增益,用來測量熵的期望降低。它決定哪個屬性進入決策節點。執行計算后,決策樹將如下所示
觀察生成的決策樹后,您可以預測11月18日的天氣。
滑動窗口算法
ID3算法的主要缺點是天氣數據的小尺寸。正如您所見,我們只采用了5個參數[最高溫度,最低溫度,濕度,降雨量,前景],它可能會產生錯誤的預測。解決這個問題的方法是花費幾年的歷史數據,而不是一周。如果歷史趨勢與當前趨勢無關,則發生故障的風險更高。
通過滑動窗口算法解決了這個問題:
每周天氣趨勢可能與歷史數據不完全一致。可能存在可能抵消與當前條件相對接近的歷史趨勢的不同條件。滑動窗口算法通過從兩周數據集中采樣來解釋這種潛在的偏差。通過劃分該樣本數據,該算法可以確定最佳擬合 趨勢并預測第二天的天氣。
該算法的一個優點是它使用從前一年的同一時間段觀察到的數據。樣本數據也可以調整; 除了增加歷史觀察周的數量之外,還可以觀察到多年的數據。應限制增加觀察周數,以確保預測基于一年中的同一時間。
該算法的缺點在于,已經采樣的歷史數據可能無法參考當前的趨勢。這可能是由于前幾年沒有觀察到的有影響的天氣條件造成的。由于缺乏類似的數據,這樣的事件會導致預測偏差。
對于實驗觀點,您可以使用數據集和挖掘工具自行執行預測。我想建議一些實驗的工具和數據集存儲庫。
工具
Weka [廣泛使用]
Rapid Miner
數據集存儲庫
UCI機器學習庫 - 數據集(https://archive.ics.uci.edu/ml/datasets.html)
一種使用機器學習的現代方法
到目前為止,無論我們看到什么,都被稱為傳統的天氣預報方法。這些傳統方法非常不穩定,并且在預測中容易出錯。而且,我們無法預測使用它們的大部分時間,因為它們在那個階段變得不準確。
最常見的是,只有兩種機器學習技術用于天氣預報。
神經網絡
貝葉斯網絡
神經網絡本質上是高度動態的,因此它似乎是天氣預報中最受歡迎的機器學習模型選擇。與線性回歸和功能回歸模型不同,這種流行的主要原因是能夠捕獲過去天氣趨勢和未來天氣條件的非線性依賴性。
剩下的機器學習技術是貝葉斯網絡,它最終使用機器學習算法來找到最優的貝葉斯網絡和參數[溫度,濕度,前景等]。由于存在大量不同的依賴性,貝葉斯網絡的計算成本非常昂貴。