《2012數學建模A題論文-葡萄酒評價.doc》由會員分享,可在線閱讀,更多相關《2012數學建模A題論文-葡萄酒評價.doc(34頁珍藏版)》請在裝配圖網上搜索。
1、1葡萄酒的評價摘要本文主要運用統計分析方法,解決與所釀葡萄酒有關的問題。對于問題一,,分別對白酒和紅酒的兩組數據進行差異性檢驗。構建一個能反應葡萄酒本身質量的量,對兩組數據分別進行相關性分析,得到第二組評酒員的結果更可信。對于問題二,先做聚類分析,再做線性回歸分析,得到白、紅葡萄分為4級和3級。對于問題三,利用問題二中聚類得到的7個主成分,把每種葡萄酒的理化指標與釀酒葡萄之間的7個主成分進行相關性分析,得到7個回歸方程,即為釀酒葡萄與葡萄酒的理化指標之間的聯系。對于問題四,首先建立模型:12W=a*Y+b*Y。其中a,b分別為釀酒葡萄和葡萄酒對葡萄酒質量的貢獻率,1Y,2Y分別為兩種因素的貢獻
2、值。然后,通過確定芳香物質是否對葡萄酒的評分有影響來論證能否用葡萄和葡萄酒的理化指標評價葡萄酒的質量。問題一中,本文運用excel做兩組數據的顯著性差異檢驗,得到兩組評酒員在評論白酒和紅酒都存在顯著性差異,且通過了F檢驗。接著本文通過確定各指標的權重,構建一個能反應各葡萄酒實際平分的量,把兩組數據與之做相關性分析,發(fā)現第二組與之相關性更大,故第二組評酒員的結果更可信。問題二中,本文通過SPSS做理化指標的聚類分析,得到7個主成分;再做指標與評分的線性回歸分析,得到白葡萄的分級結果為4級:一級:白釀酒葡萄14,22;二級:白釀酒葡萄4,5,9,19,23,25,26,28;三級:白釀酒葡萄24,
3、27;四級:白釀酒葡萄1,2,3,6,7,8,10,11,12,13,15,16,17,18,20。紅葡萄酒為3級:一級:紅釀酒葡萄2,9;二級:紅釀酒葡萄3,4,10,22,24;三級:紅釀酒葡萄1,5,6,7,8,11,12,13,14,15,16,17,18,19,20,21,23,25,26,27。問題三中,本文運用excel將葡萄酒的一級指標分別與7個主成分進行相關性分析然后對每種主要成分利用SPSS進行線性回歸分析得到以下7個回歸方程:r1134r21367r3137r4136r6137r71Y=-39.542+1.727+21.850+3.9463Y=4.044+0.026-0.
4、156-0.005-0.1954Y=2.807+0.021-0.030-0.1895Y=2.700+0.024-0.169-0.0056Y=0.069+0.001-0.006-0.0077Y=70.028-0.188+xxxxxxxxxxxxxxxxx2347r8123560.841+0.280-0.187+1.7048Y=58.545-0.021-1.028+1.666+27.045-0.0049xxxxxxxxx即為每種釀酒葡萄與葡萄酒理化指標之間的聯系。問題四中,建立模型:12W=a*Y+b*Y。對模型運用線性回歸的方法,得到2紅色葡萄酒中紅色釀酒葡萄和葡萄酒對葡萄酒質量的影響方程為:1
5、2W=0.078Y+0.947Y-1.735。白色葡萄酒中釀酒白葡萄對葡萄酒質量的影響力為:y=1.01x-0.854;白葡萄酒的理化指標對葡萄酒的質量無影響。考慮到葡萄酒的評分與芳香物質有關,于是通過單獨確定芳香物質是否對葡萄酒的評分有影響來論證能否用葡萄喝葡萄酒的理化指標評價葡萄酒的質量。最終得到能用葡萄和葡萄酒的理化指標來評價葡萄酒的質量。關鍵詞:聚類分析主成分分析多元線性回歸spssexcel3一、問題重述確定葡萄酒質量時一般是通過聘請一批有資質的評酒員進行品評。每個評酒員在對葡萄酒進行品嘗后對其分類指標打分,然后求和得到其總分,從而確定葡萄酒的質量。釀酒葡萄的好壞與所釀葡萄酒的質量有
6、直接的關系,葡萄酒和釀酒葡萄檢測的理化指標會在一定程度上反映葡萄酒和葡萄的質量。附件中給出了某一年份一些葡萄酒的評價結果以及該年份這些葡萄酒的和釀酒葡萄的成分數據。建立數學模型討論下列問題:1.(1)分析附件1中兩組評酒員的評價結果有無顯著性差異;(2)兩組評酒員哪一組結果更可信?2.根據釀酒葡萄的理化指標和葡萄酒的質量對這些釀酒葡萄進行分級。3.分析釀酒葡萄與葡萄酒的理化指標之間的聯系。4分析釀酒葡萄和葡萄酒的理化指標對葡萄酒質量的影響,并論證能否用葡萄和葡萄酒的理化指標來評價葡萄酒的質量?二、模型假設1.假設所給附件中,數據均準確可靠。三、符號說明11,2,3,4igi:四組數據的偏度值。
7、21,2,3,4jgj:四組數據的峰度值。012:H,則假設兩組品酒員的兩組評價結果無顯著差異。11:H,2不相等,則假設兩組品酒員的兩組評價結果有顯著差異。4:相關系數。Y:回歸方程。四、問題分析4.1第一問需要根據附件1中給出的兩組評酒員的評價結果數據,判斷兩組評價結果有無顯著性差異,在判斷哪一組結果更可信。本文用Excel對兩組評價結果進行方差分析,直接比較輸出結果即可得出有無顯著性差異的結論。但是能夠進行方差分析的先決條件是數據滿足正態(tài)分布,所以實現要驗證四組將進行方差分析的四組數據是否滿足正態(tài)分布。對于可信度的判斷,本文將從選取葡萄酒樣品的一級指標進行權重分析,將權重與一級指標進一步
8、計算得到新的權值,再將這組權值與兩組評酒員的評價結果的平均值進行相關分析,對得到的相關系數作比較即可判斷可信度的高低。為了更全面的考慮其可信度,本文也會對其標準差進行對比,雙重驗證其可信度。4.2用相關分析法和主成分分析法將用于計算的釀酒葡萄理化指標進行了篩選,最終確定的7個主成分所包含的成分指標基本可以代表所有測定的成分指標。用SPSS求出紅釀酒葡萄和白釀酒葡萄的多元線性回歸方程,用聚類分析法繪制樹狀聚類圖,再利用回歸方程,對釀酒葡萄進行分級。4.3要分析釀酒葡萄與葡萄酒的理化指標之間的聯系,用SPSS將葡萄酒的一級指標分別與釀酒葡萄的7個主成分進行相關性分析,建立回歸方程,既能說明釀酒葡萄
9、與葡萄酒的理化指標之間的聯系。五、模型的建立與求解5.1對第一問求解5.1.1(1)分析判斷附件一中兩組評酒員的評價結果有無顯著性差異,利用雙因素方差分析,以紅酒為例,將問題轉述為:分析第一組和第二組評酒員對27種紅酒樣品的評價結果有無顯著差異性。要利用雙因素方差分析,首先數據要滿足正態(tài)分布。判斷數據是否滿足正態(tài)分布可以根據其偏度和峰度來衡量。偏度:31311niigXXs峰度:42411niigXXs偏度反應分布的對稱性。10g稱為右偏態(tài),此時數據位于均值右邊的比位于左邊的多;10g稱為左偏態(tài),情況相反;而1g接近于0則可認為分布是對稱的。峰度是分布形狀的另一種度量。正態(tài)分布的峰度為3,若2
10、g比3大很多,表5示分布有沉重的尾巴,說明樣本中含有較多遠離均值的數據,因而峰度可用作衡量偏離正態(tài)分布的尺度之一。用Matlab計算出四組數據的偏度與峰度:對于紅葡萄酒,第一組評酒員的評價結果110.9214g,213.5464g;第二組評酒員的評價結果120.1343g,222.5521g;對于白葡萄酒,第一組評酒員的評價結果130.3717g,232.8229g;第二組評酒員的評價結果140.8295g,243.8269g。11,2,3,4igi為四組數據的偏度值,21,2,3,4jgj為四組數據的峰度值。四組偏度值均趨近于0,四組峰度值均趨近于3,所以可以認為方差分析要使用到得四組數據均
11、服從正態(tài)分布。、5.1.1(2)現在可以進行差異性的分析。先準備表格(見表1)。表1紅葡萄酒品嘗評分表紅葡萄酒樣品123424252627第一組62.780.380.468.67869.273.873第二組68.17474.671.271.568.27271.5白葡萄酒樣品123425262728第一組8274.278.379.477.181.364.881.3第二組77.975.875.676.979.574.37779.6然后提出假設012:H(兩組品酒員的兩組評價結果無顯著差異)11:H,2不相等(兩組品酒員的兩組評價結果有顯著差異)最后在Excel內進行計算,輸出結果見表2。表2紅葡萄
12、酒樣品評價結果的方差分析的Excel輸出結果差異源SSdfMSFP-valueFcrit行88.67852188.678526.1406570.0200274.225201列1444.7292655.566513.8477740.0005071.929213誤差375.47152614.44121總計1908.87953可得出結論:6.1406574.225201FF,拒絕原假設0H,說明對于紅葡萄酒,兩組評酒員的評價結果有顯著性差異。6同理對兩組評酒員對28種白酒樣品的評價結果的差異性進行分析。進行方差分析的Excel輸出結果見表3。表3白葡萄酒樣品評價結果的方差分析的Excel輸出結果差異
13、源SSdfMSFP-valueFcrit行89.00643189.006436.8903550.0140934.210008列545.83432720.216081.565010.125441.904823誤差348.77362712.91754總計983.614355可得出結論:6.8903554.210008FF,拒絕原假設,說明對于白葡萄酒,兩組評酒員的評價結果有顯著性差異?,F綜合對兩組評酒員對葡萄酒的評價結果的差異性進行分析,其方差分析的輸出結果見表4。表4兩種葡萄酒評價結果綜合方差分析的輸出結果差異源SSdfMSFP-valueFcrit行0.01781810.0178180.001
14、0670.9740644.019541列2322.5595443.010352.575150.0003391.570884誤差901.91225416.70208總計3224.489109可得出結論:0.0010674.019541FF,接受原假設,說明兩組評酒員雖然對于紅葡萄酒和白葡萄酒的品評上雖存在顯著差異,但綜合來看兩組評酒員的綜合評價結果并無顯著性差異。5.1.2判斷結果的可信度先對紅葡萄酒的評價結果的可信度進行分析。在葡萄酒的理化指標中,選取一級指標進行權重分析,其中多次測量的數據取其平均值。通過簡單計算可以得到各一級指標的所占權重如表5。表5紅葡萄酒理化指標中各一級指標權重表花色苷
15、單寧總酚酒總黃酮白藜DPPH色澤平均值263.89907.26606.26504.89703.63000.223041.087050.373022.0810標準差230.03482.90442.52542.98502.89410.127521.368713.26887.5975變異系數0.87170.39970.40310.60950.79720.57060.52010.26340.3441權重0.18240.08360.08430.12750.16680.11940.10880.05510.0720將每種葡萄酒樣品一級理化指標的數值分別與其一級指標所占權重相乘再相加,得到一組由27個數值新構
16、成的權值。再將這組權值與兩組評酒員的評價結果的平均值進行相關分析,數據表見附錄一。運用Excel數據分析,得到結果為,對于紅葡萄酒,第一組的評分結果與評分權值的相關系數為11=0.139605,第二組的評分結果與評分權值的相關系數為712=0.156308,11120,第一組的評分結果與評分權值相關性比第二組的強,但由于是負相關,相關性越弱越好,所以可以認為,第二組對白葡萄酒的評分結果更可信。為更全面的說明評分結果的可信性,本文對評分結果的穩(wěn)定性也做了調查。第一組對紅葡萄酒的評分結果的標準差為11=7.360933,第二組為12=3.977988;第一組對白葡萄酒的評分結果的標準差為21=4.
17、804037,第二組為22=3.170939。1112,2122,可見第二組評酒員評價結果的穩(wěn)定性高于第一組評酒員的評價結果。在其評價結果的穩(wěn)定性上再次證明了第二組評酒員評價結果的可信度。綜上所述,可以得出結論,即第二組的評分結果更可信。5.2對第二問求解5.2.1相關性分析在數據分析的過程中,需要分析兩個或兩個以上變量之間的因果關系,本文采用相關性分析方法,它不需要區(qū)分自變量和因變量,兩個或者多個變量之間是平等的關系,通過相關分析可以了解變量之間的關系密切程度。分析附件二的釀酒葡萄的理化指標,將一級指標作為研究對象,一級指標共27組數據。對29列數據進行相關性分析,得出的數據見附錄二。選取相
18、關系數要求大于0.2,相關系數大于0.2的釀酒葡萄指標按相關性大小依次為黃酮,總酚,DPPH,PH,蛋白質,單寧,出汁率,酒石酸,固酸比,花色苷,黃酮醇,果皮質量,果穗質量。5.2.2主成分分析進行主成分分析是將多項指標重新組合成一組新的互無關系的幾個綜合指標,已達到盡可能多的反映原指標信息的分析方法。應用SPSS對20個釀酒葡萄的指標經主成分分析后,得到7個主成分,累計貢獻率為85.288%。SPSS輸出結果見表6,整理數據得到表7,經分析比較,得釀酒紅葡萄指標的主成分分析結果見表8。表6釀酒紅葡萄主成分分析SPSS輸出結果ComponentInitialEigenvaluesExtractionSumsofSquaredLoadingsTotal%ofVarianceCumulative%Total%ofVarianceCumulative%15.75928.79528.7955.75928.79528.79523.44317.21446.0093.44317.21446.00932.46212.31158.3202.46212.31158.32041.7678.83367.1521.7678.83367.15251.3236.61373.7661.3236.61373.76661.1955.97479.7401.1955.97479.740