《數(shù)據(jù)的整理與顯》PPT課件.ppt
《《數(shù)據(jù)的整理與顯》PPT課件.ppt》由會員分享,可在線閱讀,更多相關(guān)《《數(shù)據(jù)的整理與顯》PPT課件.ppt(97頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、第 3 章 數(shù)據(jù)的整理與顯示,第 3 章 數(shù)據(jù)的整理與顯示,3.1 數(shù)據(jù)的預(yù)處理 3.2 統(tǒng)計分組與頻數(shù)分布 3.3 統(tǒng)計圖 3.4 統(tǒng)計表,學(xué)習(xí)目標(biāo),了解數(shù)據(jù)預(yù)處理的內(nèi)容和目的 掌握統(tǒng)計分組的方法 掌握品質(zhì)數(shù)據(jù)的整理與圖示方法 掌握數(shù)值型數(shù)據(jù)的整理與圖示方法 用Excel作頻數(shù)分布表和統(tǒng)計圖 合理使用統(tǒng)計表,3.1 數(shù)據(jù)的預(yù)處理,一. 數(shù)據(jù)審核 二. 數(shù)據(jù)篩選 數(shù)據(jù)排序,數(shù)據(jù)的預(yù)處理,數(shù)據(jù)的審核 檢查數(shù)據(jù)中的錯誤 數(shù)據(jù)的篩選 找出符合條件的數(shù)據(jù) 數(shù)據(jù)排序 升序和降序 尋找數(shù)據(jù)的基本特征,一、數(shù)據(jù)審核,數(shù)據(jù)審核原始數(shù)據(jù)(raw data), 審核的內(nèi)容 完整性審核 應(yīng)調(diào)查的單位或個體是否有遺漏
2、 調(diào)查項目或指標(biāo)是否填寫齊全 準(zhǔn)確性審核 內(nèi)容是否真實反映客觀實際情況 是否有錯誤:邏輯檢查、計算檢查,數(shù)據(jù)的審核二手?jǐn)?shù)據(jù)(second hand data),適用性審核 數(shù)據(jù)的來源、口徑以及有關(guān)的背景材料 數(shù)據(jù)是否符合自己分析研究的需要 時效性審核 最新的數(shù)據(jù) 確認(rèn)是否要做進(jìn)一步的加工整理,二、數(shù)據(jù)篩選,數(shù)據(jù)篩選(data filter),數(shù)據(jù)篩選的內(nèi)容包括 將某些不符合要求的數(shù)據(jù)或有明顯錯誤的數(shù)據(jù)予以剔除 將符合某種特定條件的數(shù)據(jù)篩選出來,用Excel進(jìn)行數(shù)據(jù)篩選,8名學(xué)生的考試成績數(shù)據(jù),數(shù)據(jù)篩選(data filter),【例】8名學(xué)生4門課程的考試成績數(shù)據(jù)。找出統(tǒng)計學(xué)成績等于75分的學(xué)
3、生,英語成績最高的前3名學(xué)生,4門課程成績都大于70分的學(xué)生。,三、數(shù)據(jù)排序,數(shù)據(jù)排序 (data rank),將數(shù)據(jù)按一定順序排列,以發(fā)現(xiàn)一些明顯的特征或趨勢。 排序有助于對數(shù)據(jù)檢查糾錯,以及為重新歸類或分組等提供依據(jù) 在某些場合,排序本身就是分析的目的之一,數(shù)據(jù)排序 (方法),分類數(shù)據(jù)的排序 字母型數(shù)據(jù):升序、降序。 漢字型數(shù)據(jù):按首位拼音字母排列,或按筆畫多少排序。 數(shù)值型數(shù)據(jù)的排序 遞增排序:x(1)x(2)x(n),用Excel進(jìn)行數(shù)據(jù)排序,8名學(xué)生的考試成績數(shù)據(jù),數(shù)據(jù)排序 (方法),3.2 統(tǒng)計分組與頻數(shù)分布,一. 統(tǒng)計分組 頻數(shù)分布,一、統(tǒng)計分組的概念及方法,(一)統(tǒng)計分組的概念
4、 根據(jù)統(tǒng)計研究的目的和客觀現(xiàn)象的內(nèi)在特點,按照一定的標(biāo)志把被研究總體劃分為若干個性質(zhì)不同但又有聯(lián)系的組,稱為統(tǒng)計分組。,(二)統(tǒng)計分組的方法,1、按品質(zhì)標(biāo)志分組 :按研究對象的某種屬性特征分組 (1)簡單分組:人口按性別分組,企業(yè)按行業(yè)分組,學(xué)生按專業(yè)分組等等,(二)統(tǒng)計分組的方法,(2)復(fù)合分組:對總體按兩個或兩個以上的標(biāo)志進(jìn)行的重疊式分組。 例如,我國把社會經(jīng)濟(jì)部門分為第一產(chǎn)業(yè)、第二產(chǎn)業(yè)、第三產(chǎn)業(yè),第一產(chǎn)業(yè)又可分為農(nóng)、林、牧、漁業(yè)。,復(fù)合分組表,,(二)統(tǒng)計分組的方法,2、按數(shù)量標(biāo)志分組 :按表現(xiàn)總體數(shù)量特征的標(biāo)志進(jìn)行分組 。 例如,人口按年齡分組、企業(yè)按銷售額分組等 (1)單項式分
5、組:每組變量值是一個值 (2)組距式分組:每組變量值是一個區(qū)間。,某車間工人產(chǎn)量分組表,單項式分組,某地區(qū)120家企業(yè)按利潤分組表,組距式分組,二、頻數(shù)分布,頻數(shù)分布的概念,頻數(shù)(frequency) :落在某一組中的數(shù)據(jù)個數(shù) 頻數(shù)分布(frequency distribution) :把各個組及其相應(yīng)的頻數(shù)全部列出,并用表格形式表現(xiàn)出來,稱為頻數(shù)分布。 比率(ratio) :各組次數(shù)與總次數(shù)之比。 百分比(percentage) :將比率乘以100得到的值,,(一)品質(zhì)數(shù)據(jù)的頻數(shù)分布,1、分類數(shù)據(jù)的頻數(shù)分布表,(1)列出各類別,(3)生成頻數(shù)分布表,1、分類數(shù)據(jù)整理頻數(shù)分布表 (例題分析),
6、,,,,,,【例】一家市場調(diào)查公司為研究不同品牌飲料的市場占有率,對隨機(jī)抽取的一家超市進(jìn)行了調(diào)查。調(diào)查員在某天對50名顧客購買飲料的品牌進(jìn)行了記錄,如果一個顧客購買某一品牌的飲料,就將這一飲料的品牌名字記錄一次 。右邊就是記錄的原始數(shù)據(jù),制作頻數(shù)分布表,Excel,分類數(shù)據(jù)整理頻數(shù)分布表,2、順序數(shù)據(jù)的整理(可計算的指標(biāo)),(1)累積頻數(shù)(cumulative frequencies):各類別頻數(shù)的逐級累加 (2)累積頻率(cumulative percentages):各類別頻率(百分比)的逐級累加 向上累積:由第一項向最后一項累加(變量值由小到大累加) 向下累積:由最后一項向第一項累加(變
7、量值由大到小累加),順序數(shù)據(jù)的頻數(shù)分布表(例題分析),【例】在一項城市住房問題的研究中,研究人員在甲乙兩個城市各抽樣調(diào)查300戶,其中的一個問題是:“您對您家庭目前的住房狀況是否滿意?” 1.非常不滿意 2.不滿意 3.一般;4.滿意 5.非常滿意,順序數(shù)據(jù)的頻數(shù)分布表 (例題分析),3、分類匯總,如果我們已經(jīng)建立了一張某單位部分人事統(tǒng)計表,如下所示。試按職稱進(jìn)行分類匯總。,,4、數(shù)據(jù)透視表(pivot table ),可以從復(fù)雜的數(shù)據(jù)中提取有用的信息 可以對數(shù)據(jù)表的重要信息按使用者的習(xí)慣或分析要求進(jìn)行匯總和作圖 形成一個符合需要的交叉表(列聯(lián)表) 注意:數(shù)據(jù)源表中的首行必須有列標(biāo)題,數(shù)據(jù)透視
8、表(用Excel創(chuàng)建數(shù)據(jù)透視表),第1步:在Excel工作表中建立數(shù)據(jù)清單 第2步:選中數(shù)據(jù)清單中的任意單元格,并選擇【數(shù)據(jù)】菜單 中的【數(shù)據(jù)透視表和數(shù)據(jù)透視圖】 第3步:確定數(shù)據(jù)源區(qū)域 第4步:在【向?qū)?步驟之3】中選擇數(shù)據(jù)透視表的輸出位置 。然后選擇【布局】 第5步:在【向?qū)Р季帧繉υ捒蛑?,依次將”分類變量“拖? 左邊的“行”區(qū)域,上邊的“列”區(qū)域,將需要匯總的 “變量” 拖至“數(shù)據(jù)區(qū)域” 第6步:然后單擊【確定】,自動返回【向?qū)?步驟之3】對 話框。然后單擊【完成】,即可輸出數(shù)據(jù)透視表,數(shù)據(jù)透視表,(二)數(shù)值型數(shù)據(jù)的頻數(shù)分布,,分組方法,1、單變量值分組(要
9、點),1. 將一個變量值作為一組 2. 適合于離散變量 3. 適合于變量值較少的情況,單變量值分組(實例),117 122 124 129 124 129 117 130 122 125 123 131 125 127 122 133 126 122 119 124 121 125 123 126 126 130 127 123 119 122 122 124 127 123 125 125 124 123 127 130 126 126 128 128 124 125 123 128 124 125,【例】某生產(chǎn)車間50名工人日加工零件數(shù)如下(單位:個)。試采用單變量值對數(shù)據(jù)進(jìn)行分組。,單變
10、量值分組表,=countif(range,criteria),用Excel制作頻數(shù)分布表,2、組距分組 (要點),將變量值的一個區(qū)間作為一組 適合于連續(xù)變量或變量值較多 遵循“不重不漏”的原則 可采用等距分組,或不等距分組,組距分組步驟,確定組數(shù):可以按 Sturges 提出的經(jīng)驗公式來確定,確定組距:組距(Class Width)是一個組的上限與下限之差. 組距( 最大值 - 最小值) 組數(shù),統(tǒng)計出各組的頻數(shù)并整理成頻數(shù)分布表,組距分組(幾個概念),1. 下限(low limit) :一個組的最小值 2. 上限(upper limit) :一個組的最大值 3. 組距(class
11、width) :上限與下限之差 4. 組中值(class midpoint) :下限與上限之間的中點值,頻數(shù)分布表的編制(例題分析),【例】某電腦公司2011年前四個月各天的銷售量數(shù)據(jù)(單位:臺)。試對數(shù)據(jù)進(jìn)行分組。,頻數(shù)分布表的編制步驟,確定組數(shù):,確定組距: 組距( 237 - 141) 10=9.6 10,統(tǒng)計出各組的頻數(shù)。每個組的數(shù)據(jù)滿足ax
12、口按年齡分組,等距分組與不等距分組(在表現(xiàn)頻數(shù)分布上的差異),等距分組 各組頻數(shù)的分布不受組距大小的影響 可直接根據(jù)絕對頻數(shù)來觀察頻數(shù)分布的特征和規(guī)律 不等距分組 各組頻數(shù)的分布受組距大小不同的影響 各組絕對頻數(shù)的多少不能反映頻數(shù)分布的實際狀況 用頻數(shù)密度(頻數(shù)密度頻數(shù)/組距)反映頻數(shù)分布的實際狀況,3.3 統(tǒng)計圖 一、品質(zhì)數(shù)據(jù)統(tǒng)計圖 二、數(shù)值型數(shù)據(jù)統(tǒng)計圖 三、統(tǒng)計繪圖的綜合運用洛倫茨曲線,一、品質(zhì)數(shù)據(jù)統(tǒng)計圖,(一)條形圖和柱形圖,用寬度相同的條形的高度或長短來表示各類別數(shù)據(jù)的圖形 有單式條形圖、復(fù)式條形圖等形式 繪制時,各類別可以放在縱軸,稱為條形圖(bar Chart) ,也可以放在橫
13、軸,稱為柱形圖(column chart),條形圖,柱形圖 (例題分析),條形圖 (例題分析),對比條形圖(side-by-side bar chart ),分類變量在不同時間或不同空間上有多個取值 對比分類變量的取值在不同時間或不同空間上的差異或變化趨勢,對比條形圖,對比條形圖 (例題分析),,,(二)餅圖(pie Chart),也稱圓形圖,是用圓形及圓內(nèi)扇形的面積來表示數(shù)值大小的圖形 主要用于表示總體或樣本的結(jié)構(gòu),分類數(shù)據(jù)圖示,(三)環(huán)形圖(annular chart),環(huán)形圖中間有一個“空洞”,總體中的每一部分?jǐn)?shù)據(jù)用環(huán)中的一段表示 環(huán)形圖與圓形圖類似,但又有區(qū)別 圓形圖只能顯示一個總體的
14、構(gòu)成情況 環(huán)形圖則可以同時繪制多個總體的數(shù)據(jù)系列 環(huán)形圖可用于結(jié)構(gòu)比較研究,環(huán)形圖,環(huán)形圖 (例題分析),(一) 分組數(shù)據(jù)直方圖,二、數(shù)值型數(shù)據(jù)統(tǒng)計圖,直方圖(histogram),用矩形的寬度和高度來表示頻數(shù)分布 本質(zhì)上是用矩形的面積來表示頻數(shù)分布 在直角坐標(biāo)中,用橫軸表示數(shù)據(jù)分組,縱軸表示頻數(shù)或頻率,各組與相應(yīng)的頻數(shù)就形成了一個矩形,即直方圖 直方圖下的總面積等于1,,直方圖的繪制,某電腦公司銷售量分布的直方圖,,我一眼就看出來了,銷售量在170180之間的天數(shù)最多!,直方圖,直方圖與條形圖的區(qū)別,條形圖是用條形的長度表示各類別頻數(shù)的多少,其寬度(表示類別)則是固定的 直方圖是用面積表示各
15、組頻數(shù)的多少,矩形的高度表示各組的頻數(shù)或百分比,寬度表示各組的組距,其高度與寬度均有意義 直方圖的矩形是連續(xù)排列,條形圖則是分開排列 條形圖主要用于展示品質(zhì)數(shù)據(jù),直方圖則主要用于展示數(shù)值型數(shù)據(jù),數(shù)值型數(shù)據(jù)的圖示,STATISTICA,(二)未分組數(shù)據(jù)莖葉圖和箱線圖,莖葉圖(stem-and-leaf display),用于顯示未分組的原始數(shù)據(jù)的分布 由“莖”和“葉”兩部分構(gòu)成,圖形是由數(shù)字組成的 高位數(shù)值作樹莖,個位數(shù)字作樹葉 莖葉圖與直方圖的區(qū)別 直方圖可觀察數(shù)據(jù)的分布狀況,但沒有具體的數(shù)值 莖葉圖既能給出數(shù)據(jù)的分布狀況,又保留了原始數(shù)據(jù)的信息 直方圖適用于大批量數(shù)據(jù),莖葉圖適用于小批量數(shù)據(jù)
16、,莖葉圖(例題分析),箱線圖(box plot),用于顯示未分組的原始數(shù)據(jù)的分布 繪制方法是: 首先找出一組數(shù)據(jù)的5個特征值,即最大值、最小值、中位數(shù)Me 和兩個四分位數(shù)(下四分位數(shù)QL和上四分位數(shù)QU) 連接兩個四分位數(shù)畫出箱子,再將兩個極值點與箱子相連接 該箱線圖也稱為Median/Quart./Range箱線圖,,單批數(shù)據(jù)箱線圖(箱線圖的構(gòu)成),,,,中位數(shù),4,6,8,10,12,,,,,,,,,,,,,Median/Quart./Range箱線圖,,單批數(shù)據(jù)箱線圖(例題分析),,分布的形狀與箱線圖,,不同分布的箱線圖,,多批數(shù)據(jù)箱線圖 (例題分析),【例】 從某大學(xué)經(jīng)濟(jì)管理專業(yè)二年級
17、學(xué)生中隨機(jī)抽取11人,對8門主要課程的考試成績進(jìn)行調(diào)查,所得結(jié)果如表。試?yán)L制各科考試成績的批比較箱線圖,并分析各科考試成績的分布特征,多批數(shù)據(jù)箱線圖(例題分析),8門課程考試成績的箱線圖,11名學(xué)生8門課程考試成績的箱線圖,,,,,Min-Max,,25%-75%,,Median value,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,45,55,65,
18、75,85,95,105,,,,,,,,,,,,,,,學(xué)生1,學(xué)生2,學(xué)生3,學(xué)生4,學(xué)生5,學(xué)生6,學(xué)生7,學(xué)生8,學(xué)生9,學(xué)生10,學(xué)生11,多批數(shù)據(jù)箱線圖 (例題分析),箱線圖K線圖 (上證指數(shù)K線圖),數(shù)值型數(shù)據(jù)的圖示,(三)時間序列數(shù)據(jù)折線圖,折線圖(line plot), 繪制折線圖時應(yīng)注意: 時間一般繪在橫軸,指標(biāo)數(shù)據(jù)繪在縱軸 圖形的長寬比例要適當(dāng),大致為10:7 一般情況下,縱軸數(shù)據(jù)下端應(yīng)從“0”開始,以便于比較。數(shù)據(jù)與“0”之間的間距過大時,可以采取折斷的符號將縱軸折斷,折線圖 (例題分析),【例】我國19902010年城鄉(xiāng)居民家庭的人均收入數(shù)據(jù)如表。試?yán)L制線圖,時間序列,折
19、線圖 (例題分析),數(shù)值型數(shù)據(jù)的圖示,(四)多變量數(shù)據(jù)的圖示 散點圖、氣泡圖、雷達(dá)圖,兩個變量間的關(guān)系二維散點圖(2D Scatterplots),展示兩個變量之間的關(guān)系 用橫軸代表變量x,縱軸代表變量y,每組數(shù)據(jù)(xi ,yi)在坐標(biāo)系中用一個點表示,n組數(shù)據(jù)在坐標(biāo)系中形成的n個點稱為散點,由坐標(biāo)及其散點形成的二維數(shù)據(jù)圖,兩變量,兩個變量間的關(guān)系二維散點圖(2D Scatterplots),,三個變量間的關(guān)系氣泡圖(bubble chart),顯示三個變量之間的關(guān)系 圖中數(shù)據(jù)點的大小依賴于第三個變量,三變量,也稱為蜘蛛圖(spider chart) 顯示多個變量的圖示方法 假定各變
20、量的取值具有相同的正負(fù)號 可用于研究多個樣本之間的相似程度,多變量數(shù)據(jù)雷達(dá)圖(radar chart),,,,,,,,多變量數(shù)據(jù)雷達(dá)圖 (例題分析),【例】2010年我國城鄉(xiāng)居民家庭平均每人各項生活消費支出構(gòu)成數(shù)據(jù)如表。試?yán)L制雷達(dá)圖,今天的主食是面包,雷達(dá)圖,多變量數(shù)據(jù)雷達(dá)圖 (例題分析),數(shù)據(jù)類型及圖示 (小結(jié)),三、Excel統(tǒng)計繪圖的綜合運用洛倫茨曲線,【例】我國2008年農(nóng)村居民按純收入分組戶數(shù)占調(diào)查戶比重資料如下表所示。試?yán)L制洛倫茨曲線。,洛侖茲曲線,洛倫茨曲線,,3.4 統(tǒng)計表,一. 統(tǒng)計表的構(gòu)成 二. 統(tǒng)計表的設(shè)計,統(tǒng)計表的結(jié)構(gòu),行標(biāo)題,列標(biāo)題,數(shù)字資料,,,,,表頭,附加,,總
21、標(biāo)題應(yīng)滿足3W (when、where、what)要求 計量單位相同時,可放在表的右上角標(biāo)明,不同時應(yīng)放在每個指標(biāo)后或單列出一列標(biāo)明 表中的上下兩條橫線一般用粗線,其他線用細(xì)線 通常情況下,統(tǒng)計表的左右兩邊不封口 表中的數(shù)據(jù)一般是右對齊,有小數(shù)點時應(yīng)以小數(shù)點對齊,而且小數(shù)點的位數(shù)應(yīng)統(tǒng)一 表中不應(yīng)有空格,無數(shù)字的表格用“”表示,應(yīng)有數(shù)字而不祥或不需的用“”表示。 必要時可在表的下方加上注釋。,統(tǒng)計表的設(shè)計,統(tǒng)計表的設(shè)計(比較與選用),統(tǒng)計表的設(shè)計(比較與選用),統(tǒng)計表的設(shè)計(比較與選用),本章小結(jié),數(shù)據(jù)預(yù)處理的內(nèi)容和目的 品質(zhì)數(shù)據(jù)的整理與顯示方法 數(shù)值型數(shù)據(jù)的整理與顯示方法 合理使用統(tǒng)計表 用Excel作頻數(shù)分布表和圖形,
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- Storytime (2)
- 【四清導(dǎo)航】秋八年級數(shù)學(xué)上冊 3.3 一元一次不等式(第3課時)課件 (新版)浙教版
- 海淀區(qū)域P4P實操診斷課件
- 三年級記事作文指導(dǎo)
- 醫(yī)院內(nèi)感染的預(yù)防和控制
- 機(jī)械設(shè)計第十章習(xí)題
- 華泰汽車“全心服務(wù)_貼心關(guān)懷”管理知識分析方案
- Unit 11 Lesson 2 What's the matter 課件 1
- 創(chuàng)業(yè)大賽設(shè)計中財務(wù)分析方法與技巧
- 從現(xiàn)在開始課件 (4)(精品)
- 蛋白質(zhì)促降解與氨基酸代謝
- (精品)電視原理第1章1
- 術(shù)中病情觀察小講課
- 日系汽車研發(fā)質(zhì)量管控
- 6Sigma的管理理論(ppt 30頁)