????????箱型圖提供了識別異常值的一個標準:
????????異常值通常被定義為小于QL-1.5IQR或大于QU+1.5IQR的值。
????????QL稱為下四分位數,表示全部觀察值中有四分之一的數據取值比它小;
????????QU稱為上四分位數,表示全部觀察值中有四分之一的數據取值比它大;
python ggplot、????????IQR稱為四分位數間距,是上四分位數QU與下四分位數QL之差,其間包含了全部觀察值的一半。
????????最小值 (minimum);
????????下四分位數 (first quartile, Q1);
????????中值或中位數 (median), 或第二個四分位數 (second quartile, Q2);
????????上四分位數 (third quartile, Q3);
python plot?????????最大值 (maximum)。
????????四分位間距 (interquartile range, IQR), 表示下四分位數Q1和上四分位數Q3的間距;
????????離群值 (outliers),表示小于minimum的值和大于maximum的值。
????????箱型圖依據實際數據繪制,沒有對數據作任何限制性要求(如服從某種特定的分布形式),它只是真實直觀地表現數據分布的本來面貌;
python plot函數參數、????????另一方面,箱型圖判斷異常值的標準以四分位數和四分位距為基礎,四分位數具有一定的魯棒性:多達25%的數據可以變得任意遠而不會很大地擾動四分位數,所以異常值不能對這個標準施加影響。
????????由此可見,箱型圖識別異常值的結果比較客觀,在識別異常值方面有一定的優越性
boxplot(x, notch=None, sym=None, whis=None, positions=None,widths=None, patch_artist=None, bootstrap=None, usermedians=None,conf_intervals=None, meanline=None, showmeans=None, showcaps=None,showbox=None, showfliers=None, boxprops=None, labels=None,flierprops=None, medianpropos=None, meanprops=None, capprops=None,whiskerpropos=None, manage_ticks=True, autorange=False,zorder=None, *, data=None)
????????x:繪制箱型圖的數據。
·sym:表示異常值對應的符號,默認為空心圓圈。
·vert:表示是否將箱形圖垂直擺放,默認為垂直擺放。
matplotlib plot, ·whis:表示箱形圖上下須與上下四分位的距離,默認為1.5倍的四分位差。
·positions:表示箱體的位置。
·widths:表示箱體的寬度,默認為0.5。
·patch_artist:表示是否填充箱體的顏色,默認不填充。
·meanline:是否用橫跨箱體的線條標出中位數,默認不使用。
·showcaps:表示是否顯示箱體頂部和底部的橫線,默認顯示。
·showboxs:表示是否顯示箱形圖的箱體,默認顯示。
·showfliers:表示是否顯示異常值,默認顯示。
·labels:表示箱形圖的標簽。
·boxpropos:表示控制箱體屬性的字典。
?
?
?
diamonds = pd.read_csv('./data/DiamondsPrices2022.csv')
diamonds.boxplot(column=['price'], showmeans=True, return_type='axes', figsize=(8, 8))
plt.title("價格中的異常值", size=12)
plt.show()
版权声明:本站所有资料均为网友推荐收集整理而来,仅供学习和研究交流使用。
工作时间:8:00-18:00
客服电话
电子邮件
admin@qq.com
扫码二维码
获取最新动态