python怎么用python寫spark
為什么要使用Python來寫Spark
Python寫spark我認(rèn)為唯一的理由就是:你要做數(shù)據(jù)挖掘,AI相關(guān)的工作。因?yàn)楹芏嘧鰯?shù)挖的他們的基礎(chǔ)語言都是python,他們?nèi)绻匦聦W(xué)scala比較耗時,而且,python他的強(qiáng)大類庫是他的優(yōu)勢,很多算法庫只有python有。
Win本地編寫代碼調(diào)試
編輯器:PyCharm
Spark:1.6
Python:2.7
Win環(huán)境準(zhǔn)備
Python的安裝
解壓python包,在環(huán)境變量里面配上bin的路徑
Spark的安裝
下載spark的bin文件,解壓即可,在環(huán)境變量配置SPARK_HOME
要可以通過編輯器來安裝,如pycharm,查找pyspark庫安裝即可
Hadoop安裝
安裝hadoop環(huán)境。在win下面需要winutils.exe;在環(huán)境里面配置HADOOP_HOME即可。
代碼示例
#-*-coding:utf-8-*-
from__future__importprint_function
frompysparkimport*
importos
print(os.environ['SPARK_HOME'])
print(os.environ['HADOOP_HOME'])
if__name__=='__main__':
sc=SparkContext("local[8]")
rdd=sc.parallelize("helloPysparkworld".split(""))
counts=rdd\
.flatMap(lambdaline:line)\
.map(lambdaword:(word,1))\
.reduceByKey(lambdaa,b:a+b)\
.foreach(print)
sc.stop
問題:
frompysparkimport*
找不到pyspark。那你需要把spark的bin包下面的python的所有都拷貝到(可能需要解壓py4j)
%PYTHON%\Lib\site-packages下面去。這樣,你的編輯器才能找到。
或者:
配置你的編輯器的環(huán)境變量:
PYTHONPATH=F:\home\spark-1.6.0-bin-hadoop2.6\python;F:\python2.7\Lib\site-packages
使用spark-submit提交時用到其他類庫–py-filesxxxx/xxxx.zip,xxxx.py。
以上內(nèi)容為大家介紹了Python培訓(xùn)之怎么用python寫spark,希望對大家有所幫助,如果想要了解更多Python相關(guān)知識,請關(guān)注IT培訓(xùn)機(jī)構(gòu):千鋒教育。

猜你喜歡LIKE
相關(guān)推薦HOT
更多>>
如何使用Pandas處理Excel?
如何使用Pandas處理Excel?做過行政或者人事,或者對此有過了解的小伙伴,一定對下發(fā)各個部分的表有著非常深刻的印象,最常見的就是需要我們將一...詳情>>
2023-11-14 07:43:15
python中np.insert()函數(shù)的使用方法
python中np.insert()函數(shù)的使用方法在numpy數(shù)組操作中,np.append()方法可以在每行每列的最后添加數(shù)據(jù),但其位置是規(guī)定的,那如果想要指定添加...詳情>>
2023-11-14 05:06:13
SVM在python中的原理如何理解?
SVM在python中的原理如何理解?在python中除了編程化的知識點(diǎn)外,對于數(shù)學(xué)方法的算法也有所涉及,SVM就是一種很好地體現(xiàn)。我們學(xué)習(xí)過數(shù)學(xué)中的坐...詳情>>
2023-11-14 04:30:04
python處理絕對路徑和相對路徑函數(shù)有哪些?
python處理絕對路徑和相對路徑函數(shù)有哪些?絕對路徑和相對路徑是什么?絕對路徑:從根文件夾開始,Windows系統(tǒng)以盤符(C:)作為根文件夾,OSX或Lin...詳情>>
2023-11-14 03:33:02熱門推薦
如何使用python any()判斷多元素?
沸如何使用Pandas處理Excel?
熱python函數(shù)中的參數(shù)有哪些?
熱python中pygal模塊如何使用?
新Python的excel處理操作
python中doctest庫是什么?
python中series是什么意思
python中np.insert()函數(shù)的使用方法
SVM在python中的原理如何理解?
Python描述符中有哪三種方法?
python處理絕對路徑和相對路徑函數(shù)有哪些?
python單繼承和多繼承如何定義?
python封裝中的私有如何理解?
python模塊引入的三種方式
技術(shù)干貨







快速通道 更多>>
-
課程介紹
點(diǎn)擊獲取大綱 -
就業(yè)前景
查看就業(yè)薪資 -
學(xué)習(xí)費(fèi)用
了解課程價格 -
優(yōu)惠活動
領(lǐng)取優(yōu)惠券 -
學(xué)習(xí)資源
領(lǐng)3000G教程 -
師資團(tuán)隊
了解師資團(tuán)隊 -
實(shí)戰(zhàn)項目
獲取項目源碼 -
開班地區(qū)
查看來校路線