
spark scala教學 在 Bryan Wee Youtube 的評價

Search
By スキマスイッチ - 「全力少年」Music Video : SUKIMASWITCH / ZENRYOKU SHOUNEN Music Video
... spark入門相關PTT/Dcard文章,想要了解更多spark介紹、spark下載、spark教學 ... Spark 除了有豐富的函式庫,也對Python, Java, Scala, R 提供了相同一致的API :. ... <看更多>
... spark入門相關PTT/Dcard文章,想要了解更多spark介紹、spark下載、spark教學 ... Spark 除了有豐富的函式庫,也對Python, Java, Scala, R 提供了相同一致的API :. ... <看更多>
#1. 從0到1,獻給既想學Spark,又想用Scala寫的讀者 - iT 邦幫忙
Spark 2.0 in Scala 系列第1 篇. joechh. 5 年前‧ 13489 瀏覽. 2. http://ithelp.ithome.com.tw/upload/images/ 先來張Spark 2.0賀圖,這樣也算直上Spark-shell了.
#2. Spark Shell · Spark 編程指南繁體中文版
Spark 的shell 作為一個强大的交互式數據分析工具,提供了一個簡單的方式來學習API。它可以使用Scala(在Java 虛擬機上運行現有的Java 庫的一个很好方式) 或Python。
#3. 《巨量資料技術與應用》實務操作講義- Spark簡易操作
本單元主要是帶領學習者認識簡易的Spark shell與scala的相關指令操作。學習完畢後,若學習者想要學習更多,請自行參閱相關書籍或線上教學。
#4. Spark 超入門筆記
spark 安裝教學(中文):這篇從spark 安裝到基本的rdd 使用都有蠻清楚的 ... console,進到scala 的REPL 模式,也就是scala 的互動模式,這個模式下 ...
#5. 教學課程:適用於Spark & IntelliJ 的Scala Maven 應用程式
教學 課程- 建立以Scala 撰寫的Spark 應用程式,並以Apache Maven 作為組建系統。 以及IntelliJ IDEA 為Scala 提供的現有Maven 原型。
#6. 給初學者的Spark教學
0 6 給初學者的S p a r k 教學P o p c o r n y ... 了解Spark的基本常識• 介紹Spark DataFrame/SQL • 寫一個Spark Application 5; 6.
#7. (一)Spark學習筆記——Scala - tw511教學網
Spark 也支援Java和Python,爲啥要學Scala?因爲Spark的原生語言是Scala,對Scala的支援最好,我覺得,Scala像是Java和Python的結合體,學着還挺好玩的 ...
Apache Spark 的介紹. ... Spark 語言選擇: Scala vs. python ... Apache Spark 是由UC Berkeley AMP 實驗室所開發的雲端運算框架,用來構建大型的,低延遲的資料分析 ...
本教程是对使用Spark 的一个简单介绍。首先我们会通过Spark 的交互式shell 简单介绍一下(Python 或Scala) API,然后展示如何使用Java、Scala 以及Python 编写一个Spark ...
#10. Hadoop+Spark平台安裝與開發 - 全域科技報名網站
透過實機操作帶領您了解Hadoop/Spark平台的建置、HDFS的相關操作、以及使用Spark ... 本課程亦帶入程式開發之實作項目(MapReduce、Hive、Spark SQL、Spark MLlib)。
#11. Spark 安裝 - 億聚網
Spark 是Hadoop的子項目。因此,最好是安裝Spark在Linux系統上。下列步驟顯示瞭如何安裝Apache Spark。 第1步:驗證安裝Java 安裝Java是在安裝Spark強制性的事情之一。
#12. 授課計劃1767大數據實務-Scala+Spark
本課程是否有使用原文書 否 ; 教學進度(Course Schedule) - 期中考前後(2 Stage). 週次. Week, 日期Date. 1, 106/02/14 ~ 106/02/18 2/14第2學期上課開始,2/18補行上班上課 ...
#13. Spark 编程指南_w3cschool - 编程狮
这造成类SQL的计算或机器学习需要专门的系统来进行。更糟的是,MapReduce要求每个步骤间的数据要序列化到磁盘,这意味着MapReduce作业的I/O成本很 ...
#14. 安裝spark (Spark Shell、IntelliJ IDEA) - TimmyBeef's Blog
Spark runs on Java 8+, Python 2.7+/3.4+ and R 3.1+. For the Scala API, Spark 2.4.0 uses Scala 2.11. You will need to use a compatible Scala ...
#15. Scala 指令碼範例- 串流ETL - AWS Glue
SparkSession import org.apache.spark.sql.functions.from_json import org.apache.spark.sql.streaming.Trigger import scala.collection.JavaConverters.
#16. 【數據分析】Big Data ! Hadoop+Spark平台安裝與開發
This five-day course builds your skills in resolving common issues that occur in ... 本課程亦帶入程式開發之實作項目(MapReduce、Hive、Spark SQL、Spark MLlib).
#17. Learning-Notes/Spark.md at master - GitHub
Spark 是一個分散式運算引擎(最上層),基於RDD; 對外(上面)接口有scala, java, ... 的快上手(因為我是python使用者); 社群和教學上python會更友好,學習也不用編譯什麼 ...
#18. 語言技術:Scala Gossip
Scala 是一個可直譯、可編譯、靜態、可運行於JVM 之上、可與Java 互操作、融合 ... I can honestly say if someone had shown me the Programming in Scala book by by ...
#19. 前Apache Spark 門課程
來自頂級大學和行業領導者的Apache Spark 課程。通過Data Science with Databricks ... Distributed Computing with Spark SQL by University of California, Davis.
#20. 熱門Scala線上課程- 更新於[2022 February] | Udemy
Apache Spark tutorial with 20+ hands-on examples of analyzing large data sets, on your desktop or on Hadoop with Scala! 講師:. Sundog Education by Frank Kane, ...
#21. Spark Scala IntelliJ IDEA開發環境搭建(入門) - IT閱讀
在main目錄下面建立scala目錄並設定為資源目錄,網上很多教程說把多餘的java目錄刪掉,其實沒必要,有時我們開發spark時需要用到scala和java,java的 ...
#22. Apache Spark 教學- 用Machine Learning 辨識鳶尾花 - Soul ...
安裝Java Runtime Environment. 由於Spark 需要透過Java 來執行,理所當然我們也應該安裝JRE 環境,並且確認JAVA_HOME 環境變數已經正確設定。Ubuntu 透過 ...
#23. [Apache Spark][教學] 應用IDEA以及Scala於Spark程式開發(圖多)
但是因為Spark的原生語言其實是Scala,python在一些功能的支援上目前還趕不上Scala,所以目前選擇Scala作為開發Spark的主要工具. Scala是基於Java做改良 ...
#24. Spark安裝教學.docx
不管是哪一種使用方式, master與nodes都需要安裝scala和spark. 1. 安裝scala與spark. 2. 兩種Spark的使用方式. 2.1 Hadoop yarn(Hadoop叢集) + Spark.
#25. Unofficial Guide for Databricks(R) Spark Scala ... - 博客來
書名:Unofficial Guide for Databricks(R) Spark Scala CRT020 Certification: Includes 46 Hands On Exercises,語言:英文,ISBN:9781709110405,頁數:310, ...
#26. Spark SQL 親自動手做:大數據時代的資料庫處理(熱銷版)
第四篇講解Spark SQL 最佳化的知識。 適用:Spark初學者、Spark資料分析人員以及Spark程式開發人員,也可作為大專院校和培訓機構等相關專業的師生教學參考。
#27. Spark on YARN mode 安裝教學 - caca的程式之路- 痞客邦
前置作業: 安裝java 安裝ssh 並設置好無密碼登入安裝好hadoop-2.6.0 分散式版本: Spark-1.2.1 Scala-2.11.5 配置: 一個master (t.
#28. 在資料科學工作區中使用Spark存取資料
QSOption import org.apache.spark.sql.{DataFrame, SparkSession} Class Helper { /** * * @param configProperties - Configuration Properties map ...
#29. Spark SQL學習筆記 - 程式前沿
Spark SQL 學習筆記 · 1. 入口:SQLContext與SparkSession · 2. DataFrame · 3. 程式設計方式執行SQL查詢 · 4. Dataset · 5. 和RDD互操作. 5.1. 利用反射推導 ...
#30. 适合为学Spark学习Scala的同学—史上最细致的视频教程
#31. Spark資料處理與開發實務 - NTC.im人才培訓中心
Spark 資料處理與開發實務. SQL 查詢、串流處理、文字處理以及機器學習等,以往這些 ... 《 教學內容》 ... Apache Spark 已經快速的崛起,並成為了最流行分析工具之。
#32. 在IntelliJ IDEA中建立和執行java/scala/spark程式的方法
本文將分兩部分來介紹如何在IntelliJ IDEA中執行Java/Scala/Spark程式: 基本概念介紹.
#33. Spark從入門到放棄——Spark2.4.7安裝和啟動(二) | IT人
Spark 框架本身由Scala開發,而且天然支援Scala API介面,不論是臨時利用Spark拉取 ... 圖2 MobaXterm的Write commands on all terminals功能使用教學.
#34. 一個12分良心的Spark SQL入門教程 - 每日頭條
本教程主要從入門講解Spark SQL 的使用,最後通過實戰案例來鞏固之前所學的知識,達到深入淺出,融會貫通的教學目標。對於Hive 會從入門帶大家 ...
#35. Apache Spark + Scala 大數據分析(Big Data Analysis) 及機器 ...
... 分析(Big Data Analysis) 及機器學習(Machine Learning) 技術基礎課程, #教學, ... 課程簡稱:Apache Spark + Scala Big Data Machine Learning Training Course ...
#36. Spark详细文本教学01_啊晨 - CSDN博客
1)快:与Hadoop的MapReduce相比,Spark基于内存的运算要快100倍以上,基于硬盘的运算也要快10倍以上。 · 2)易用:Spark支持Java、Python和Scala的API,还 ...
#37. Spark 快速入门 - 鸟窝
本教程快速介绍了Spark的使用。 首先我们介绍了通过Spark 交互式shell调用API( Python或者scala代码),然后演示如何使用Java, Scala或者Python编写 ...
#38. 10分鐘弄懂大數據框架Hadoop和Spark的差異
談到大數據,相信大家對Hadoop 和Apache Spark 這兩個名字並不陌生。但我們往往對它們的理解只是提留在字面上,並沒有對它們進行深入的思考, ...
#39. Apache Spark探秘:利用Intellij IDEA构建开发环境 - 阿里云 ...
在linux上生成intellij项目文件的方法(需要安装git,不需要安装scala,sbt会自动下载)是:在spark源代码根目录下,输入sbt/sbt gen-idea.
#40. 使用Apache Spark 和Python 來處理大數據- 實際動手做!
將大數據分析問題架構為Spark 問題; 使用Amazon 的Elastic MapReduce 服務在具有Hadoop ... 本課程使用熟悉的Python 程式設計語言;如果你想使用Scala 從Spark 獲得最佳 ...
#41. apache spark入門在PTT/Dcard完整相關資訊 - 輕鬆健身去
... spark入門相關PTT/Dcard文章,想要了解更多spark介紹、spark下載、spark教學 ... Spark 除了有豐富的函式庫,也對Python, Java, Scala, R 提供了相同一致的API :.
#42. Scala 教程 - 菜鸟教程
Scala 教程Scala 是一门多范式(multi-paradigm)的编程语言,设计初衷是要集成面向对象编程和函数式编程的各种特性。 Scala 运行在Java 虚拟机上,并兼容现有的Java ...
#43. 大數據時代的資料庫處理: Spark SQL親自動手做| 誠品線上
第四篇講解Spark SQL 最佳化的知識。適用:Spark初學者、Spark資料分析人員以及Spark程式開發人員,也可作為大專院校和培訓機構等相關專業的師生教學參考。
#44. Scala - 維基百科,自由的百科全書
Scala (發音為/ˈskɑːlə, ˈskeɪlə/)是一門多範式的程式語言,設計初衷是要整合物件導向程式設計 ... Programming in Scala(頁面存檔備份,存於網際網路檔案館)(ISBN ...
#45. Apache Spark 開發環境安裝@ Vetom - Study :: 隨意窩Xuite日誌
想到就慢慢補齊囉:D 這次想要簡單講一下Spark怎麼安裝... 在這之前,希望大家能先回顧的,Spark運行架構的 ... 當然你的系統可能必須要有Java環境喔!
#46. spark教學
spark教學. Spark SQL. Spark SQL 是處理結構化資料所產生的元件,它允許使用者使用如同Apache Hive 一樣透過SQL 語法做資料查詢,除了提供SQL 使用介面外,Spark SQL ...
#47. 在windows 安裝Spark Standalone | Lawrence's note
在部署之前,依照官方網站的需求,要先安裝這些軟體在每一台主機上。 Java 8; Scala 2.11.x (如果你不會用到,可以不用裝); Python 2.7/3.4 或之後的版本 ...
#48. Spark是什麼?用Spark進行數據分析
Spark 被設計的高度易訪問,用Python、Java、Scala和SQL提供簡單的API,而且提供豐富的內建庫。 Spark也與其他大數據工具進行了集成。特別地,Spark可以 ...
#49. 細說Apache Spark的API三劍客:RDD、DataFrame和Dataset
Apache Spark 廣受開發者們歡迎的一個重要原因也在於它那些非常容易使用的API,可以方便地通過多種語言,如Scala、Java、Python 和R 等來操作大數據集 ...
#50. IDEA全程搭建第一个Scala Spark streaming maven工程 - 腾讯云
项目以推荐系统建设领域知名的经过修改过的中文亚马逊电商数据集作为依托,以某电商网站真实业务数据架构为基础,构建了符合教学体系的一体化的电商推荐 ...
#51. 在Apache Spark 2.0中使用DataFrames和SQL - 壹讀
我認為這樣的代碼最清晰,因為Spark本身就是用Scala編寫的。 ... 博士學位後,在多特蒙德大學軟體工程研究所從事研究和教學工作直到2011年來到中國。
#52. Install Spark and Scala on Ubuntu 安裝教學(1) - 選單
Apache Spark 1.4.1 Scala 2.10.4 Ubuntu 15.04 of Virtual…
#53. 老司機帶你飛~手把手使用PySpark 探索大數據
本堂課程將手把手實戰教學大數據分析,結合Python 以及最新的Spark ... 可以幫助使用者處理分散式系統上的資料,支援Scala, java,以及python 的API.
#54. Scala Spark筆記 - Blog快樂天
Apache Official Docs 官方教學; IntelliJ-IDEA-Maven-Scala-Spark开发环境搭建 一個Maven的Scala Project設置流程介紹,有些地方需要更新 ...
#55. 零經驗也可的PySpark 教學- 初體驗
此外,除了提供核心運算功能的Spark Core, Apache Spark 更在其基礎上衍生Spark SQL, Spark Streaming, MLlib, GraphX 四大功能:.
#56. 高手昇級:可完全取代Java的Scala - PChome 24h書店
Apache Spark、Apache Kafka 等以Scala 語言實現為基礎的架構在大數據生態圈內佔有舉足輕重的地位,它們某種程度上領導著大數據最先進的技術方向,另外Akka、Apache ...
#57. Spark入門(四)--Spark的map、flatMap、mapToPair_詩昭
scala 實現. import org.apache.spark.{SparkConf, SparkContext} object SparkFlatMap { def main(args: Array[String]): Unit = { val conf = new ...
#58. Re: [請益] 值得花十萬到巨匠學大數據軟體嗎? - 看板Soft_Job
想讓自己被Funcational Programming玩的,可以選Spark in Scala(大推) 現在在IT鐵人賽有寫一點Spark +Scala的教學,有興趣的可以看看(招手): ...
#59. 實戰課堂| 手把手教你用MongoDB Spark Connector構建分析應用
2,簡單易用:支持Java、Python、Scala、SQL 等多種語言,使得構建分析應用非常簡單. 3,統一構建:支持多種數據源,通過Spark RDD 屏蔽底層數據差異, ...
#60. scala 教學Scala入門詳解(一) - Retdy
scala – tutorial – spark教學. 在Spark/Scala中將RDD轉換為Dataframe (2) . RDD已經以Array[Array[String]]格式創建, La Scala MKII DAC”>
#61. scala 教學Scala運算符 - Itha
Scala運算符– Scala教程教學在Scala語言中,運算符是一個符號,告訴編譯器執行 ... scala教學– spark tutorial 為什麼在創建自定義案例類的數據集時“無法找到存儲在 ...
#62. 本課程針對目前最熱門的Spark/Scala大數據分析開源技術進行 ...
< 課程目標> : 本課程針對目前最熱門的Spark/Scala大數據分析開源技術進行教學,其主要授課內容以學習該技術為主,學員並將實作以大數據分析為基礎的機器學習系統。
#63. 第二章用Scala和Spark进行数据分析 - 博客园
2.4 小试牛刀:Spark shell和SparkContext. 加州大学欧文分校机器学习资料库(UC Irvine Machine Learning Repository),这个资料库为研究和教学提供了 ...
#64. 【循序渐进学Spark】理论教学 - 小土刀
Spark 依靠Scala 强大的函数式编程Actor 通信模式、闭包、容器、泛型,并借助统一资源调度框架,成为一个简洁、高效、强大的分布式大数据处理框架。
#65. scala - spark介紹- 在Spark 2.0中訪問向量列時出現MatchError
spark tutorial (2). 我變了: val ldaDF = countVectors.map { case Row(id: String, countVector: Vector) => (id, countVector) }.
#66. Spark 介紹與Ubuntu安裝方式
以下是Spark介紹,與在Ubuntu安裝的方式. 以上內容節錄自這本書。很適合入門初學者: Python+Spark 2.0+Hadoop機器學習與大數據分析實戰 ...
#67. [python] 使用Spark 與Hive 進行ETL - 傑瑞窩在這
spark hive flow - [python] 使用Spark 與Hive 進行ETL. ETL 的流程就如上圖三步驟。 ... 如果使用的語言是Scala,請參考這部影片的教學(Spark 1.6) ...
#68. Spark基础简易教程(Scala)_博汇网
Spark 简单教学#. 一、Spark简介 ... Spark用Scala语言实现了RDD的API,程序员可以通过调用API实现对RDD的各种操作。RDD典型的执行过程如下:.
#69. [Zeppelin] create pyspark - No quality data, no product
對於scala不熟悉的我來說,有點痛苦~一堆val還有底線. 決定開啟zeppelin裏面spark的開關. 亂七八糟試過之後,總算通了…. How to use pyspark in ...
#70. 用Apache Spark进行大数据处理——第一部分:入门介绍 - InfoQ
Spark 可以将Hadoop 集群中的应用在内存中的运行速度提升100 倍,甚至能够将应用在磁盘上的运行速度提升10 倍。 Spark 让开发者可以快速的用Java、Scala ...
#71. 給Java 程式設計師的Scala 入門教學
object HelloWorld { def main(args: Array[String]) { println("Hello, world!") } } Java 程式員應該對這個程式結構感到熟悉:有著一個 main 函式,該函式接受一個字串 ...
#72. Spark編程基礎 - 台部落
大數據學習路線課程實驗實驗1-Linux系統的安裝和常用命令實驗2-Scala編程初級實踐實驗3-Spark和Hadoop的安裝實驗4-RDD編程初級實踐實驗5-Spark SQL ...
#73. Spark速成101:一小时入门Spark大数据构架与开发(第557期)
#74. 【2022年】十大Apache Spark課程熱門排行推薦與優惠精選!
「Scala and Spark for Big Data and Machine Learning」等相關Apache Spark線上課程,讓您滿足學習的慾望。 你是否想透過線上學習得到更多的技能,增加自己的技能樹?現在 ...
#75. Recent questions tagged 自动化 - Firetik Q&A
+5 votes. 1 answer. Ansible入门篇(四):Scala自动化安装. asked Dec 21, 2018 by firetik (100 points). ansible · scala · ansible · spark · 自动化. +12 votes.
#76. 實戰機器學習|使用Spark(電子書) - Google 圖書結果
始提供分散式機器學習和資料探勘的工具箱(Spark 1.6 版的 MLlib、2.0 版的 ML), ... 還是採用實務可行的教學法,重心放在範例與實際的程式碼,闡釋如何充分運用 Spark 與 ...
#77. spark hadoop 教學不負責任教學 - RJHI
Chapter01 Python Spark機器學習與Hadoop大數據1.1 機器學習介紹1.2 Spark介紹1.3 Spark資料處理RDD,DataFrame,Spark SQL 1.4 使用Python開發Spark機器學習與大數據 ...
#78. 大數據運算系列:SPARK for Ubuntu LTS 16.04 安裝指引
Spark 需在JAVA 7以上, Python 2.6+/3.4+ 及R 3.1+環境. 對於Scala API, Spark 2.1.0 採用Scala 2.11版本. ubuntu LTS 16.04 已經預先安裝好python 2 ...
#79. intellij 教學
本教學課程說明如何使用Azure Toolkit for IntelliJ 外掛程式來開發以Scala 撰寫的Apache Spark 應用程式,然後直接從IntelliJ 整合式開發環境IDE 將其提交至無伺服 ...
#80. Spark tutorial - Maxkit
要使用Spark 之前,一般會先遇到scala 這個語言的熟悉度的問題,當有了一定的語言程度後,再來就是scala IDE 的選擇,目前的狀況,還是IDEA 會比scala ...
#81. 大数据巨量分析与机器学习的整合与开发 - Google 圖書結果
Spark 利用基于内存计算的特点,通过Scala语言特性实现的Lineage Graph抽象,简化了容错机制,特别适合迭代式和交互式数据处理。 ... 人口统计学和教学辅导等多个领域, ...
#82. Spark 基本安裝設定 - Mr.好好吃的資料遊樂園
#Hadoop Variables. export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64. export HADOOP_HOME=/usr/local/hadoop ; export PATH=$PATH:$HADOOP_HOME/sbin.
#83. 第8章Python Spark 2.0 介紹與安裝
8.1 安裝scala · 8.2 安裝Spark · 8.4 設定pyspark 顯示訊息 · 8.5 建立測試文字檔 · 8.6 本機執行pyspark 程式 · 8.7 在Hadoop YARN執行pyspark · 8.8 建置 ...
#84. 在windows 上安装spark 遇到的一些坑| 避坑指南
基本的 java 环境: 1.8.0_201; 语言 scala 版本: 2.12.13; hadoop 版本: 2.6.4; spark 版本: 2.4.8 ...
#85. 坚守与变革?遭遇大数据时代的传统出版业 - 第 171 頁 - Google 圖書結果
... Hadoop, HDFS 业务模块开发语言 Go,Python,Java,C++,Scala 服务器端搜索引擎 ElasticSearch 微服务容器环境 Docker Http 服务器 Nginx 实时计算系统 Spark 2.
spark scala教學 在 Re: [請益] 值得花十萬到巨匠學大數據軟體嗎? - 看板Soft_Job 的八卦
開門見山:如果是有志想成為資料科學家或工程師的話,不要花,不值得。
連版上可能推的資策會大數據專班.....都不要去(真的要我寧可選Java EE班)。
恆逸我沒仔細研究,但應該沒差多少。
我是一位對資料處理有興趣的資料工程師,簡單說就是數據領域的黑手,不是帥帥的科學
家XD。但如果想一起當黑手的,我來說說有哪些東西可以先去看看有沒有興趣,再往下走:
(一)資料源:
Apache Flume
Apache Kafka
LogStash
負責接資料的,目前又以streaming為大宗:
Flume比較適合整合Hadoop生態系; Kafka則是偏SMACK架構; logStash則是ELK自成一派。
當然這不是絕對,而且可以互相接來接去,像我前一個案子也有Kafka->Flume->HDFS/HBase/Avro串來串去的。
我用這3套目前可以滿足大部分的streaming收資料的需求。
Flink沒時間碰QQ
阿批次勒?...HDFS API XD~
選一套的話:我選Kafka。搭配語言:Java Client API
(二)資料處理引擎:
MRv2(MapReduce)
Spark
這也是大家,即使是非業界也常常聽到的term,但要講的仔細也是好幾本書的內容了..
例如批次處理該用Spark好還是MapReduce。串流處理的話我聽過Spark Streaming,那跟
Storm又差在哪?什麼是micro-batch?
選一套的話,我選Spark,因為目前的應用還是單位時間點內記憶體能負載的量。還沒玩
過幾個PB的.....不然選擇可能不同了。
但有點尷尬的是,Spark用Java,即便是 Lambda寫起來也是有點憋屈..
所以我會推薦新手用Spark+Python+jupiter。
想讓自己被Funcational Programming玩的,可以選Spark in Scala(大推)
現在在IT鐵人賽有寫一點Spark +Scala的教學,有興趣的可以看看(招手):
https://ithelp.ithome.com.tw/users/20103839/ironman/1210
(三)結構化/半結構化查詢工具(Query Engine):
Hive
Impala (也開源了)
Spark SQL
這幾套我對Impala跟Spark SQL比較有研究而已。這邊就是SQL語言配的上場的地方啦!!
可以用簡單的SQL查詢當然開心啦,但是要注意的是先查哪些語法沒有支援....
不管哪一套都要注意"別幫他當作資料庫來用",他們是查詢工具不是資料庫!
另外注意所謂的Partition的設計,以及選用的檔案格式,例如Parquet/Avro等....
扯遠了....
這幾套與BI也都有良好的介接,Tableau/Qlik View不是問題
選一套的話,我選SparkSQL/Impala 搭配SQL語言以及各種JDBC/ODBC
(四)分散式儲存系統:
HDFS
Kafka
S3
最正宗的Hadoop肯定會用到HDFS,但也可以把資料暫存在Kafka上,處理完後就送進NoSQL
,另外S3也是好物,只是沒機會碰到。
選一套的話,還是從HDFS+Java API開始吧
(五)分散式資料庫:
HBase
MongoDB
ElasticSearch
Cassandra
恩...沒有MySQ, MariaDB, PostgreSQL, MS SQL更沒有Oracle XDDD
這幾套我都很愛,只是MongoDB我是接一個小系統上面有跑,沒有實際開發應用經驗。
資料庫有時候就端看你要走哪種應用了:
Hadoop正宗就是搭配HBase,想用SQL上面可以套一個PhoenixDB,設計就是在玩Primary
Key。
ElasticSearch:全文檢索斷詞那方面的應用,也就是ELK中的E,再搭配一個kibana整個好用。
Cassandra::與Spark整合良好,去正規化的Data modeling與P2P的架構整個是我的愛。
選一套的話,我私心選Cassadnra + Java/Scala Client~XD
(六)周邊:
Zookeeper, Hue, Yarn, Mesos。
還有太多周邊了商品了XDDD,Zookeeper可以要懂一些,HBase跟Kafka都有用
------------------------------------------------------------------------------------
OK就先到這裡了,上面的名詞可以Google看看,都是一個框架或工具,看看有沒有興趣。
另外考證照有沒有用,我覺是覺得有用啦,但我一張MS還是Oracle的都沒有XD:
Cloudera Certified Developer for Apache Hadoop (CCDH)
Cloudera Certified Specialist in Apache HBase (CCSHB)
Cloudera Certified Administrator for Apache Hadoop (CCAH)
Certified Developer on Apache Cassandra
PS: 我是電子系的,天下無難事...
小小資料工程師 一鞠躬
※ 引述《s00771book (320)》之銘言:
: 想問問前輩們
: 目前小妹的工作只是個
: 用BI cognos 拉資料做數據分析的助理
: 再用Excel樞紐分析 寫寫函數
: 做報告給主管看的工作
: 薪水少之又少 也不算是一技之長
: 根本不足以與大數據相提並論
: 目前嚮往大數據工作的方向
: (也是很有未來的工作 大陸已經很成熟了)
: 查看了104人力銀行
: 大數據分析工作需要的條件:
: MS SQL 資料探勘 R語言 Hedoop
: 所以我去巨匠諮詢了一下
: 課程規劃師說要學 MCSA MCSE
: 再考微軟證照70-461.462.463.464.465
: 才算是完全學會這套軟體
: 和證明給面試官看
: 但是學費竟然快要十萬
: 想請問有在做這方面工作的朋友們
: 真的值得花這筆錢嗎?
: P.S.我只是個國立科大 企管+金融的學士而已
: 沒有漂亮的學歷 只能學一技之長補足自己
: 也不是資工 資管的科系的
: 希望前輩們能給我建議 謝謝你們>////<
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.115.45.90
※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1482735733.A.2FA.html
... <看更多>