Giới Thiệu Khóa Học Online Big Data in Machine Learning: Xử Lý Dữ Liệu Lớn Trong Máy Học

Quản Trị Viên

30 tháng 7

Published 15 tháng 6

👉 NHẤN ĐỂ NHẬN ƯU ĐÃI SỐC KHI MUA KHÓA HỌC

Khóa Học Online Big Data in Machine Learning: Xử Lý Dữ Liệu Lớn Trong Máy học sẽ bao gồm:

Các công nghệ trong Big Data: cách lưu trữ, quản lý, xử lý và phân tích dữ liệu lớn để mang lại các số liệu theo yêu cầu của hoạt động doanh nghiệp
Làm việc với Spark, Big Data Technology mới nhất
Trang bị các kiến thức và kỹ năng làm việc với PySpark (Python package tích hợp Spark dùng để thực hiện tính toán song song với các bộ dữ liệu lớn) như PySpark RDD’s, PySpark DataFrame, PySpark SQL, PySpark Mllib, PySpark Streaming, PySpark GraphX
Áp dụng Machine Learning với Big Data
Triển khai dự án Machine Learning với Big Data trên hệ thống Master-Workers.

Big Data in Machine Learning

Khóa học trang bị cho học viên (HV) những kiến thức nền tảng về đặc điểm và các thành phần của Big Data
Giúp HV hiểu được giá trị mà Big Data mang lại doanh nghiệp
Cung cấp cho HV các phương pháp làm việc với Big Data trong Machine Learning, Data Science
Trang bị các kiến thức và kỹ năng làm việc với PySpark (Python package tích hợp Spark dùng để thực hiện tính toán song song với các bộ dữ liệu lớn) như PySpark RDDs, PySpark DataFrames, PySpark SQL, PySpark Mllib, PySpark Streaming, PySpark GraphX…
Giúp HV nắm bắt được các công nghệ sử dụng trong Big Data: cách lưu trữ, quản lý, xử lý và phân tích dữ liệu lớn để mang lại các số liệu theo yêu cầu của hoạt động doanh nghiệp.
Là khóa học thứ chín trong chương trình “Data Science and Machine Learning Certificate”

SẼ RẤT HỮU ÍCH NẾU BẠN LÀ:

HV học qua lớp Machine Learning with Python hoặc có kiến thức tương đương
Sinh viên các trường Đại học, Cao đẳng
HV có định hướng sẽ làm việc trong lĩnh vực Machine Learning hoặc Data Science

BẠN SẼ NHẬN ĐƯỢC GÌ QUA KHÓA HỌC?

Sau khi hoàn thành khóa học, học viên sẽ đạt được các kỹ năng:

Nắm vững các đặc điểm và thành phần của Big Data
Nắm vững các kỹ thuật xử lý và phân tích dữ liệu lớn
Làm việc với Spark, Big Data Technology mới nhất
Làm việc với các thư viện của PySpark như PySpark RDD’s, PySpark DataFrames, PySpark SQL, PySpark Mllib, PySpark Streaming, PySpark GraphX…
Áp dụng Machine Learning với Big Data
Vận dụng các kỹ thuật phân tích dữ liệu lớn để mang lại các số liệu thống kê theo yêu cầu của doanh nghiệp
Cơ hội việc làm ổn định tại các công ty xử lý và phân tích dữ liệu lớn trong và ngoài nước.

KHOẢN ĐẦU TƯ DÀNH CHO KHÓA HỌC:

Thời gian học: 5 tuần
Thời lượng: 64 tiết, học trực tiếp trên máy

BẠN SẼ HỌC NHỮNG GÌ?

Overview of Big Data

What is Big Data?
History of Big Data
The Vs’ of Big Data (3Vs’, 4Vs’, 5Vs’)
Batch processing vs Stream processing
Introduction to Apache Spark
Apache Spark Components: Spark RDD API, Spark SQL, Spark MLlib, Spark GraphX, Spark Streaming

Overview of PySpark

Introduction to PySpark: Spark with Python (Python API)
Why PySpark?
Installing and configuration PySpark
Spark context, Spark Session

PySpark RDDs

Introduction to PySpark RDDs (Resilient Distributed Dataset)
RDDs operations

Transformation
Action

Working with PySpark RDDs

Create RDD: parallelize(), textFile()
RDD Transformations: map(), filter(), flatMap(), RDD1.union(RDD2)
RDD Actions: collect(), take(), count(), first(), reduce(), saveAsTextFile(),…
Pair RDDs:

Create Pair RDDs from key-value tuple/ regular RDD
Transformations: reduceByKey(), groupByKey(), sortByKey(), join()
Actions: countByKey(), collectAsMap()

PySpark DataFrame

Introduction to PySpark DataFrame
Features and Advantages
Working with PySpark DataFrame

Create DataFrame: createDataFrame(), spark.read.csv(), spark.read.json()
printSchema(), show()
count()
describe()
crosstab()
groupby()
select(), select() và agg, count, max, mean, min, sum..., select().distinct(),
orderby().asc()/desc()
withColumn(), withColumnRenamed()
drop(), dropDuplicates(), dropna()
filter(), where()
Column string transformation
Conditional clauses: .when(<if condition>, <then x>), .otherwise()
User defined functions (UDF)

Data Visualization in PySpark using DataFrames

hist(), distplot()
pandas_histogram()

PySpark SQL

Introduction to PySpark SQL
Running SQL Queries Programmatically

select()
when()
like()
startswith(), endswith()
substr(), between()

Manipulating data

Group by
Filtering
Sorting
Missing and replacing value
Joining Data
Repartitioning
Registering DataFrames as Views

Data Preprocessing & Analysis

Wrangling with Spark Functions

Dropping, Filtering, Joining
Working with missing data
Using lazy processing
Parquet
Removing, Splitting rows/columns
Data validation

Feature Engineering

Feature Generation
Differences, Ratios
Deeper Features, Time Features
Time Components, Joining On Time Components
Date Math
Extracting Features/ Text to New Features
Splitting & Exploding
Scaling data
Pivoting & Joining
Binarizing, Bucketing & Encoding

Data Analysis

Exploratory Data Analysis (EDA), Corr
Visualization: distplot, implot…

Overview of PySpark MLlib

Introduction to PySpark MLlib
PySpark MLlib algorithms
Building a Model
Estimator and evaluator
Cross-validation, Grid Search
Interpreting Results

Machine Learning with PySpark MLlib

Supervised Learning (Classification & Regression)

Linear Regression (pyspark.ml.regression)
Logistic Regression (pyspark.mllib.classification)
Decision Tree (pyspark.mllib.classification)
Random forest (pyspark.mllib.classification)
Gradient-Boosted Tree

Pipeline

Introduction to Pipeline
Working with Pipeline (pyspark.ml import Pipeline)

Unsupervised Learning (Clustering & Recommender System)

Clustering with KMeans
Recommender System - ALS
Association rules – FPGrowth (pyspark.ml.fpm.FPGrowth)

PySpark Streaming

Introduction to PySpark Streaming
Why PySpark Streaming?
Features and Advantages
Streaming Context
DStream
Streaming Transformation Operations
Streaming Checkpoint

Natural Language Processing - NLP

Tools for NLP

Tokenizer
StopWordsRemover
NGram
CountVectorizer
TF-IDF

Apache Spark standalone cluster

Running Master Server
Connecting from Slave computers to Master Server
Deployment project in Mater – Slave computers system

GraphX

Introduction to GraphX
Working with GraphX

Creating graph
Vertex and edge
Visualization Graph
Filtering
Connecting
Motif finding
Triangle count
Page rank

Lưu Ý Khóa học này được Weekly Study dẫn thông tin từ các nguồn cung cấp khác, nhằm giới thiệu cho độc giả các khóa học chất lượng, giá hợp lý. Chúng tôi không có trách nhiệm pháp lý về khóa học này.

Thông Cáo DMCA Copyright Disclaimer: This site does not store any files on its server. We only index and link to content provided by other sites. Please contact the content providers to delete copyright contents if any and email us, we'll remove relevant links or contents immediately.

Tuyên bố miễn trừ bản quyền: Trang web này không lưu trữ bất kỳ tệp nào trên máy chủ của nó. Chúng tôi chỉ lập chỉ mục và liên kết đến nội dung được cung cấp bởi các trang web khác. Vui lòng liên hệ với các nhà cung cấp nội dung để xóa nội dung bản quyền nếu có và gửi email cho chúng tôi, chúng tôi sẽ xóa các liên kết hoặc nội dung có liên quan ngay lập tức.

Weekly Study | Kênh Tri Thức Việt

Giới Thiệu Khóa Học Online Big Data in Machine Learning: Xử Lý Dữ Liệu Lớn Trong Máy Học

Big Data in Machine Learning

SẼ RẤT HỮU ÍCH NẾU BẠN LÀ:

BẠN SẼ NHẬN ĐƯỢC GÌ QUA KHÓA HỌC?

KHOẢN ĐẦU TƯ DÀNH CHO KHÓA HỌC:

BẠN SẼ HỌC NHỮNG GÌ?

7 Khóa Học Trí Tuệ Nhân Tạo AI Miễn Phí Tốt Nhất Năm 2026

Giới Thiệu Combo 3 Khóa Học Photoshop, Ghép Ảnh Chuyên Nghiệp, Thiết Kế Banner, Poster

Datasets for Data Science, Machine Learning, AI & Analytics

9 Dự án Máy học (Machine Learning) bạn sẽ được thuê

Giới Thiệu Khóa Học Hoàn Chỉnh Về Zabbix Và Network Monitoring 2023 [Mã - 6917 A]