CNN là gì? Khám phá cấu trúc và cách hoạt động của Convolutional Neural Network

Đinh Thao

CNN là thuật ngữ quen thuộc đối với những ai đang và đã theo đuổi công việc liên quan tới lập trình viên. Là một trong những mô hình Deep Learning vô cùng quan trọng, vậy CNN là gì? Cách hoạt động của chúng ra sao? Hãy theo dõi các thông tin Testerpro chia sẻ dưới đây để cùng giải đáp cho những thắc mắc trên nhé!

CNN la gi

Tìm hiểu khái niệm CNN là gì?

CNN hay còn được gọi là Convolutional Neural Network, hiểu đơn giản thì nó là hệ thống mạng nơ-ron tích chập nằm trong mô hình tiên tiến Deep Learning cho phép người dùng xây dựng hệ thống thông tin với độ chính xác cao. Cũng chính vì tính ứng dụng cao nó đã trở thành công cụ giúp nhận dạng vật thể – object trong ảnh.

Bên cạnh đó, CNN rất quan trọng trong việc phát triển những hệ thống nhận diện thông minh với độ chính xác tuyệt đối trong thời đại công nghệ 4.0 như hiện nay.

Và để hiểu hơn về CNN là gì thì bạn có thể tiếp tục quan sát ví dụ cụ thể khi viết CNN bằng Python dưới đây:

Lưu ý: Mục đích chính của ví dụ là để xác định bộ số viết tay thông qua cách sử dụng dữ liệu MNIST.

from keras import layers

from keras import models

from keras.datasets import mnist

from keras.utils import to_categorical

# Define the CNN model

model = models.Sequential()

model.add(layers.Conv2D(32, (5,5), activation=’relu’, input_shape=(28, 28,1)))

model.add(layers.MaxPooling2D((2, 2)))

model.add(layers.Conv2D(64, (5, 5), activation=’relu’))

model.add(layers.MaxPooling2D((2, 2)))

model.add(layers.Flatten())

model.add(layers.Dense(10, activation=’softmax’))

model.summary()

# Split the data into training and test sets

(train_images, train_labels), (test_images, test_labels) = mnist.load_data()

train_images = train_images.reshape((60000, 28, 28, 1))

train_images = train_images.astype(‘float32’) / 255

test_images = test_images.reshape((10000, 28, 28, 1))

test_images = test_images.astype(‘float32’) / 255

train_labels = to_categorical(train_labels)

test_labels = to_categorical(test_labels)

# Use the training data to train the model

model.compile(loss=’categorical_crossentropy’,

              optimizer=’sgd’,

              metrics=[‘accuracy’])

model.fit(train_images, train_labels,

          batch_size=100,

          epochs=5,

          verbose=1)

# Test the model’s accuracy with the test data

test_loss, test_acc = model.evaluate(test_images, test_labels)

print(‘Test accuracy:’, test_acc)

Convolutional

Convolutional là cửa sổ dạng trượt nằm trong ma trận của hệ thống CNN, thông thường khi sử dụng convolutional bạn sẽ không cần lựa chọn feature bởi trong mỗi convolutional layer sẽ có một parameter để điều chỉnh và lấy ra những thông tin quan trọng cần thiết. Chính vì vậy Convolutional được coi là phần tử có trong ma trận CNN.

Feature

Khi tiếp nhận thông tin, hệ thống CNN sẽ tiến hành phân tích và so sánh các mẩu thông tin thì những thông tin này được gọi là Feature.

Nếu như các mô hình khác phải khớp nhau thông qua hình ảnh thì khi sử dụng mạng tích chập nơ-ron CNN sẽ giúp hệ thống tìm kiếm sự tương đồng và phát hiện sự ăn khớp giữa các hình ảnh nhanh chóng và chính xác hơn thông qua phần hỗ trợ của Feature.

Cấu tạo của CNN là gì?

Hệ thống CNN – Convolutional Neural Network sẽ hoạt động dựa vào 4 lớp cấu tạo cơ bản sau:

Convolutional layer

Convolutional layer được xem là phần quan trọng nhất có trong CNN, nhiệm vụ chính là để thực hiện các công việc tính toán dựa trên 4 đặc trưng cơ bản:

  • Filter Map: thường được sử dụng vào các phần có chứa hình ảnh trong ma trận. Bên cạnh đó, cấu trúc bên trong lớp này được xem là ma trận 3 chiều với với các con số Parameter.
CNN la gi
  • Stride: Dịch chuyển của các Pixel từ trái sang phải dựa vào sự hoạt động của Filter map được gọi là Stride.
  • Padding: Padding bao gồm các giá trị 0 được thêm vào input.
  • Feature Map: Chứa các kết quả của Filter Map khi đi qua input. Và mỗi lần quét xảy ra sẽ kèm theo 1 lần tính toán khác nhau.

Relu Layer

Relu Layer được biết tới là hàm kích hoạt của neural network và nó còn được gọi với tên khác là activation function.

  • Nhiệm vụ: Mô phỏng các neuron có thể truyền qua axon.
  • Tên gọi khác trong activation function: Relu, Tanh, Maxout, Leaky, Sigmoid

Bên cạnh đó, việc sử dụng Relu Layer cũng đem lại nhiều lợi ích cơ bản khác như hỗ trợ việc tính toán trở nên nhanh chóng và thuận tiện hơn. Tuy nhiên, trong quá trình sử dụng Relu Layer bạn cần phải chú ý tới nhiều vấn đề khác như learning rate, dead unit. Nhưng quan trọng, việc sử dụng relu layer chỉ đem lại hiệu quả khi giá trị của Filter Map được tính ra và áp dụng được các giá trị của Filter Map vào hàm Relu.

Pooling Layer

Nếu như dữ liệu đầu vào quá lớn thì hệ thống sẽ tự động sắp xếp lại các lớp Convolutional layer để làm parameter giảm đi nhờ vào sự hoạt động của Pooling Layer. Hiện nay có 2 loại pooling layer được sử dụng phổ biến nhất đó là max polling và average.

Fully Connected Layer

Sau khi convolutional layer và pooling layer đưa ra hình ảnh truyền thì fully connected layer sẽ thực hiện trả về kết quả của toàn bộ quá trình trên.

Nếu kết quả thu được sau thời gian đọc hình ảnh và thông tin là mode thì hãy sử dụng Fully connected layer để liên kết các kết quả trên từ đó sẽ tạo ra được nhiều output hơn.

Cấu trúc mạng của CNN là gì?

Những lớp Convolution bị chồng chéo lên nhau được gọi là mạng CNN. Mạng CNN thường được sử dụng trong các hàm nonlinear activation (bao gồm ReLU và tanh) nhằm mục đích kích hoạt các trọng số trong node. Bên cạnh đó, khi thông tin được xử lý qua các hàm, các trọng số trong node thu về có thể trở nên trừu tượng hơn khi sử dụng đối với các lớp kế tiếp.

Hơn nữa, đối với mô hình CNN bạn cần lưu ý 2 đặc điểm chính đó là bất biến và tính kết hợp, khi này kết quả có thể bị ảnh hưởng nếu như các đối tượng giống nhau được chiếu trên các phương diện khác biệt.

Tuy nhiên, để tạo được kết quả chính xác cho mô hình CNN thì người ta thường sử dụng pooli layer để làm bất biến các tính chất như chuyển dịch, co giãn, quay……..

Và nếu bạn kết hợp pooli layer với mạng cục bộ sẽ trả về kết quả ở nhiều cấp độ khác nhau như thông tin ở mức độ từ thấp đến cao cùng với đó là độ trừu tượng khác nhau khi hệ thống đi qua convolution từ các filter.

CNN la gi

Đặc biệt, mỗi mô hình hoạt động sẽ được liên kết với 1 layer khác nhau nếu như cơ chế convolution khác nhau. Với mỗi cơ chế này, kết quả của layer tiếp theo sẽ được tạo ra từ convolution của layer trước đó. Đây là sẽ yếu tố giúp cho việc kết nối mạng cục bộ trở nên hiệu quả và an toàn nhất.

Mỗi một nơ-ron được sinh ra ở layer tiếp theo thông qua phần kết quả của Filter sẽ ảnh hưởng trực tiếp lên vùng layer của nơ-ron tương ứng trước đó. Kèm theo đó là sự xuất hiện của các layer khác như pooling/subsampling layer sẽ hỗ trợ lọc các thông tin không chính xác và trả về phần thông tin mong muốn.

Ngoài ra, mỗi lớp CNN gồm có 3 cấu tạo chính:

  • Local receptive field (trường cục bộ): Chức năng chính hỗ trợ việc lọc, phân tích dữ liệu ảnh từ đó chọn lọc ra các vùng kết quả có giá trị sử dụng cao nhất.
  • Shared weights and bias (trọng số chia sẻ): Trong CNN shared weights anh bias có nhiệm vụ giúp giảm các số lượng trọng số với lượng dữ liệu lớn. Bởi trong mỗi 1 convolution sẽ bao gồm feature map khác nhau và trong mỗi feature map sẽ có khả năng nhận diện hình ảnh khác nhau.
  • Pooling layer (lớp tổng hợp): Là lớp tổng hợp cuối cùng có trong CNN với nhiệm vụ đơn giản hóa các thông tin đầu ra. Sau khi các lớp dữ liệu hoàn tất việc tính toán pooling layer sẽ giúp tối ưu hóa thông tin và lược bỏ đi những dữ liệu không cần thiết. Điều này giúp người dùng có thể chọn lọc ra những thông tin mong muốn.
CNN la gi

Cách hoạt động của CNN – Convolutional Neural Network

CNN bao gồm cấu tạo nhiều lớp, mỗi lớp sẽ hoạt động khác nhau để phát hiện ra hình ảnh đầu vào trong hệ thống. Các chức năng như Filter hoặc Kernel được hệ thống áp dụng vào trong mỗi hình ảnh để giúp kết quả của mỗi lớp được tạo ra tốt hơn và chi tiết hơn. Bên cạnh đó, các tính năng đơn giản hơn có thể áp dụng đối với các Filter thấp hơn.

Ở các lớp tính năng tiếp theo, các filter sẽ được tăng độ khó để có thể xác định được tính hiện đại của các đối tượng đầu vào. Do vậy, nếu kết quả đầu ra phức tạp thì hình ảnh được sử dụng trong các lớp này có thể sử dụng để xác minh cho các lớp đầu vào kế tiếp. Và tiếp diễn cho tới lớp cuối cùng, hệ thống CNN sẽ đưa ra kết quả hình ảnh nhận dạng hoặc đối tượng đại diện theo đúng yêu cầu ban đầu của người dùng.

Còn đối với convolution hình ảnh đầu vào của hệ thống sẽ phải đi qua tập hợp các Filter, khi các filter kích hoạt các tính năng cần thiết của hình ảnh nó sẽ tự động chuyển kết quả đầu ra sang bộ Filter kế tiếp. Hoạt động này có thể sử dụng với các tính năng khác nhau và chúng sẽ tiếp diễn lặp lại đối với hàng trăm, hàng chục thậm chí hàng hàng lớp convolution.

Cách lựa chọn tham số CNN phù hợp

Để lựa chộn được tham số CNN thì trước tiên bạn cần lưu ý tới 4 yếu tố sau:

  • Convolution layer: Sử dụng lớp này chắc chắn hệ thống của bạn sẽ nhanh chóng được cải thiện đặc biệt là khi khối lượng dữ liệu chạy lớn. Và chỉ cần sử dụng từ 3 đến 5 lớp layer là kết quả thu về của bạn sẽ vượt trên mong đợi.
  • Filter size: Đối với lớp này người ta thường sử dụng kích thước 3×3 hoặc 5×5
  • Pooling size: Với loại này bạn nên sử dụng kích thước 2×2 nếu ảnh đầu vào có dung lượng thấp và nếu dung lượng cao hơn thì bạn có thể chuyển thành loại 4×4.
  • Train test: Số lần thực hiện train test càng nhiều thì khả năng thu về các parameter tốt càng cao. Điều này cũng sẽ giúp mô hình của bạn trở thành mô hình thông minh và hiệu quả hơn.

Ứng dụng của mô hình CNN là gì?

Chắc hẳn sau khi tìm hiểu về lý thuyết như trên thì nhiều bạn cũng thắc mắc vậy ứng dụng của CNN là gì trong các lĩnh vực của đời sống hiện nay? Trong thực tế CNN là mô hình không chỉ được sử dụng để nhận diện hình ảnh mà nó còn được ứng dụng trong các lĩnh vực như:

  • Chăm sóc sức khỏe: CNN có thể kiểm tra báo cáo tình trạng bất thường về sức khỏe của bệnh nhân. Ví dụ như việc phát hiện các tế bào ung thư, các khối u…..
  • Ô tô: Ngành ô tô đang dần phát triển đặc biệt ứng dụng của CNN vào ngành này sẽ thúc đẩy việc nghiên cứu về mô hình xe tự lái.
  • Truyền thông xã hội: CNN ứng dụng rất nhiều trên mạng xã hội giúp nhận diện khuôn mặt và gắn thẻ bạn bè vào các bài viết.
  • Nhận diện khuôn mặt để thi hành phát luật:
  • Xử lý âm thanh……

Trên đây là toàn bộ chia sẻ của chúng tôi về CNN là gì và cách hoạt động của mô hình này. Mong rằng thông tin trên hữu ích tới bạn, giúp giải đáp toàn bộ thắc mắc của bạn về CNN. Theo dõi chúng tôi để cập nhật thêm nhiều thông tin mới hơn nữa nhé!

5/5 - (1 bình chọn)
Từ khóa:
Bình luận
Icon Phone