Computer Vision เบื้องต้น: AI ที่มองเห็นได้

ทุกครั้งที่คุณ unlock โทรศัพท์ด้วยใบหน้า หรือ Google Photos จัดกลุ่มรูปภาพให้อัตโนมัติ นั่นคือการทำงานของ Computer Vision เทคโนโลยี AI ที่ทำให้เครื่องจักร "มองเห็น" และเข้าใจโลกรอบตัวได้

Computer Vision คืออะไร?

Computer Vision คือสาขาของ AI ที่ทำให้คอมพิวเตอร์สามารถรับ ประมวลผล และทำความเข้าใจภาพหรือวิดีโอได้เหมือนกับที่มนุษย์มองเห็น

สิ่งที่ Computer Vision ทำได้

มองเห็น: รับภาพจากกล้องหรือไฟล์
เข้าใจ: รู้ว่าในภาพมีอะไร
วิเคราะห์: หาความสัมพันธ์และรายละเอียด
ตัดสินใจ: ดำเนินการตามสิ่งที่เห็น

หลักการทำงานพื้นฐาน

ภาพในมุมมองคอมพิวเตอร์

สำหรับคอมพิวเตอร์ ภาพคือตารางของตัวเลข:

ภาพ 3x3 pixels (Grayscale):
┌─────┬─────┬─────┐
│ 255 │ 200 │ 150 │
├─────┼─────┼─────┤
│ 100 │  50 │  75 │
├─────┼─────┼─────┤
│  25 │   0 │  10 │
└─────┴─────┴─────┘

0 = ดำสนิท
255 = ขาวสุด

ภาพสี (RGB)

แต่ละ pixel มี 3 ค่า:
- R (Red): 0-255
- G (Green): 0-255
- B (Blue): 0-255

ตัวอย่าง:
- (255, 0, 0) = แดง
- (0, 255, 0) = เขียว
- (0, 0, 255) = น้ำเงิน
- (255, 255, 255) = ขาว

งานหลักของ Computer Vision

1. Image Classification (จำแนกภาพ)

ตอบคำถาม: "ในภาพนี้มีอะไร?"

ภาพ → [Model] → "แมว" (98% confidence)

ใช้งานจริง:

แยกประเภทสินค้า
วินิจฉัยโรคจากภาพ X-ray
จัดหมวดหมู่รูปภาพ

2. Object Detection (ตรวจจับวัตถุ)

ตอบคำถาม: "มีอะไรอยู่ที่ไหน?"

ภาพ → [Model] →
  - แมว (x: 100, y: 50, w: 200, h: 150)
  - สุนัข (x: 350, y: 80, w: 180, h: 200)

ใช้งานจริง:

รถยนต์ไร้คนขับ
ระบบรักษาความปลอดภัย
นับจำนวนคนหรือสินค้า

3. Image Segmentation (แบ่งส่วนภาพ)

ตอบคำถาม: "pixel ไหนเป็นของอะไร?"

Semantic Segmentation:
- ทุก pixel ของ "ถนน" = สีเทา
- ทุก pixel ของ "รถ" = สีแดง
- ทุก pixel ของ "คน" = สีเขียว

Instance Segmentation:
- รถคันที่ 1 = สีแดง
- รถคันที่ 2 = สีส้ม
- รถคันที่ 3 = สีเหลือง

ใช้งานจริง:

ตัดพื้นหลังภาพ
แพทย์วิเคราะห์ภาพ MRI
Augmented Reality

4. Face Recognition (จดจำใบหน้า)

ตอบคำถาม: "นี่คือใคร?"

ภาพใบหน้า → [Model] →
  - ตรวจจับใบหน้า
  - สกัด Features (128 มิติ)
  - เปรียบเทียบกับฐานข้อมูล
  → "สมชาย" (99.5% match)

ใช้งานจริง:

ปลดล็อกโทรศัพท์
ระบบเข้าออกอาคาร
ค้นหาคนหาย

5. Pose Estimation (ประมาณท่าทาง)

ตอบคำถาม: "ท่าทางเป็นอย่างไร?"

ภาพคน → [Model] →
  - หัว: (x: 100, y: 50)
  - ไหล่ซ้าย: (x: 80, y: 120)
  - ไหล่ขวา: (x: 120, y: 118)
  - ข้อศอก: ...
  - มือ: ...

ใช้งานจริง:

วิเคราะห์ท่าออกกำลังกาย
Motion Capture
Sign Language Recognition

6. OCR (Optical Character Recognition)

ตอบคำถาม: "ในภาพเขียนว่าอะไร?"

ภาพข้อความ → [Model] → "Hello World"

ใช้งานจริง:

สแกนเอกสาร
อ่านป้ายทะเบียน
แปลข้อความในภาพ

เทคโนโลยีที่ใช้

Convolutional Neural Networks (CNNs)

สถาปัตยกรรมหลักสำหรับ Computer Vision:

ภาพ
  ↓
[Convolution Layer] - หา features (ขอบ, มุม, texture)
  ↓
[Pooling Layer] - ลดขนาด รักษา features สำคัญ
  ↓
[Convolution Layer] - หา features ขั้นสูง (หู, ตา, ล้อ)
  ↓
[Pooling Layer]
  ↓
[Fully Connected] - ตัดสินใจ
  ↓
ผลลัพธ์

โมเดลยอดนิยม

โมเดล	ปี	จุดเด่น
AlexNet	2012	บุกเบิก Deep Learning สำหรับ CV
VGG	2014	เรียบง่าย มีประสิทธิภาพ
ResNet	2015	Skip connections แก้ปัญหา deep networks
YOLO	2016	Real-time object detection
EfficientNet	2019	ประสิทธิภาพสูง ใช้ทรัพยากรน้อย
Vision Transformer	2020	ใช้ Transformer แทน CNN

ตัวอย่างการใช้งาน Python

ด้วย OpenCV

import cv2

# อ่านภาพ
img = cv2.imread('photo.jpg')

# แปลงเป็น grayscale
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

# ตรวจจับขอบ
edges = cv2.Canny(gray, 100, 200)

# บันทึกผลลัพธ์
cv2.imwrite('edges.jpg', edges)

ด้วย Hugging Face

from transformers import pipeline

# Image Classification
classifier = pipeline("image-classification")
result = classifier("cat.jpg")
# [{'label': 'tabby cat', 'score': 0.95}]

# Object Detection
detector = pipeline("object-detection")
result = detector("street.jpg")
# [{'label': 'car', 'box': {...}}, {'label': 'person', 'box': {...}}]

ด้วย YOLO

from ultralytics import YOLO

# โหลดโมเดล
model = YOLO('yolov8n.pt')

# ตรวจจับวัตถุ
results = model('image.jpg')

# แสดงผล
results[0].show()

การประยุกต์ใช้ในอุตสาหกรรม

1. Healthcare

วินิจฉัยโรคจากภาพ X-ray, MRI, CT scan
ตรวจจับมะเร็งผิวหนัง
วิเคราะห์ภาพจอประสาทตา

2. Retail

Cashier-less stores (Amazon Go)
ติดตามสินค้าคงคลัง
วิเคราะห์พฤติกรรมลูกค้า

3. Manufacturing

ตรวจสอบคุณภาพสินค้า
ตรวจจับ defects
หุ่นยนต์หยิบจับ

4. Automotive

รถยนต์ไร้คนขับ
ระบบช่วยขับขี่ (ADAS)
ตรวจจับคนเดินถนน

5. Agriculture

ตรวจสอบสุขภาพพืช
นับผลผลิต
โดรนพ่นยา

6. Security

Face recognition
ตรวจจับพฤติกรรมผิดปกติ
License plate recognition

เรียนพื้นฐาน Python
ทำความรู้จัก OpenCV: Image processing พื้นฐาน
เข้าใจ Deep Learning: Neural Networks, CNNs
ลอง Pre-trained Models: Hugging Face, YOLO
ทำโปรเจคจริง: เริ่มจากง่ายๆ

ทรัพยากรแนะนำ

OpenCV Tutorials: opencv.org
PyTorch Vision: torchvision
Fast.ai Course: ฟรี ปฏิบัติจริง
Kaggle Competitions: ฝึกฝนกับข้อมูลจริง

อนาคตของ Computer Vision

แนวโน้มที่น่าจับตา

3D Vision: เข้าใจความลึกและมิติ
Video Understanding: เข้าใจเหตุการณ์ในวิดีโอ
Multimodal AI: รวม Vision กับ Language
Edge AI: ประมวลผลบนอุปกรณ์
Generative AI: สร้างภาพจากข้อความ (DALL-E, Midjourney)

สรุป

Computer Vision เป็นเทคโนโลยี AI ที่ทำให้เครื่องจักรมองเห็นและเข้าใจโลก:

Image Classification: จำแนกภาพ
Object Detection: หาตำแหน่งวัตถุ
Segmentation: แบ่งส่วนภาพ
Face Recognition: จดจำใบหน้า
OCR: อ่านข้อความ

ถูกใช้ในหลายอุตสาหกรรม ตั้งแต่สมาร์ทโฟน รถยนต์ไร้คนขับ ไปจนถึงการแพทย์

อ่านเพิ่มเติม:

Computer Vision เบื้องต้น: AI ที่มองเห็นได้

บทความอื่นๆ ที่น่าสนใจ

วิธีติดตั้ง FFmpeg บน Windows และ Mac: คู่มือฉบับสมบูรณ์

สรุป: เส้นทางการเรียนรู้ AI สำหรับคนไทย ฉบับสมบูรณ์

อนาคตของ AI ในอีก 5 ปี: แนวโน้มและการเปลี่ยนแปลงที่จะเกิดขึ้น