Computer Vision
AI
Machine Learning
Deep Learning
Image Recognition

Computer Vision เบื้องต้น: AI ที่มองเห็นได้

ทำความเข้าใจ Computer Vision ตั้งแต่พื้นฐาน การทำงาน เทคนิคหลัก และการประยุกต์ใช้จริง AI ที่ทำให้คอมพิวเตอร์มองเห็นและเข้าใจภาพได้

AI Unlocked Team
11/01/2568
Computer Vision เบื้องต้น: AI ที่มองเห็นได้

Computer Vision เบื้องต้น: AI ที่มองเห็นได้

ทุกครั้งที่คุณ unlock โทรศัพท์ด้วยใบหน้า หรือ Google Photos จัดกลุ่มรูปภาพให้อัตโนมัติ นั่นคือการทำงานของ Computer Vision เทคโนโลยี AI ที่ทำให้เครื่องจักร "มองเห็น" และเข้าใจโลกรอบตัวได้

Computer Vision คืออะไร?

Computer Vision คือสาขาของ AI ที่ทำให้คอมพิวเตอร์สามารถรับ ประมวลผล และทำความเข้าใจภาพหรือวิดีโอได้เหมือนกับที่มนุษย์มองเห็น

สิ่งที่ Computer Vision ทำได้

  • มองเห็น: รับภาพจากกล้องหรือไฟล์
  • เข้าใจ: รู้ว่าในภาพมีอะไร
  • วิเคราะห์: หาความสัมพันธ์และรายละเอียด
  • ตัดสินใจ: ดำเนินการตามสิ่งที่เห็น

หลักการทำงานพื้นฐาน

ภาพในมุมมองคอมพิวเตอร์

สำหรับคอมพิวเตอร์ ภาพคือตารางของตัวเลข:

ภาพ 3x3 pixels (Grayscale):
┌─────┬─────┬─────┐
│ 255 │ 200 │ 150 │
├─────┼─────┼─────┤
│ 100 │  50 │  75 │
├─────┼─────┼─────┤
│  25 │   0 │  10 │
└─────┴─────┴─────┘

0 = ดำสนิท
255 = ขาวสุด

ภาพสี (RGB)

แต่ละ pixel มี 3 ค่า:
- R (Red): 0-255
- G (Green): 0-255
- B (Blue): 0-255

ตัวอย่าง:
- (255, 0, 0) = แดง
- (0, 255, 0) = เขียว
- (0, 0, 255) = น้ำเงิน
- (255, 255, 255) = ขาว

งานหลักของ Computer Vision

1. Image Classification (จำแนกภาพ)

ตอบคำถาม: "ในภาพนี้มีอะไร?"

ภาพ → [Model] → "แมว" (98% confidence)

ใช้งานจริง:

  • แยกประเภทสินค้า
  • วินิจฉัยโรคจากภาพ X-ray
  • จัดหมวดหมู่รูปภาพ

2. Object Detection (ตรวจจับวัตถุ)

ตอบคำถาม: "มีอะไรอยู่ที่ไหน?"

ภาพ → [Model] →
  - แมว (x: 100, y: 50, w: 200, h: 150)
  - สุนัข (x: 350, y: 80, w: 180, h: 200)

ใช้งานจริง:

  • รถยนต์ไร้คนขับ
  • ระบบรักษาความปลอดภัย
  • นับจำนวนคนหรือสินค้า

3. Image Segmentation (แบ่งส่วนภาพ)

ตอบคำถาม: "pixel ไหนเป็นของอะไร?"

Semantic Segmentation:
- ทุก pixel ของ "ถนน" = สีเทา
- ทุก pixel ของ "รถ" = สีแดง
- ทุก pixel ของ "คน" = สีเขียว

Instance Segmentation:
- รถคันที่ 1 = สีแดง
- รถคันที่ 2 = สีส้ม
- รถคันที่ 3 = สีเหลือง

ใช้งานจริง:

  • ตัดพื้นหลังภาพ
  • แพทย์วิเคราะห์ภาพ MRI
  • Augmented Reality

4. Face Recognition (จดจำใบหน้า)

ตอบคำถาม: "นี่คือใคร?"

ภาพใบหน้า → [Model] →
  - ตรวจจับใบหน้า
  - สกัด Features (128 มิติ)
  - เปรียบเทียบกับฐานข้อมูล
  → "สมชาย" (99.5% match)

ใช้งานจริง:

  • ปลดล็อกโทรศัพท์
  • ระบบเข้าออกอาคาร
  • ค้นหาคนหาย

5. Pose Estimation (ประมาณท่าทาง)

ตอบคำถาม: "ท่าทางเป็นอย่างไร?"

ภาพคน → [Model] →
  - หัว: (x: 100, y: 50)
  - ไหล่ซ้าย: (x: 80, y: 120)
  - ไหล่ขวา: (x: 120, y: 118)
  - ข้อศอก: ...
  - มือ: ...

ใช้งานจริง:

  • วิเคราะห์ท่าออกกำลังกาย
  • Motion Capture
  • Sign Language Recognition

6. OCR (Optical Character Recognition)

ตอบคำถาม: "ในภาพเขียนว่าอะไร?"

ภาพข้อความ → [Model] → "Hello World"

ใช้งานจริง:

  • สแกนเอกสาร
  • อ่านป้ายทะเบียน
  • แปลข้อความในภาพ

เทคโนโลยีที่ใช้

Convolutional Neural Networks (CNNs)

สถาปัตยกรรมหลักสำหรับ Computer Vision:

ภาพ
  ↓
[Convolution Layer] - หา features (ขอบ, มุม, texture)
  ↓
[Pooling Layer] - ลดขนาด รักษา features สำคัญ
  ↓
[Convolution Layer] - หา features ขั้นสูง (หู, ตา, ล้อ)
  ↓
[Pooling Layer]
  ↓
[Fully Connected] - ตัดสินใจ
  ↓
ผลลัพธ์

โมเดลยอดนิยม

โมเดลปีจุดเด่น
AlexNet2012บุกเบิก Deep Learning สำหรับ CV
VGG2014เรียบง่าย มีประสิทธิภาพ
ResNet2015Skip connections แก้ปัญหา deep networks
YOLO2016Real-time object detection
EfficientNet2019ประสิทธิภาพสูง ใช้ทรัพยากรน้อย
Vision Transformer2020ใช้ Transformer แทน CNN

ตัวอย่างการใช้งาน Python

ด้วย OpenCV

import cv2

# อ่านภาพ
img = cv2.imread('photo.jpg')

# แปลงเป็น grayscale
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

# ตรวจจับขอบ
edges = cv2.Canny(gray, 100, 200)

# บันทึกผลลัพธ์
cv2.imwrite('edges.jpg', edges)

ด้วย Hugging Face

from transformers import pipeline

# Image Classification
classifier = pipeline("image-classification")
result = classifier("cat.jpg")
# [{'label': 'tabby cat', 'score': 0.95}]

# Object Detection
detector = pipeline("object-detection")
result = detector("street.jpg")
# [{'label': 'car', 'box': {...}}, {'label': 'person', 'box': {...}}]

ด้วย YOLO

from ultralytics import YOLO

# โหลดโมเดล
model = YOLO('yolov8n.pt')

# ตรวจจับวัตถุ
results = model('image.jpg')

# แสดงผล
results[0].show()

การประยุกต์ใช้ในอุตสาหกรรม

1. Healthcare

  • วินิจฉัยโรคจากภาพ X-ray, MRI, CT scan
  • ตรวจจับมะเร็งผิวหนัง
  • วิเคราะห์ภาพจอประสาทตา

2. Retail

  • Cashier-less stores (Amazon Go)
  • ติดตามสินค้าคงคลัง
  • วิเคราะห์พฤติกรรมลูกค้า

3. Manufacturing

  • ตรวจสอบคุณภาพสินค้า
  • ตรวจจับ defects
  • หุ่นยนต์หยิบจับ

4. Automotive

  • รถยนต์ไร้คนขับ
  • ระบบช่วยขับขี่ (ADAS)
  • ตรวจจับคนเดินถนน

5. Agriculture

  • ตรวจสอบสุขภาพพืช
  • นับผลผลิต
  • โดรนพ่นยา

6. Security

  • Face recognition
  • ตรวจจับพฤติกรรมผิดปกติ
  • License plate recognition

ความท้าทายของ Computer Vision

1. Lighting Conditions

ภาพในที่มืด/สว่างเกินไปทำให้โมเดลสับสน

2. Occlusion

วัตถุบังกันบางส่วน

3. Scale Variance

วัตถุเดียวกันอาจมีขนาดต่างกันมากในภาพ

4. Background Clutter

พื้นหลังซับซ้อนรบกวนการตรวจจับ

5. Data Bias

โมเดลอาจทำงานได้ไม่ดีกับข้อมูลที่ไม่เคยเห็น

เริ่มต้นเรียน Computer Vision

ขั้นตอนแนะนำ

  1. เรียนพื้นฐาน Python
  2. ทำความรู้จัก OpenCV: Image processing พื้นฐาน
  3. เข้าใจ Deep Learning: Neural Networks, CNNs
  4. ลอง Pre-trained Models: Hugging Face, YOLO
  5. ทำโปรเจคจริง: เริ่มจากง่ายๆ

ทรัพยากรแนะนำ

  • OpenCV Tutorials: opencv.org
  • PyTorch Vision: torchvision
  • Fast.ai Course: ฟรี ปฏิบัติจริง
  • Kaggle Competitions: ฝึกฝนกับข้อมูลจริง

อนาคตของ Computer Vision

แนวโน้มที่น่าจับตา

  1. 3D Vision: เข้าใจความลึกและมิติ
  2. Video Understanding: เข้าใจเหตุการณ์ในวิดีโอ
  3. Multimodal AI: รวม Vision กับ Language
  4. Edge AI: ประมวลผลบนอุปกรณ์
  5. Generative AI: สร้างภาพจากข้อความ (DALL-E, Midjourney)

สรุป

Computer Vision เป็นเทคโนโลยี AI ที่ทำให้เครื่องจักรมองเห็นและเข้าใจโลก:

  • Image Classification: จำแนกภาพ
  • Object Detection: หาตำแหน่งวัตถุ
  • Segmentation: แบ่งส่วนภาพ
  • Face Recognition: จดจำใบหน้า
  • OCR: อ่านข้อความ

ถูกใช้ในหลายอุตสาหกรรม ตั้งแต่สมาร์ทโฟน รถยนต์ไร้คนขับ ไปจนถึงการแพทย์


อ่านเพิ่มเติม:


เขียนโดย

AI Unlocked Team