Computer Vision เบื้องต้น: AI ที่มองเห็นได้
ทุกครั้งที่คุณ unlock โทรศัพท์ด้วยใบหน้า หรือ Google Photos จัดกลุ่มรูปภาพให้อัตโนมัติ นั่นคือการทำงานของ Computer Vision เทคโนโลยี AI ที่ทำให้เครื่องจักร "มองเห็น" และเข้าใจโลกรอบตัวได้
Computer Vision คืออะไร?
Computer Vision คือสาขาของ AI ที่ทำให้คอมพิวเตอร์สามารถรับ ประมวลผล และทำความเข้าใจภาพหรือวิดีโอได้เหมือนกับที่มนุษย์มองเห็น
สิ่งที่ Computer Vision ทำได้
- มองเห็น: รับภาพจากกล้องหรือไฟล์
- เข้าใจ: รู้ว่าในภาพมีอะไร
- วิเคราะห์: หาความสัมพันธ์และรายละเอียด
- ตัดสินใจ: ดำเนินการตามสิ่งที่เห็น
หลักการทำงานพื้นฐาน
ภาพในมุมมองคอมพิวเตอร์
สำหรับคอมพิวเตอร์ ภาพคือตารางของตัวเลข:
ภาพ 3x3 pixels (Grayscale):
┌─────┬─────┬─────┐
│ 255 │ 200 │ 150 │
├─────┼─────┼─────┤
│ 100 │ 50 │ 75 │
├─────┼─────┼─────┤
│ 25 │ 0 │ 10 │
└─────┴─────┴─────┘
0 = ดำสนิท
255 = ขาวสุด
ภาพสี (RGB)
แต่ละ pixel มี 3 ค่า:
- R (Red): 0-255
- G (Green): 0-255
- B (Blue): 0-255
ตัวอย่าง:
- (255, 0, 0) = แดง
- (0, 255, 0) = เขียว
- (0, 0, 255) = น้ำเงิน
- (255, 255, 255) = ขาว
งานหลักของ Computer Vision
1. Image Classification (จำแนกภาพ)
ตอบคำถาม: "ในภาพนี้มีอะไร?"
ภาพ → [Model] → "แมว" (98% confidence)
ใช้งานจริง:
- แยกประเภทสินค้า
- วินิจฉัยโรคจากภาพ X-ray
- จัดหมวดหมู่รูปภาพ
2. Object Detection (ตรวจจับวัตถุ)
ตอบคำถาม: "มีอะไรอยู่ที่ไหน?"
ภาพ → [Model] →
- แมว (x: 100, y: 50, w: 200, h: 150)
- สุนัข (x: 350, y: 80, w: 180, h: 200)
ใช้งานจริง:
- รถยนต์ไร้คนขับ
- ระบบรักษาความปลอดภัย
- นับจำนวนคนหรือสินค้า
3. Image Segmentation (แบ่งส่วนภาพ)
ตอบคำถาม: "pixel ไหนเป็นของอะไร?"
Semantic Segmentation:
- ทุก pixel ของ "ถนน" = สีเทา
- ทุก pixel ของ "รถ" = สีแดง
- ทุก pixel ของ "คน" = สีเขียว
Instance Segmentation:
- รถคันที่ 1 = สีแดง
- รถคันที่ 2 = สีส้ม
- รถคันที่ 3 = สีเหลือง
ใช้งานจริง:
- ตัดพื้นหลังภาพ
- แพทย์วิเคราะห์ภาพ MRI
- Augmented Reality
4. Face Recognition (จดจำใบหน้า)
ตอบคำถาม: "นี่คือใคร?"
ภาพใบหน้า → [Model] →
- ตรวจจับใบหน้า
- สกัด Features (128 มิติ)
- เปรียบเทียบกับฐานข้อมูล
→ "สมชาย" (99.5% match)
ใช้งานจริง:
- ปลดล็อกโทรศัพท์
- ระบบเข้าออกอาคาร
- ค้นหาคนหาย
5. Pose Estimation (ประมาณท่าทาง)
ตอบคำถาม: "ท่าทางเป็นอย่างไร?"
ภาพคน → [Model] →
- หัว: (x: 100, y: 50)
- ไหล่ซ้าย: (x: 80, y: 120)
- ไหล่ขวา: (x: 120, y: 118)
- ข้อศอก: ...
- มือ: ...
ใช้งานจริง:
- วิเคราะห์ท่าออกกำลังกาย
- Motion Capture
- Sign Language Recognition
6. OCR (Optical Character Recognition)
ตอบคำถาม: "ในภาพเขียนว่าอะไร?"
ภาพข้อความ → [Model] → "Hello World"
ใช้งานจริง:
- สแกนเอกสาร
- อ่านป้ายทะเบียน
- แปลข้อความในภาพ
เทคโนโลยีที่ใช้
Convolutional Neural Networks (CNNs)
สถาปัตยกรรมหลักสำหรับ Computer Vision:
ภาพ
↓
[Convolution Layer] - หา features (ขอบ, มุม, texture)
↓
[Pooling Layer] - ลดขนาด รักษา features สำคัญ
↓
[Convolution Layer] - หา features ขั้นสูง (หู, ตา, ล้อ)
↓
[Pooling Layer]
↓
[Fully Connected] - ตัดสินใจ
↓
ผลลัพธ์
โมเดลยอดนิยม
| โมเดล | ปี | จุดเด่น |
|---|---|---|
| AlexNet | 2012 | บุกเบิก Deep Learning สำหรับ CV |
| VGG | 2014 | เรียบง่าย มีประสิทธิภาพ |
| ResNet | 2015 | Skip connections แก้ปัญหา deep networks |
| YOLO | 2016 | Real-time object detection |
| EfficientNet | 2019 | ประสิทธิภาพสูง ใช้ทรัพยากรน้อย |
| Vision Transformer | 2020 | ใช้ Transformer แทน CNN |
ตัวอย่างการใช้งาน Python
ด้วย OpenCV
import cv2
# อ่านภาพ
img = cv2.imread('photo.jpg')
# แปลงเป็น grayscale
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
# ตรวจจับขอบ
edges = cv2.Canny(gray, 100, 200)
# บันทึกผลลัพธ์
cv2.imwrite('edges.jpg', edges)
ด้วย Hugging Face
from transformers import pipeline
# Image Classification
classifier = pipeline("image-classification")
result = classifier("cat.jpg")
# [{'label': 'tabby cat', 'score': 0.95}]
# Object Detection
detector = pipeline("object-detection")
result = detector("street.jpg")
# [{'label': 'car', 'box': {...}}, {'label': 'person', 'box': {...}}]
ด้วย YOLO
from ultralytics import YOLO
# โหลดโมเดล
model = YOLO('yolov8n.pt')
# ตรวจจับวัตถุ
results = model('image.jpg')
# แสดงผล
results[0].show()
การประยุกต์ใช้ในอุตสาหกรรม
1. Healthcare
- วินิจฉัยโรคจากภาพ X-ray, MRI, CT scan
- ตรวจจับมะเร็งผิวหนัง
- วิเคราะห์ภาพจอประสาทตา
2. Retail
- Cashier-less stores (Amazon Go)
- ติดตามสินค้าคงคลัง
- วิเคราะห์พฤติกรรมลูกค้า
3. Manufacturing
- ตรวจสอบคุณภาพสินค้า
- ตรวจจับ defects
- หุ่นยนต์หยิบจับ
4. Automotive
- รถยนต์ไร้คนขับ
- ระบบช่วยขับขี่ (ADAS)
- ตรวจจับคนเดินถนน
5. Agriculture
- ตรวจสอบสุขภาพพืช
- นับผลผลิต
- โดรนพ่นยา
6. Security
- Face recognition
- ตรวจจับพฤติกรรมผิดปกติ
- License plate recognition
ความท้าทายของ Computer Vision
1. Lighting Conditions
ภาพในที่มืด/สว่างเกินไปทำให้โมเดลสับสน
2. Occlusion
วัตถุบังกันบางส่วน
3. Scale Variance
วัตถุเดียวกันอาจมีขนาดต่างกันมากในภาพ
4. Background Clutter
พื้นหลังซับซ้อนรบกวนการตรวจจับ
5. Data Bias
โมเดลอาจทำงานได้ไม่ดีกับข้อมูลที่ไม่เคยเห็น
เริ่มต้นเรียน Computer Vision
ขั้นตอนแนะนำ
- เรียนพื้นฐาน Python
- ทำความรู้จัก OpenCV: Image processing พื้นฐาน
- เข้าใจ Deep Learning: Neural Networks, CNNs
- ลอง Pre-trained Models: Hugging Face, YOLO
- ทำโปรเจคจริง: เริ่มจากง่ายๆ
ทรัพยากรแนะนำ
- OpenCV Tutorials: opencv.org
- PyTorch Vision: torchvision
- Fast.ai Course: ฟรี ปฏิบัติจริง
- Kaggle Competitions: ฝึกฝนกับข้อมูลจริง
อนาคตของ Computer Vision
แนวโน้มที่น่าจับตา
- 3D Vision: เข้าใจความลึกและมิติ
- Video Understanding: เข้าใจเหตุการณ์ในวิดีโอ
- Multimodal AI: รวม Vision กับ Language
- Edge AI: ประมวลผลบนอุปกรณ์
- Generative AI: สร้างภาพจากข้อความ (DALL-E, Midjourney)
สรุป
Computer Vision เป็นเทคโนโลยี AI ที่ทำให้เครื่องจักรมองเห็นและเข้าใจโลก:
- Image Classification: จำแนกภาพ
- Object Detection: หาตำแหน่งวัตถุ
- Segmentation: แบ่งส่วนภาพ
- Face Recognition: จดจำใบหน้า
- OCR: อ่านข้อความ
ถูกใช้ในหลายอุตสาหกรรม ตั้งแต่สมาร์ทโฟน รถยนต์ไร้คนขับ ไปจนถึงการแพทย์
อ่านเพิ่มเติม:
เขียนโดย
AI Unlocked Team
บทความอื่นๆ ที่น่าสนใจ
วิธีติดตั้ง FFmpeg บน Windows และ Mac: คู่มือฉบับสมบูรณ์
เรียนรู้วิธีติดตั้ง FFmpeg บน Windows และ macOS พร้อมการตั้งค่า PATH อย่างละเอียด เพื่อใช้งานโปรแกรมตัดต่อวิดีโอและเสียงระดับมืออาชีพ
สร้าง AI-Powered SaaS: จากไอเดียสู่ผลิตภัณฑ์
คู่มือครบวงจรในการสร้าง AI-Powered SaaS ตั้งแต่การวางแผน พัฒนา ไปจนถึง launch และ scale รวมถึง tech stack, pricing และ business model
AI Security: วิธีใช้ AI อย่างปลอดภัย
เรียนรู้แนวทางการใช้ AI อย่างปลอดภัย ครอบคลุม prompt injection, data privacy, API security และ best practices สำหรับองค์กร