LLM คืออะไร? ทำความเข้าใจ Large Language Models

ChatGPT, Claude, Gemini - ทั้งหมดนี้คือ Large Language Models (LLMs) แต่ LLM คืออะไรกันแน่? ทำงานอย่างไร? และทำไมถึงเปลี่ยนโลกได้?

LLM คืออะไร?

Large Language Model (LLM) คือโมเดล AI ขนาดใหญ่ที่ถูกฝึกมาเพื่อเข้าใจและสร้างภาษามนุษย์

องค์ประกอบสำคัญ

L = Large (ใหญ่)
- พารามิเตอร์หลายพันล้านถึงล้านล้าน
- ฝึกจากข้อมูลมหาศาล

L = Language (ภาษา)
- เข้าใจภาษามนุษย์
- สร้างข้อความได้

M = Model (โมเดล)
- Neural Network (Transformer)
- เรียนรู้ patterns จากข้อมูล

เปรียบเทียบขนาด

Model	Parameters	ข้อมูลฝึก
GPT-2	1.5B	40GB text
GPT-3	175B	570GB text
GPT-4	~1.7T (ประมาณ)	Unknown
Claude 3	Unknown	Unknown
LLaMA 2	7B-70B	2T tokens

หลักการทำงาน

Next Token Prediction

LLM ทำงานโดยการทำนาย "คำถัดไป":

Input: "ฉันชอบกิน"
       ↓
LLM คำนวณความน่าจะเป็น:
- "ข้าว" (25%)
- "ส้มตำ" (15%)
- "ไก่ทอด" (12%)
- "ผลไม้" (10%)
- ...

Output: "ข้าว" (เลือกตัวที่น่าจะเป็นสูงสุด)

จากนั้น:
Input: "ฉันชอบกินข้าว"
       ↓
ทำนายคำถัดไป...วนซ้ำ

Training Process

ขั้นตอนการฝึก LLM:

1. Pre-training
   - ป้อนข้อมูลจำนวนมาก (หลายพันล้านหน้าเว็บ)
   - เรียนรู้ภาษา ความรู้ทั่วไป
   - ใช้เวลาและทรัพยากรมหาศาล

2. Fine-tuning
   - ปรับให้เหมาะกับงานเฉพาะ
   - เช่น การตอบคำถาม การสรุป

3. RLHF (Reinforcement Learning from Human Feedback)
   - มนุษย์ให้ feedback
   - ปรับให้ตอบได้ดีขึ้น ปลอดภัยขึ้น
   - ทำให้เป็น ChatGPT ที่เราใช้

Transformer Architecture

LLM ใช้สถาปัตยกรรม Transformer:

Input: "What is AI?"
        ↓
   [Tokenization]
        ↓
   [Embedding]
        ↓
   [Transformer Layers x N]
   - Self-Attention: มองความสัมพันธ์ทุกคำ
   - Feed Forward: ประมวลผล
        ↓
   [Output Layer]
        ↓
Output: "AI is..."

ประเภทของ LLM

1. Base Models

โมเดลที่ผ่าน pre-training อย่างเดียว:

ตัวอย่าง: GPT-3 base, LLaMA base

ลักษณะ:
- Autocomplete เก่ง
- ไม่ได้ถูกฝึกให้ตอบคำถาม
- ต้อง fine-tune ก่อนใช้งาน

2. Instruction-tuned Models

โมเดลที่ถูกฝึกให้ทำตามคำสั่ง:

ตัวอย่าง: GPT-3.5-turbo, Claude Instant

ลักษณะ:
- ทำตามคำสั่งได้ดี
- ตอบคำถามได้
- เหมาะสำหรับใช้งานทั่วไป

3. Chat Models

โมเดลที่ออกแบบมาสำหรับการสนทนา:

ตัวอย่าง: ChatGPT, Claude, Gemini

ลักษณะ:
- จำบริบทการสนทนา
- ตอบแบบเป็นธรรมชาติ
- มี guardrails ป้องกันคำตอบอันตราย

4. Specialized Models

โมเดลสำหรับงานเฉพาะทาง:

ตัวอย่าง:
- Codex / GitHub Copilot: เขียนโค้ด
- Med-PaLM: การแพทย์
- BloombergGPT: การเงิน

LLM หลักในตลาด

OpenAI

GPT-4 / GPT-4o:
- Multimodal (text + image)
- ความสามารถสูงสุด
- ราคาสูง

GPT-3.5-turbo:
- เร็ว ราคาถูก
- เหมาะสำหรับงานทั่วไป

GPT-4o-mini:
- สมดุลระหว่างคุณภาพและราคา

Anthropic

Claude 3.5 Sonnet:
- ความยาว context 200K tokens
- ปลอดภัย มีจริยธรรม
- เขียนโค้ดดี

Claude 3 Opus:
- ความสามารถสูงสุดของ Claude
- เหมาะกับงานซับซ้อน

Google

Gemini 1.5 Pro:
- Context window 1M tokens
- Multimodal
- ผสานกับ Google ecosystem

Gemini 1.5 Flash:
- เร็ว ราคาถูก
- เหมาะกับ production

Meta (Open Source)

LLaMA 3:
- Open source / weights เปิดเผย
- หลายขนาด (8B, 70B, 405B)
- ใช้ได้ฟรี (ตามเงื่อนไข)

อื่นๆ

Mistral:
- Open source จากฝรั่งเศส
- ประสิทธิภาพสูงเทียบขนาด

Cohere:
- เน้น Enterprise
- RAG ดีมาก

การใช้งาน LLM

ผ่าน API

# OpenAI
from openai import OpenAI
client = OpenAI()

response = client.chat.completions.create(
    model="gpt-4o",
    messages=[
        {"role": "user", "content": "สวัสดี"}
    ]
)
print(response.choices[0].message.content)

# Anthropic
from anthropic import Anthropic
client = Anthropic()

response = client.messages.create(
    model="claude-3-5-sonnet-20241022",
    max_tokens=1024,
    messages=[
        {"role": "user", "content": "สวัสดี"}
    ]
)
print(response.content[0].text)

ผ่าน Web Interface

- ChatGPT: chat.openai.com
- Claude: claude.ai
- Gemini: gemini.google.com

Self-hosted (Open Source)

# ใช้ Ollama
ollama run llama3

# หรือ LM Studio
# Download และรันบนเครื่องตัวเอง

ความสามารถของ LLM

สิ่งที่ทำได้ดี

✅ การสนทนาและถาม-ตอบ
✅ การเขียน (บทความ, อีเมล, รายงาน)
✅ การสรุปข้อความ
✅ การแปลภาษา
✅ การเขียนโค้ด
✅ การวิเคราะห์ข้อความ
✅ Brainstorming และสร้างไอเดีย
✅ การอธิบายแนวคิดซับซ้อน

ข้อจำกัด

❌ Hallucination: สร้างข้อมูลเท็จ
❌ Knowledge Cutoff: ไม่รู้เหตุการณ์ล่าสุด
❌ คณิตศาสตร์ซับซ้อน: คำนวณผิดได้
❌ Reasoning ยาว: อาจหลงทาง
❌ Real-time data: ไม่รู้ข้อมูลปัจจุบัน
❌ Consistency: ตอบต่างกันแต่ละครั้ง

Parameters สำคัญ

Temperature

ควบคุมความ "สุ่ม" ของคำตอบ:

Temperature = 0:
- Deterministic
- คำตอบเดิมซ้ำๆ
- เหมาะกับงานที่ต้องการความแม่นยำ

Temperature = 1:
- Creative
- หลากหลาย
- เหมาะกับงานสร้างสรรค์

Temperature = 2:
- Random มาก
- อาจไม่สมเหตุสมผล

Max Tokens

จำกัดความยาวของคำตอบ:

response = client.chat.completions.create(
    model="gpt-4o",
    max_tokens=500,  # จำกัดที่ 500 tokens
    messages=[...]
)

Top P (Nucleus Sampling)

ควบคุม diversity:

Top P = 0.1: พิจารณาแค่ 10% บน
Top P = 1.0: พิจารณาทั้งหมด

Context Window

จำนวน tokens ที่โมเดลจำได้:

| Model | Context Window |
|-------|----------------|
| GPT-3.5 | 16K tokens |
| GPT-4 | 128K tokens |
| Claude 3 | 200K tokens |
| Gemini 1.5 | 1M tokens |

1 token ≈ 0.75 คำภาษาอังกฤษ
1 token ≈ 1-2 ตัวอักษรภาษาไทย

Tokenization

การแบ่งข้อความเป็น tokens:

# ตัวอย่าง
"Hello, world!" → ["Hello", ",", " world", "!"]

# ภาษาไทย (ใช้ tokens มากกว่า)
"สวัสดี" → ["ส", "วัส", "ดี"] หรือแบบอื่น

# ตรวจสอบ tokens
import tiktoken
enc = tiktoken.encoding_for_model("gpt-4")
tokens = enc.encode("Hello, world!")
print(len(tokens))  # 4

ราคาและต้นทุน

ตัวอย่างราคา (ประมาณ)

GPT-4o:
- Input: $5 / 1M tokens
- Output: $15 / 1M tokens

GPT-4o-mini:
- Input: $0.15 / 1M tokens
- Output: $0.60 / 1M tokens

Claude 3.5 Sonnet:
- Input: $3 / 1M tokens
- Output: $15 / 1M tokens

การประหยัด

1. ใช้โมเดลเล็กก่อน (GPT-4o-mini, Claude Haiku)
2. Cache responses ที่ซ้ำ
3. Prompt ให้กระชับ
4. Batch requests
5. พิจารณา open-source สำหรับงานบางอย่าง

Best Practices

1. เลือกโมเดลให้เหมาะ

งานง่าย → โมเดลเล็ก (GPT-4o-mini)
งานซับซ้อน → โมเดลใหญ่ (GPT-4o, Claude Opus)
ต้องการความเร็ว → Gemini Flash, Claude Haiku

2. เขียน Prompt ที่ดี

❌ "สรุปบทความ"
✅ "สรุปบทความนี้ใน 3 bullet points
    เน้นประเด็นหลัก ความยาวไม่เกิน 100 คำ"

3. ตรวจสอบผลลัพธ์

- Hallucination อาจเกิดขึ้น
- ตรวจสอบข้อเท็จจริงเสมอ
- ใช้ RAG สำหรับข้อมูลเฉพาะ

สรุป

LLM (Large Language Model) คือ AI ที่เข้าใจและสร้างภาษา:

การทำงาน:

ทำนายคำถัดไป
ใช้ Transformer architecture
ฝึกจากข้อมูลมหาศาล

ผู้เล่นหลัก:

OpenAI (GPT-4)
Anthropic (Claude)
Google (Gemini)
Meta (LLaMA)

การเลือกใช้:

งานทั่วไป: GPT-4o-mini, Claude Haiku
งานซับซ้อน: GPT-4o, Claude Opus
Open source: LLaMA, Mistral

อ่านเพิ่มเติม:

LLM คืออะไร? ทำความเข้าใจ Large Language Models

บทความอื่นๆ ที่น่าสนใจ

วิธีติดตั้ง FFmpeg บน Windows และ Mac: คู่มือฉบับสมบูรณ์

สรุป: เส้นทางการเรียนรู้ AI สำหรับคนไทย ฉบับสมบูรณ์

อนาคตของ AI ในอีก 5 ปี: แนวโน้มและการเปลี่ยนแปลงที่จะเกิดขึ้น