MarkItDown — ubah berkas dan dokumen menjadi Markdown

MarkItDown adalah tool Python yang dikelola Microsoft untuk mengubah PDF, berkas Word/PowerPoint/Excel, gambar, dan lainnya menjadi Markdown bersih. Dirancang untuk menyiapkan dokumen bagi LLM dan pipeline teks.

Penilaian singkat

Utilitas praktis jika Anda memberi dokumen ke LLM atau indeks pencarian. Fokusnya output Markdown untuk dikonsumsi mesin, bukan format rapi untuk manusia.

Bintang
161,873
Fork
11,405
Bahasa
Python
Lisensi
MIT
Topik
Backend
Diperbarui
Jul 2025
Homepage
GitHub

Masalah yang diatasi

Dokumen nyata tersimpan dalam PDF, berkas Office, dan gambar yang tak bisa dibaca langsung oleh model bahasa dan pipeline teks. Mengubahnya menjadi teks bersih dan terstruktur adalah langkah membosankan dan rawan salah.

Apa ini?

MarkItDown menerima banyak format berkas umum dan menghasilkan Markdown, mempertahankan struktur seperti heading, daftar, dan tabel bila memungkinkan. Karena Markdown ringkas dan berbasis teks, hasilnya cocok untuk konsumsi LLM, RAG, dan pengindeksan.

Kenapa sedang diperhatikan

Dengan sekitar 163k bintang GitHub dan dukungan Microsoft, ia menaiki gelombang tooling RAG/LLM. Makin banyak tim membangun AI yang paham dokumen, langkah berkas-ke-Markdown yang andal menjadi kebutuhan umum.

Riwayat bintang

Bagaimana bintang GitHub repo ini tumbuh dari waktu ke waktu. Sumber: star-history.com.

MarkItDown GitHub star history chart

Fitur utama

  • Mengubah PDF, Word, PowerPoint, Excel, gambar, dll. ke Markdown
  • Mempertahankan struktur (heading, daftar, tabel) bila memungkinkan
  • Library Python plus penggunaan command-line
  • Dirancang untuk ingesti LLM/RAG
  • Dikelola oleh Microsoft

Kasus penggunaan terbaik

  • Siapkan dokumen untuk RAG atau jendela konteks LLM
  • Konversi massal arsip berkas Office ke Markdown
  • Bangun langkah ingesti dokumen di pipeline AI
  • Normalisasi beragam jenis berkas menjadi satu format teks untuk pengindeksan

Cara instal / coba

MarkItDown adalah paket Python yang diinstal dengan pip. Lihat repository untuk nama paket yang tepat, ekstra opsional untuk jenis berkas tertentu, dan cara pakai terkini.

Cara pakai

Pakai dari command line untuk mengubah berkas ke Markdown, atau impor sebagai library Python untuk mengonversi berkas secara terprogram dalam pipeline. Lihat repo untuk format dan opsi yang didukung.

Kelebihan

  • Menghapus langkah membosankan dan rawan salah dalam alur dokumen-ke-LLM
  • Cakupan format luas dalam satu tool
  • Antarmuka Python/CLI sederhana
  • Berlisensi MIT dan dikelola aktif oleh Microsoft

Batasan & risiko

  • Output Markdown ditujukan untuk mesin, bukan tata letak rapi bagi manusia; format kompleks bisa disederhanakan
  • Kualitas konversi bervariasi menurut berkas sumber (PDF hasil scan, tabel kompleks)
  • Sebagian format mungkin butuh dependensi opsional
  • Ia mengonversi — bukan membersihkan, memotong, atau membuat embedding; itu tugas pipeline Anda
Lihat di GitHub

Alternatif

PandocUnstructuredLlamaParse

Siapa yang cocok — dan siapa yang sebaiknya melewati

Coba jika Anda membangun fitur LLM/RAG dan butuh dokumen sebagai Markdown bersih. Lewati jika Anda butuh konversi dokumen berfidelitas tinggi untuk manusia atau menjaga tata letak.

Pertanyaan umum

Format apa yang didukung MarkItDown?

Ia menangani banyak jenis umum termasuk PDF, Word, PowerPoint, Excel, dan gambar. Cek repository untuk daftar lengkap terkini.

Apakah ini untuk LLM?

Ya. Output Markdown-nya ringkas dan terstruktur, cocok untuk memberi dokumen ke LLM dan pipeline RAG.

Sumber & atribusi

Sumber: GitHub (github.com/microsoft/markitdown). Metadata repo terakhir diperiksa Juli 2026; jumlah bintang dan fork mencerminkan sinkronisasi terakhir.

Kembali ke TopGit
Review MarkItDown: ubah PDF, Office & lainnya jadi Markdown | TopGit