Web Content Extractor Menggunakan Neural Network untuk Konten Artikel di Internet

[A2-BARU]PosterTugasAkhirInd (1)

Bagi komputer, memahami konten artikel sebuah halaman website di dalam internet merupakan hal yang tidak mudah. Masalah ini menjadi semakin buruk karena bertambahnya kompleksitas teknologi web dan desain yang jauh lebih kreatif. Berkembangnya teknologi Javascript khususnya AJAX dan CSS membuat halaman web yang dulunya statis menjadi lebih dinamis dengan tampilan yang lebih menarik dan dipenuhi iklan dan rekomendasi artikel lain. Oleh karena itu, sulit untuk mengotomatisasi proses pengambilan konten artikel pada konteks ini.
Tugas Akhir ini dibuat untuk menyelesaikan masalah otomatisasi pengambilan konten artikel di Internet. Aplikasi web yang akan dibuat terbagi menjadi empat modul, yaitu web crawler, web extractor, neural network classifier dan web visualizer. Web Crawler adalah modul berbasis Scrapy yang berfungsi untuk melakukan crawling di internet. Parameter yang dibutuhkan adalah seed URL, depth, dan jumlah maksimal halaman web yang ingin diambil. Web Extractor adalah modul berbasis Splash dan Javascript yang berfungsi untuk mengekstrak semua konten yang ada di halaman web beserta properti CSS nya. Neural Network Classifier adalah modul berbasis model neural network yang berfungsi untuk menentukan apakah sebuah blok teks merupakan konten artikel atau tidak. Web Visualizer adalah modul berbasis library Javascript D3 yang berfungsi untuk memvisualisasi hubungan antara halaman web yang sudah di crawl di mana setiap nodenya menjadi antar muka untuk menunjukkan konten murni yang berupa judul, konten artikel, dan penulis jika ada.
Kesimpulan dari Tugas Akhir ini adalah bahwa kombinasi Scrapy, Splash, Neural Network Classifier dan D3 bekerja sangat baik untuk automasi ekstraksi konten artikel website di Internet sekaligus memvisualisasi hubungan antar halaman web. Feed Forward Neural Network (FFNN) dapat melakukan klasifikasi multi-class konten judul, penulis, dan isi artikel dengan baik selama template halaman web sudah pernah dilatih sebelumnya. FFNN juga dapat melakukan klasifikasi binari untuk halaman web secara umum dengan F1-score 62.87%, dua kali lebih baik dari SVM yang hanya 31.28%.

Profil Mahasiswa

Syabith Umar Ahdan | 216310367

Pembimbing: Joan Santoso, S.Kom., M.Kom
Co-Pembimbing: Hendrawan Armanto, S.Kom., M.Kom

Tags

Leave a comment