Artikel

Materi: Mengenal Natural Language Processing dengan spaCy

Penulis : Naufaldi Ramadhan

Editor Cover : Ibrahim Haykal Alatas 

Editor Teks dan Penerbit : Sadira Zahra Aydin

 

Halo Sobat Sistem Informasi, nah teman – teman pernah kepikiran gk soal bagaimana kecerdasan buatan seperti ChatGPT atau Google bisa ngerti intruksi atau kata kata kita. Gimana mereka bisa ngerti kita, ya? Jawabannya ada di balik layar, dan itu Namanya Natural Language Prossessing (NLP). NLP inilah yang membuat komputer mampu mengerti bahasa dalam bentuk teks maupun pesan suara.

 

Nah pada artikel ini kita bakal bahas soal NLP dan implementasinya menggunakan library SpaCy.

Tapi sebelum itu kalian bisa baca Artikel Machine Learning

 

Apa Itu Natural Language Processing?

Natural Language Processing adalah bagian dari kecerdasan buatan (AI) yang bertujuan untuk memberikan komputer kemampuan untuk memahami teks dan ucapan seperti manusia. NLP menggabungkan linguistik komputasi dengan model statistik, Machine Learning, dan Deep Learning.Jika digunakan bersama-sama, teknologi ini memungkinkan komputer  memproses bahasa manusia sebagai data ucapan atau teks, kemudian “memahami” maknanya berdasarkan maksud penulis atau pembicara.

 

Contoh Penggunaan NLP

  1. Smart Home
  2. Chatbot
  3. Search Engine
  4. Translator

 

APA Itu SpaCy

Library Python spaCy adalah tools yang populer untuk natural language processing (NLP). Library ini dirancang untuk membantu pengembang membuat aplikasi yang memproses dan "memahami" teks dalam jumlah besar. SpaCy dilengkapi dengan fitur tokenisasi, analitik, dan pengenalan entitas tingkat lanjut. SpaCy juga mendukung banyak bahasa populer. SpaCy cepat dan efisien saat runtime, menjadikannya pilihan yang baik untuk membangun aplikasi NLP berkualitas produksi.

 

Fitur Utama Spacy

  • Linguistic Annotations

SpaCy menyediakan banyak model terlatih yang mampu menganalisis teks dengan cepat dan mengekstrak berbagai fitur linguistik. Fitur-fitur ini mencakup tag part-of-speech, named entities, Syntactic dependencies, sentence boundaries dan banyak lagi.

  • Tokenization and Sentence Segmentation

Tokenisasi memecah teks menjadi kata atau subkata individual. Algoritma tokenisasi spaCy sangat efisien dan spesifik bahasa, memungkinkan tokenisasi yang akurat dan dapat disesuaikan.

  • Entity Recognition

Named Entity Recognition (NER) tugasnya adalah mengidentifikasi dan mengklasifikasikan entitas bernama seperti orang, organisasi, tempat, data, dan lainnya.

  • Dependency Parsing

Dependency parsing melibatkan analisis struktur tata bahasa sebuah kalimat dengan menentukan hubungan antar kata.

  • Customization and Extensibility 

Developer dapat menyesuaika dann memodifikasi model spaCy agar sesuaengan domain atau meningkatkan kinerja dalam tugas tertentu. Library ini juga menyediakan API untuk menambahkan komponen khusus, seperti new tokenizer, entity recognizers, atau syntactic parsers,menjadikannya alat serbaguna untuk penelitian dan pengembangan.

 

Cara Kerja:

Pertama kita install SpaCy

pip install -U spacy

 

Kemudian, install model bahasanya

en = model Bahasa ingriss

    Kecil – en_core_web_sm

    Sedang – en_core_web_md

    Besar – en_core_web_lg

    Transformator – en_core_web_trf

 

Perbedaan diatas adalah data yang ingin dilatih

python -m spacy download en_core_web_md

 

Implementasi spaCy

import spacy

 

# Inisialisasi model bahasa

nlp = spacy.load("en_core_web_sm")

 

doc = nlp("HIMASIS is a place where students majoring in Information Systems (SIIO) of STMI Jakarta Polytechnic Ministry of Industry gather and unite as one.") // kalimatnya bisa ubah dengan menggunakan Bahasa inggriss

 

for ent in doc.ents:

    print(ent.text, ent.start_char, ent.end_char, ent.label_)
  • ent.text: Ini adalah teks dari entitas yang ditemukan.
  • ent.start_char: Ini adalah indeks karakter awal dari entitas dalam teks.
  • ent.end_char: Ini adalah indeks karakter akhir dari entitas dalam teks.
  • ent.label_: Ini adalah label entitas yang dikenali, seperti "ORG" untuk organisasi, "GPE" untuk tempat geografis, dan sebagainya.

 

Output Kode

Dari output kode atas adalah hasil dari implementasi Entity Recognition, bisa dilihat SpaCy dapat mendeteksi bahwa HIMASIS dengan index 0 – 7 (dihitung per huruf) adalah entitas organisasi.

 

Demikian pembahasan materi NLP dengan spaCy semoga materi ini menambahkan wawasan teman – teman khususnya dibidang Machine Learning dan AI. Terima kasih, sampai jumpa di artikel selanjutnya yaaa.

 

#SALAMPERUBAHAN 

#BERSATUDALAMMANFAAT

 

Sumber dan bahan bacaan:

https://www.freecodecamp.org/news/getting-started-with-nlp-using-spacy/

https://glints.com/id/lowongan/natural-language-processing-adalah/

https://realpython.com/natural-language-processing-spacy-python/

https://medium.com/nlplanet/nlp-natural-language-processing-with-spacy-f9a804b3c3b4

Follow Us

Tags

20182019202020214glAdobe XDAfter Event After Event MnG 2020AFTERGLOWAkademik HimasisaktivasiAktivasialgoritmaalgoritmaalgoritma pemrogramanangketArrayArtikelAutoCADAutoCAD2015autonumberBack End Developerback end languagebahasa pemrogramanbayar kuliahbelajar vbberitaBig-Datablockchainbossbuka bersamabukber himasisCerpenciscocisco packet tracercodeigniterColouringcontainercoronacovid19Criptocurencycsscsscuci tangancurriculum vitaecv yang baikCyber CrimeCyber SecurityCYBER SECURITYdasar algoritmadasar jaringandataData DiridatabaseDatabasedehidrasidockerdownloadDownloadEcommasterEcommerceEntrepreneurevent ExpressJsfakta Figmaflowchartflutterfolder projectFrameworkFront EndFront End DevelopergaikindoGambar 2dGambar 3dGitGitHubhello worldHIMASIS himasishimasis artikelhtmlhtmlINDEXS2021InformasiinspirasiInstalisasi NodeJS installinstallInstalliterationjadwal imsakiyahJakartaJAKARTAjaringanjaringanjaringan komputerJavajavajavascriptJDKJoin MnG 2020JREKAHIM dan WAKAHIMkarakteristikkegiatankerenkinemasterkode otomatisKomunikasi Serverkonfigurasi filekonsep cbdckrs onlinekstkunjungan pabrikleaderLebaranLibrarymachine learningMading HimasismagentamakananmakrabManfaat big dataMateri PembelajaranMedia VirtualBoxMedia VirtualBoxmeet and greetmeet and greet 2018meet and greet 2019Meet and Greet 2020meganthropusmelamar kerjaMethodsmicrosoft access 2010minumanmobil pintarmongoDBmudikmudik amanmvcnavigasi mobil pintarnetbeansngodingOnlinepreneurshiporacleorracleOS Windowsosi layerotomotifPanduan Lengkappaslonpaslon nomer 2pelatihan 2Pelatihan BPHPelatihan UIUXpelatihan1pemilu HIMASISpemimpinpemimpin baikpemrogramanpencarianpendaftaranpengenalan jaringanpengisian angketPeriode 2020 - 2021Periode 2021-2022Periode 2022 - 2023Periode 2023-2024Periode 2024 - 2025perkembanganphpphpPHP VS NodejspklPoliteknikPOLITEKNIK STMI potensi blockchainProsedurproses bisnispseudecodepuasapuasapycharmpythonpytrainramadanramadan 1441hramadhanRansomwarerequestresponseRESTful APIresumeRFIDRoutingrun endpoint expressrun server expressschsearch barSecuritySecurity AttacksejarahselectionSemester Pendekseminarseminar umumseminar2018senisensor mobil pintarsequenceSetup ProjetSistem InformasispectrumSQL vs NoSQLSSLstmistok otomatisstruktur fileStruktur Organisasistudy clubStudy ClubTableTableauTechnopreneurshipteknologiteknologi informasiteknologi informasiterhebatterpilihpaslonnomer2TipsTopologi JaringanTradisi LebarantriggerTriktutorialTutorialtutorialTutorialTwiterTwiter 2020Twiter 2021Twiter 2021Twiter AFTERGLOWTwiter AGENCYtwiter2019uang digitalUbuntuulangtahunultahhimasisVirusvisual basicvisual studiowebWeb DevelopmentWebinarWEBINAR HIMASISWebsitewhich is the best Windows 10windows 7Windows XPwirausahaYourXperienceyoutube