Thai Natural Language Processing
-
Common Voice Dataset 9.0 มาแล้วนะครับ
ขอบคุณทุกท่านที่ช่วยเข้าไปฟังเสียง อัดเสียง เลือกประโยค เพิ่มประโยคครับ
-
FOSS Asia Summit จะมีเรื่อง Common Voice นะครับทุ่มนึง คุณ Robert Reyes พูดครับ
FOSS Asia Summit จะมีเรื่อง Common Voice นะครับทุ่มนึง คุณ Robert Reyes พูดครับ
-
JSON-RPC server สำหรับโปรแกรมตัดคำ
github.com GitHub - veer66/wordcut-json-rpc-server: Wordcut JSON-RPC serverWordcut JSON-RPC server. Contribute to veer66/wordcut-json-rpc-server development by creating an account on GitHub.
ผมทำ JSON-RPC server สำหรับโปรแกรมตัดคำ โดยสรุปคือรันแบบนี้เลย คำสั่งเดียว
docker run -d --name wordcut --net=host veer66/wordcut-json-rpc-server
ในตัวอย่างนี้ผมเรียกใช้งานจาก PHP แต่จริง ๆ ใช้อย่างอื่นก็ได้
php <?php require __DIR__ . '/vendor/autoload.php'; use JsonRPC\Client; $client = new Client("http://localhost:8999"); var_dump($client->execute("put_delimiters", ["กากากา", "|"])); ?>
-
PyThaiNLP v3.0.0 Released! · PyThaiNLP/pythainlp
github.com Release PyThaiNLP v3.0.0 Released! · PyThaiNLP/pythainlpAfter a long time of the development of PyThaiNLP 3.0, We released PyThaiNLP 3.0. PyThaiNLP 3.0 has many improvements and new features to help with Thai language processing tasks. You can install b...
-
PyThaiNLP v3.0.0-beta0 released!
github.com Release PyThaiNLP v3.0.0-beta0 · PyThaiNLP/pythainlpPyThaiNLP 3.0 have many improvement and new features to help you in Thai language processing tasks. This release is PyThaiNLP v3.0.0-beta0. It is The first beta release of PyThaiNLP 3.0 You can in...
PyThaiNLP v3.0.0-beta0 released! #PyThaiNLP #ThaiNLP PyThaiNLP 3.0 have many improvement and new features to help you in Thai language processing tasks. This release is PyThaiNLP v3.0.0-beta0. It is The first beta release of PyThaiNLP 3.0.
-
ใช้ชำฆ้อบน Windows
github.com GitHub - veer66/chamkho: Khmer, Lao, Myanmar, and Thai word segmentation/breaking library and command lineKhmer, Lao, Myanmar, and Thai word segmentation/breaking library and command line - GitHub - veer66/chamkho: Khmer, Lao, Myanmar, and Thai word segmentation/breaking library and command line
ผมลองติดตั้งโปรแกรมตัดคำชำฆ้อบน Windows ดูก็ใช้ได้ครับ ตามภาพผมใช้ Windows Terminal เปิด Powershell ขึ้นมา หรือจะใช้ vscode เปิด Powershell ก็ได้ครับ แล้วใช้คำสั่งตามนี้ครับ
PS C:\ex1> $OutputEncoding = [console]::InputEncoding = [console]::OutputEncoding = New-Object System.Text.UTF8Encoding PS C:\ex1> Invoke-WebRequest -uri https://github.com/veer66/chamkho/releases/download/1.1.0/chamkho-1.1.0-windows-amd64.zip -OutFile chamkho.zip PS C:\ex1> Expand-Archive -Path .\chamkho.zip -DestinationPath . PS C:\ex1> cd .\chamkho-1.1.0-windows-amd64\ PS C:\ex1\chamkho-1.1.0-windows-amd64> echo ฉันง่วงมาก | .\wordcut. exe
-
PyThaiASR
github.com GitHub - PyThaiNLP/pythaiasr: Python Thai Automatic Speech RecognitionPython Thai Automatic Speech Recognition. Contribute to PyThaiNLP/pythaiasr development by creating an account on GitHub.
PyThaiASR is a Python package for Automatic Speech Recognition with focus on Thai language. It have offline thai automatic speech recognition model from Artificial Intelligence Research Institute of Thailand (AIResearch.in.th).
-
Apertium Stream Parser อีกตัวหนึ่งเขียนด้วย Rust ครับ
github.com GitHub - veer66/reinars: Apertium Stream Parser in RustApertium Stream Parser in Rust. Contribute to veer66/reinars development by creating an account on GitHub.
พรุ่งนี้จะลองกับข้อมูลจริงครับ
-
mC4: A multilingual colossal, cleaned version of Common Crawl's web crawl corpus.
huggingface.co mc4 · Datasets at Hugging FaceWe’re on a journey to advance and democratize artificial intelligence through open source and open science.
A multilingual colossal, cleaned version of Common Crawl's web crawl corpus. Based on Common Crawl dataset: "https://commoncrawl.org".
-
Haystack
github.com GitHub - deepset-ai/haystack: :mag: Haystack is an open source NLP framework to interact with your data using Transformer models and LLMs (GPT-4, Falcon and alike). Haystack offers production-ready tools to quickly build complex question answering, semantic search, text generation applications, and more.:mag: Haystack is an open source NLP framework to interact with your data using Transformer models and LLMs (GPT-4, Falcon and alike). Haystack offers production-ready tools to quickly build comple...
🔍 End-to-end Python framework for building natural language search interfaces to data. Leverages Transformers and the State-of-the-Art of NLP. Supports DPR, Elasticsearch, Hugging Face’s Hub, and much more!
-
OSKut: Out-of-domain StacKed cut for Word Segmentation
OSKut: Out-of-domain StacKed cut for Word Segmentation
- Github: https://github.com/mrpeerat/OSKut
- Paper: https://aclanthology.org/2021.findings-acl.86.pdf
- New Dataset: https://github.com/mrpeerat/OSKut/tree/main/VISTEC-TP-TH-2021
- Colab: https://colab.to/oskut
- dev.to Thai word tokenizers benchmark: nlpo3 vs newmm
Thanathip Suntorntip Gorlph ported Korakot Chaovavanich's Thai word tokenizer - Newmm, written in...
-
ห้อง Apertium ย้ายไป OFTC ครับ
The #Apertium channel has already moved from Freenode to OFTC
Apertium เป็น rule-based machine translation
- nlpprogress.com Tracking Progress in Natural Language Processing
Repository to track the progress in Natural Language Processing (NLP), including the datasets and the current state-of-the-art for the most common NLP tasks.
-
Mark Watson ออกหนังสือ Practical Artificial Intelligent Programming With Clojure
mastodon.social Mark Watson (@[email protected])I just released my book "Practical Artificial Intelligence Programming With Clojure" https://leanpub.com/clojureai (link to buy the book) You can also get a free copy at my web site https://markwatson.com Github repo for example code: https://github.com/mark-watson/Clojure-AI-Book-Code
Mark Watson ออกหนังสือ Practical Artificial Intelligent Programming With Clojure เล่มนี้ผมเคยอ่านแค่สารบัญ แต่จากที่อ่าน Common Lisp มา มันคือ practical มาก ๆ แบบลอก code ตามได้เลย 😅 ในเล่มนี้หลายอย่างพอของ Clojure หรือบน JVM ไม่มี library ที่ต้องการเขาก็ไปเรียกของ Python มาใช้เลย เล่มนี้ชื่อ AI แต่ก็ค่อนข้างเน้น #NLP ที่ดูผ่าน ๆ ก็ไม่ถึงกับ train model แต่ว่าเอาพวก spaCY และอื่น ๆ มาใช้ มี semantic web ด้วย
https://mastodon.social/@mark_watson/106274520174482155
-
black กับ pep8speaks จัด format ไม่เหมือนกันครับ
github.com Refactor Royin Transliterate: Avoid embedded if blocks and simplified consonant replacing operations by veer66 · Pull Request #566 · PyThaiNLP/pythainlpWhat does this changes _replace_consonants function What was wrong It looked complicated. How this fixes it Refactoring Your checklist for this pull request 🚨Please review the guidelines for contri...
black จัดให้แบบนี้
Python elif word[i : i + 2] == _DOUBLE_RO_RUA:
แต่ pep8speaks บอกว่า
> Line 177:20: E203 whitespace before ':'
เอาแบบไหนดีครับ ?
-
ลองรัน black บน pythainlp
พี่แบคบอกว่า black นั่นล่ะคือ linter ผมก็เลยลองรันดู
black -l 79 pythainlp
ปรากฎว่าไฟล์โดนแก้เพียบเลย
``` $ git status On branch dev Your branch is up to date with 'origin/dev'.
Changes not staged for commit: (use "git add <file>..." to update what will be committed) (use "git restore <file>..." to discard changes in working directory) modified: pythainlp/benchmarks/word_tokenization.py modified: pythainlp/cli/data.py modified: pythainlp/cli/soundex.py modified: pythainlp/cli/tag.py modified: pythainlp/cli/tokenize.py modified: pythainlp/corpus/init.py modified: pythainlp/corpus/core.py modified: pythainlp/corpus/wordnet.py modified: pythainlp/summarize/core.py modified: pythainlp/summarize/freq.py modified: pythainlp/summarize/mt5.py modified: pythainlp/tag/_tag_perceptron.py modified: pythainlp/tag/chunk.py modified: pythainlp/tag/crfchunk.py modified: pythainlp/tag/named_entity.py modified: pythainlp/tag/pos_tag.py modified: pythainlp/tokenize/core.py modified: pythainlp/tokenize/nercut.py modified: pythainlp/translate/init.py modified: pythainlp/transliterate/init.py modified: pythainlp/transliterate/thai2rom.py modified: pythainlp/transliterate/thaig2p.py modified: pythainlp/transliterate/w2p.py modified: pythainlp/ulmfit/init.py modified: pythainlp/ulmfit/preprocess.py modified: pythainlp/util/keyboard.py modified: pythainlp/util/strftime.py modified: pythainlp/util/thai.py modified: pythainlp/util/trie.py modified: pythainlp/wangchanberta/core.py modified: pythainlp/wangchanberta/postag.py ```
สงสัยต้องรันแบบระบุไฟล์เดียวไปเลย ?
-
ใช้ linter ตัวไหนดีครับใน PyThaiNLP
ตอน pull request ผมเห็นมีช่องให้บอกว่าผ่าน linter แล้ว แบบนี้
[ ] Passed code linting checks and unit test
แต่ไม่รู้ว่า Python เขาใช้อะไรกัน แล้วแต่ละ project ใช้ตัวไหน
- web.facebook.com Ajarn Te's Master Class on Natural Language Processing
Luokan Juhlat tapahtuma käyttäjältä AI Builders torstai, toukokuu 20 2021. 560 kiinnostunutta ihmistä ja 134 osallistujaa.
AI Builders ได้รับเกียรติจากอาจารย์เต้ อรรถพล ธำรงรัตนฤทธิ์ นักวิจัยประมวลผลภาษาธรรมชาติและอาจารย์ประจำภาควิชาภาษาศาสตร์ จุฬาลงกรณ์มหาวิทยาลัยมาบรรยายเกี่ยวกับการประมวลผลภาษาธรรมชาติ (Natural Language Processing; NLP) สำหรับน้องๆ AI Builders เจอกันใน gather.town เหมือนเดิม! #ทีมพี่เต้ ในหน้าสื่อ: "จากอดีตนักเรียนศิลป์-ภาษาที่มีความรู้ความสนใจในวรรณกรรม ทำผลการเรียนดีเยี่ยมจนได้รับทุนการศึกษาจากรัฐบาลไทยให้ไปศึกษาต่อที่สหรัฐอเมริกาตั้งแต่ระดับปริญญาตรี ในสถาบันชั้นนำอย่างมหาวิทยาลัยสแตนฟอร์ด (Stanford University) ที่ทำให้เขาได้ต่อยอดเอาความรู้ทางด้านภาษามาผสมผสานกับเทคโนโลยีคอมพิวเตอร์ จนสำเร็จการศึกษาล่าสุดในระดับปริญญาเอก สาขาวิทยาการคอมพิวเตอร์จาก Brandeis University ก่อนจะกลับมาเป็นอาจารย์ตามความตั้งใจ เขายังใช้เวลาราว 2 ปีไปกับการเก็บเกี่ยวประสบการณ์ของการทำงานในซิลิคอนวัลเลย์ ในฐานะ Software Engineer แห่งองค์กรจัดเก็บโปรไฟล์บุคคลที่มีชื่อเสียงในระดับโลกอย่าง LinkedIn" --a day BULLETIN (https://adaybulletin.com/talk-guest-attapol.../32103) "ผมว่าสายศิลป์มันเป็นอะไรที่ไม่มีวันตายจริงๆ เพราะสายศิลป์มันคือมนุษย์ศาสตร์ มันเกี่ยวกับมนุษย์ เราก็ยังเป็นมนุษย์อยู่วันยันค่ำ เราจะใช้เทคโนโลยีขนาดไหนก็ตาม จริงๆ เรียกว่าข้อมูลทางมนุษยศาสตร์มันเปลี่ยนไปมากกว่า แต่ก่อนมันอยู่ในหนังสือ นิตยสาร เวลาจะไปหาข้อมูลอะไร ก็ต้องไปหาในจดหมายเหตุ นิตยสารเก่าๆ แต่ตอนนี้ข้อมูลเปลี่ยนไปเป็นออนไลน์ แต่มันก็ยังคงเป็นข้อมูลทางมนุษยศาสตร์ชุดเดิม เผลอๆ มีบทบาทมากกว่าเดิมด้วย เพราะสมัยก่อน ใครจะเขียนหนังสือ จะต้องเป็นนักข่าว นักเขียน ต้องผ่านการกลั่นกรอง ผ่านสำนักพิมพ์ แต่เดี๋ยวนี้ใครๆ ก็เขียนได้แล้ว" --The Matter (https://thematter.co/social/interview-with-aj-attapol/80413) "ตอนที่ผมทำงานและเรียนอยู่อเมริกาจะเห็นได้ว่าทางด้านเทคโนโลยีบ้านเราจะตามเขาอยู่ประมาณ 5-10 ปี เพราะฉะนั้นผมเห็นแล้วว่ามันมีการประยุกต์ใช้เยอะมากเลยสำหรับภาษาศาสตร์คอมพิวเตอร์ แล้วผมว่าตอนนี้พื้นที่ในบ้านเราก็ยังมีอยู่ ไม่ใช่ทุกโจทย์ถูกตอบไปหมดแล้ว ความรู้ความเชี่ยวชาญการประมวลภาษาธรรมชาติ ซึ่งเป็นการสอนเครื่องคอมพิวเตอร์ให้ทำหน้าที่ทางภาษาแทนมนุษย์ได้ เช่น ตอบโต้กับเราได้หรือค้นหาข้อมูลให้เราได้ หรือตอบคำถามต่างๆ กำลังเป็นที่ต้องการของบริษัทในหลายด้านทั้งธุรกิจทางด้านการสื่อสาร การธนาคาร ไฟแนนซ์ ที่ปรึกษาธุรกิจ และสตาร์ทอัพต่างๆ เพราะตำแหน่งงานมีมากกว่าคนที่มีคุณสมบัติเพียงพอ ดร.อรรถพล กล่าว" --VoiceTV (https://voicetv.co.th/read/AiRqeF5fi) Speaker: ผศ.ดร.อรรถพล ธำรงรัตนฤทธิ์ (อ.เต้) ผู้เชี่ยวชาญด้านการประมวลผลภาษาธรรมชาติและ data science ปัจจุบันเป็นอาจารย์ภาคภาษาศาสตร์ คณะอักษรศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย สอนวิชาด้านภาษาศาสตร์และการประมวลภาษาธรรมชาติ ด้วยปริญญาโทถึงสามใบ ด้านสถิติ (Stanford University), neuroscience (Princeton University), computer science (Brandeis University) และปริญญาเอกด้าน computer science จาก Brandeis University อ.เต้เคยทำงานให้บริษัทยักษ์ใหญ่ระดับโลกใน Silicon Valley อย่าง Linkedin และ Yelp นอกจากนี้ปัจจุบันยังเป็น lead data instructor ให้ True Digital Academy อีกด้วย
-
สร้าง pull request แรกของผมสำหรับ PyThaiNLP
github.com Fix issue #552 by removing the unreachable branch by veer66 · Pull Request #563 · PyThaiNLP/pythainlpWhat does this changes This change is removing the unreachable branch. elif word[i] == _RO_RUA: word = word.replace( consonants[i], _CONSONANTS[consonants[i]][1] ) i += 1 What w...
ไม่ได้ทำอะไรที่มีประโยชน์เท่าไหร่ แค่ลบ code ส่วนที่ไม่ได้ใช้ทิ้ง เรียกว่าฝึกหัดแล้วกัน
อีกอย่างผมรัน linter ไม่เป็น
-
Open Corpus, Datasets, and model for Thai Natural Language Processing
Open Corpus, Datasets, and model for Thai Natural Language Processing
-
ThaiTextAug: Thai Text Augmentation Tool
เป็นเครื่องมือสำหรับเพิ่มปริมาณข้อมูลสำหรับทำ NLP ภาษาไทยครับ โดยตอนนี้รองรับพวก WordNet, Word2Vec (Thai2Fit, BPEmb) และ FastText เหมาะกับในการทำ NLP ภาษาไทยให้มีข้อมูลมากขึ้น โดยเครื่องมือยังอยู่ในช่วงกำลังพัฒนาครับ
-
oxidized-thainlp
github.com GitHub - PyThaiNLP/nlpo3: Thai Natural Language Processing library in Rust, with Python and Node bindings.Thai Natural Language Processing library in Rust, with Python and Node bindings. - GitHub - PyThaiNLP/nlpo3: Thai Natural Language Processing library in Rust, with Python and Node bindings.
พัฒนาโดยคุณ ธนาธิป สุนทรทิพย์ เป็นตัวตัดคำ newmm ของ pythainlp ที่นำไป port ให้ทำงานบน Rust และเรียกใช้งานผ่าน python ได้ ทำให้มีประสิทธิภาพการตัดคำและความเร็วสูงกว่า newmm ของตัว pythainlp ที่เป็น python ปกติ ท่านใดสนใจ สามารถลองได้โดยใช้คำสั่ง
> pip install pythainlp-rust-modules
และเข้าไปที่ https://github.com/PyThaiNLP/oxidized-thainlp
-
นศ. ICT ม.มหิดล คิดค้น AI ชี้วัดสังคมออนไลน์ เพื่อผลักดันสู่นโยบายสุขภาวะทางจิต
www.komchadluek.net นศ. ICT ม.มหิดล คิดค้น AI ชี้วัดสังคมออนไลน์ เพื่อผลักดันสู่นโยบายสุขภาวะทางจิตนศ. ICT ม.มหิดล คิดค้น AI ชี้วัดสังคมออนไลน์ เพื่อผลักดันสู่นโยบายสุขภาวะทางจิต