建站幫助

誠信合作, 高質專業!

红包平台是怎么赚钱的:靈活運用PHPAnalysis分詞組件,實現Phpcms v9關鍵詞自動分詞

2020-02-20 15:38:53 瀏覽 我要評論

抢红包神器 www.eabddp.com.cn 在2019年12月下旬,Phpcms官網phpcms.cn關閉后,原有的分詞api接口(//tool.phpcms.cn/api/get_keywords.php)已經失效,在錄入標題后再也不能自動提取關鍵詞到關鍵詞的輸入欄了,針對這一問題,CMSYOU在之前的分詞經驗基礎上,做了幾個分詞系統的分析,最后完善整理出來Phpcms v9關鍵詞自動分詞組件,今天在這里與大家分享中文分詞的那些事。

一、沒有了原來的自動分詞獲取關鍵詞后怎么辦?

Phpcms v9關鍵詞自動分詞組件

Phpcms原有的分詞api接口失效后報錯

解決方式1:忽視它、或者注釋掉,手動錄入關鍵詞,這樣更精準。

具體方法:修改api/get_keywords.php,把echo get_keywords($data, $number);改成//echo get_keywords($data, $number); 也就是注釋掉這一行,不執行操作,這樣避免引發報錯。

解決方式2:改造它、省事的功能不能停!

如果你之前一直用,一下子沒有了,是不是很不習慣?那么自己就動手改造、實現恢復這個自動分詞功能!

二、實現Phpcms v9關鍵詞自動分詞的方法

解決方式1:如果你對Php程序或者Phpcms不熟悉,可以選擇Phpcms v9關鍵詞自動分詞組件,省事的辦法,也省時。

Phpcms v9關鍵詞自動分詞組件

Phpcms v9關鍵詞自動分詞組件截圖

解決方式2:自己動手改造。

當前市面上,常見的分詞工具組件有ICTCLAS、HTTPCWS、SCWS、PhpanAlysis、MMSEG4J、IKAnalyzer、盤古分詞這些,其中號稱最強大的ICTCLAS漢語分詞系統不開源,SCWS開源免費但需要對PHP環境安裝php_scws.dll拓展、限制了一部分用戶。此外,CMSYOU覺得PhpanAlysis不錯,比較輕量,準確度也比較好,大家可以深入研究。如果服務器支持,可以考慮開源的SCWS中文分詞,以下是SCWS的介紹:

SCWS 是 Simple Chinese Word Segmentation 的首字母縮寫(即:簡易中文分詞系統)。

這是一套基于詞頻詞典的機械式中文分詞引擎,它能將一整段的中文文本基本正確地切分成詞。 詞是中文的最小語素單位,但在書寫時并不像英語會在詞之間用空格分開, 所以如何準確并快速分詞一直是中文分詞的攻關難點。

SCWS 采用純 C 語言開發,不依賴任何外部庫函數,可直接使用動態鏈接庫嵌入應用程序, 支持的中文編碼包括 GBK、UTF-8 等。此外還提供了 PHP 擴展???, 可在 PHP 中快速而方便地使用分詞功能。

分詞算法上并無太多創新成分,采用的是自己采集的詞頻詞典,并輔以一定的專有名稱,人名,地名, 數字年代等規則識別來達到基本分詞,經小范圍測試準確率在 90% ~ 95% 之間, 基本上能滿足一些小型搜索引擎、關鍵字提取等場合運用。首次雛形版本發布于 2005 年底。

SCWS中文分詞演示://www.xunsearch.com/scws/demo/v48.php

剛才說的方式是自有接口的方式,也可以考慮百度分詞這些外部接口,免費或者付費,準確度還是不錯的。

百度分詞體驗://ai.baidu.com/tech/nlp/lexical

在此,CMSYOU只是做引入介紹,具體改造方法還需要對Phpcms熟悉及程序功能,歡迎大家探討!

最后,Phpcms官方雖不能訪問了,但研究Phpcms還在繼續,CMSYOU將繼續與大家一道,加油!

我要收藏
點個贊吧

相關閱讀

本月熱門

精選推薦

在線客服 抢红包神器

掃一掃,關注我們

掃一掃,關注我們