08 Sep 10:46

bab2min

e805ee0

v0.18.1 Latest

Latest

버그 수정

PreTokenizedSpan과 SPLIT_COMPLEX를 동시에 사용시 종종 빈 결과값이 나오던 버그(#176) 수정
공백 없이 길게 이어진 텍스트를 분석할때 종종 std::length_error가 발생하던 오류(bab2min/kiwipiepy#172) 수정
문장 분리 시 여는 따옴표가 종종 잘못된 문장에 붙던 버그(#181) 수정

기능 추가

출력을 호환자모로 통일하는 옵션인 kiwi::Match::compatibleJamo 추가

Assets 18

kiwi-java-v0.18.1-lnx-aarch64.jar

2.07 MB 2024-09-08T11:37:05Z
kiwi-java-v0.18.1-lnx-ppc64le.jar

2.18 MB 2024-09-08T11:31:49Z
kiwi-java-v0.18.1-lnx-x86-64.jar

2.79 MB 2024-09-08T10:53:10Z
kiwi-java-v0.18.1-mac-arm64.jar

1.96 MB 2024-09-08T10:51:36Z
kiwi-java-v0.18.1-mac-x86_64.jar

2.99 MB 2024-09-08T10:55:09Z
kiwi-java-v0.18.1-win-Win32.jar

702 KB 2024-09-08T10:53:32Z
kiwi-java-v0.18.1-win-x64.jar

886 KB 2024-09-08T10:55:29Z
kiwi_lnx_aarch64_v0.18.1.tgz

10.5 MB 2024-09-08T11:37:04Z
kiwi_lnx_centos5_x86_64_v0.18.1.tgz

10.1 MB 2024-09-08T10:52:14Z
kiwi_lnx_ppc64le_v0.18.1.tgz

11 MB 2024-09-08T11:31:48Z
Source code (zip)

2024-09-08T10:40:08Z
Source code (tar.gz)

2024-09-08T10:40:08Z

03 Jul 15:40

bab2min

v0.18.0

581b310

0.18.0

신기능

Pretokenized Span으로 동사를 지정했을 때 문맥에 따라 규칙성 여부(-R / -I)를 자동으로 탐지하도록 기능 개선
이모지를 위한 신규 태그인 W_EMOJI 추가
외국어 태그 개선: 유니코드 영역을 기반으로 각 문자가 어떤 언어의 문자 집합에 해당하는지를 보여주는 TokenInfo::script 멤버 변수 추가
emscripten를 통한 JavaScript/wasm binding 추가 (@RicBent, #171 )

버그 수정

Pretokenized Span이 잘못 지정되었을 경우 크래시가 발생하는 문제 수정

기여자

소중한 기여에 감사드립니다.

@RicBent

Contributors

RicBent

Assets 18

13 Apr 12:10

bab2min

v0.17.1

e91047b

0.17.1

신기능

연철에 대한 오타 교정 추가 (#159)

버그 수정

문장 분리 오류 수정 (#160)

Assets 18

09 Mar 17:05

bab2min

v0.17.0

92ccf03

0.17.0

신기능

AutoJoiner에서 결합 후 형태소들의 위치 정보를 반환하도록 개선
공백이 포함된 형태소를 등록할 수 있도록 사전 기능 확장
공백 문자 정규화 기능 추가(U+00A0을 비롯한 다양한 유니코드 공백 문자가 공백 문자로 제대로 처리됨)
약 25만 종의 어휘가 포함된 기본 다어절 고유 명사 사전(multi.dict)이 추가됨. 다어절 사전 로딩 유무를 선택할 수 있도록 BuildOption::loadMultiDict 열거형 추가
IOException, FormatException가 추가되어 Kiwi가 좀 더 명확한 예외를 선택하여 던지도록 수정

버그 수정

공백 없이 긴 텍스트를 입력했을때 속도가 느려지거나 크래시가 발생하는 버그 수정
일련번호(W_SERIAL) 추출 시 종종 마지막에 공백 문자가 포함되던 버그 수정

Assets 18

30 Jan 13:17

bab2min

v0.16.1

d70cf2f

0.16.1

-다.로 끝나는 문장의 어미들이 SB태그로 과도하게 잘못 분석되던 오류 수정
KiwiJava에서 topN 인자가 제대로 반영되지 않던 버그 수정

Assets 18

31 Aug 07:47

bab2min

v0.16.0

8144e58

0.16.0

기능 추가/개선

부분적으로 분석된 텍스트 처리를 위한 PretokenizedSpan 기능 구현 & Kiwi::analyze에 pretokenized 인자 추가
사용자 정의로 쓸 수 있는 user0~4 태그 추가
순서 있는 글머리를 위한 sb 태그 추가
Java용 바인딩인 KiwiJava 제공 (실험적)

버그 수정

다양한 문장 분리 오류 수정

Full Changelog: v0.15.2...v0.16.0

Assets 18

14 Jun 12:28

bab2min

v0.15.2

8b1be89

v0.15.2

기능 개선

Joiner::add에서 결합시 띄어쓰기 포함 유무를 선택할 수 있는 옵션 인자 추가

버그 수정

매우 긴 텍스트를 분석할 때 시작 지점이 잘못 나오는 버그 수정
U+10000 이상의 문자가 여러 개 포함된 텍스트를 SwTokenizer로 encode할때 offset이 누락되는 버그 수정

Assets 10

07 May 09:33

bab2min

v0.15.1

d0e3348

0.15.1

SwTokenizer 기능 중 미완성이었던 기능들의 구현 완료
SwTokenizer, UnigramSwTrainer의 각종 버그 수정

Assets 10

22 Mar 17:16

bab2min

v0.15.0

da9c504

0.15.0

기능 추가/개선

둘 이상의 형태소로 더 잘게 분리될 수 있는 형태소를 추가 분리하는 옵션인 splitComplex 도입
부사파생접사를 위한 XSM 태그 추가 및 이에 해당하는 형태소 -이, -히, -로, -스레 추가
조사/어미에 덧붙는 받침을 위한 Z_CODA 태그 추가 및 조사/어미에서 자동으로 Z_CODA를 분절해내는 기능 추가
형태 분석 및 언어 모델 탐색 속도 최적화
옛한글 문자를 특수 기호로 분리하지 않고 일반 한글과 동일하게 처리하도록 개선
형태소 분석 기반의 Subword Tokenizer 구현 (현재 실험적으로 지원 중)
문장 분리 성능 개선
- 2010. 01. 01. 와 같이 공백이 포함된 serial 패턴 처리 보강
- Dr., Mr. 와 같이 약자 표현의 .이 마침표로 처리되지 않도록 보강
- '-음'으로 문장이 끝나는 경우를 판별하기 위해 음/EF 형태소 추가 및 모델 보강

버그 수정

한 문장 내에서 사전에 미등재된 형태가 256개 이상 등장할 때 형태소 분석 결과가 잘못 나오는 문제 해결
bab2min/kiwipiepy#111
이모지 등 U+10000 이상의 유니코드 문자를 모두 한자로 분류하던 버그 수정

Assets 10

23 Dec 16:26

bab2min

v0.14.1

6713d4f

0.14.1

버그 수정 및 개선

특정 텍스트에 대해 형태소 분할 없이 전체 결과를 그대로 반환하는 오류 해결 (#114)
EF 뒤에 보조용언이 따라오는 경우 문장을 분리하지 않도록 개선 (bab2min/kiwipiepy#96)

새로운 기능

SBG 모델 학습 편의를 위한 HSDataset 추가
macOS에서 컴파일 시 CMakeLists에서 CPU 아키텍처를 설정하는 옵션 추가

Assets 10

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

버그 수정

기능 추가

신기능

버그 수정

기여자

Contributors

신기능

버그 수정

신기능

버그 수정

기능 추가/개선

버그 수정

기능 개선

버그 수정

기능 추가/개선

버그 수정

버그 수정 및 개선

새로운 기능

Releases: bab2min/Kiwi

v0.18.1

버그 수정

기능 추가

0.18.0

신기능

버그 수정

기여자

Contributors

0.17.1

신기능

버그 수정

0.17.0

신기능

버그 수정

0.16.1

0.16.0

기능 추가/개선

버그 수정

v0.15.2

기능 개선

버그 수정

0.15.1

0.15.0

기능 추가/개선

버그 수정

0.14.1

버그 수정 및 개선

새로운 기능