02 Ago 2019

r 정규표현식 예제

Perl 정규식은 바이트별 또는 (UTF-8) 문자별로 계산할 수 있습니다: 후자는 모든 다중 바이트 로캘에서 사용되며 입력이 UTF-8로 표시된 경우(인코딩 참조). 정규식에 주석을 포함하는 방법에는 두 가지가 있습니다. 첫 번째는 (?#...) : 예를 들어 ,

간단한 div
일치
합니다. div 태그만 catch하기 위해 우리는 을 사용할 수 있습니다 . 지연되도록 하기: 정규식(정규식 또는 정규법)은 특정 검색 패턴(예: ASCII 또는 유니코드 문자의 특정 시퀀스)의 하나 이상의 일치 항목을 검색하여 텍스트에서 정보를 추출하는 데 매우 유용합니다. 문자열 분할, 문자열의 하위 집합 을 얻습니다. 이러한 기능은 데이터 정리에 매우 유용하며 이번 주 후반에 이에 대한 자세한 내용을 소개할 예정입니다. 다음은 위의 예제와 함께 짧은 소개입니다. 이 자습서에서는 정규식에 대한 모든 것을 처음부터 배웁니다. 처음에는 이러한 표현이 까다롭거나 혼란스럽거나 복잡할 수 있지만 실용적인 실습 (아래에서 수행)을 한 후에는 매우 편안하게 느껴야합니다. 또한 R의 문자열 조작 함수에 대해서도 알아봅니다.

문자열 조작 함수와 정규식의 강력한 조합은 텍스트 마이닝을 준비할 것입니다. 두 번째는 정규식(주석 = TRUE)을 사용하는 것입니다. 이 양식은 공백과 줄 바선을 무시하고 #이후의 모든 것을 무시합니다. 리터럴 공간과 일치하려면 " "를 이스케이프해야 합니다. 이것은 복잡한 정규식을 설명하는 유용한 방법입니다: 정규식을 사용하는 다른 함수(종종 grep를 사용하여)에는 apropos, browseEnv, help.search, list.files 및 ls가 포함됩니다. 이러한 모든 확장 된 정규식을 사용 합니다. 기본적으로 정규식은 문자열의 모든 부분과 일치합니다. 정규식은 문자열의 시작 또는 끝에서 일치하도록 정규식을 고정하는 데 유용한 경우가 많습니다. 이러한 명령은 텍스트의 패밀리(숫자, 숫자, 단어)와 일치하도록 설계되어 텍스트/문자열 클래스를 처리할 수 있을 만큼 다재다능합니다. 이 정규식 클래스의 몇 가지 예를 살펴보겠습니다: regmatches를 사용하여 정규식과 일치하는 실제 하위 문자열을 가져옵니다. 첫 번째 인수로 regexpr 또는 gregexpr에 전달 한 것과 동일한 입력을 전달합니다.

두 번째 인수로서 regexpr 또는 gregexpr에서 반환되는 벡터를 전달합니다. regexpr에서 벡터를 전달 하면 regmatches 일치 하는 모든 문자열과 문자 벡터를 반환 합니다. 일부 요소에서 일치하는 요소가 발견되지 않은 경우 이 벡터는 입력 벡터보다 짧을 수 있습니다. gregexpr에서 벡터를 전달 하면 regmatches 입력 벡터와 같은 수의 요소와 벡터를 반환 합니다. 각 요소는 입력 벡터에서 해당 요소의 모든 일치 항목이 있는 문자 벡터또는 요소에 일치하는 요소가 없는 경우 NULL입니다. 위에 나열된 함수 외에도 정규식(예식이라고도 함)을 처리하도록 특별히 설계된 몇 가지 다른 함수가 있습니다. 예, R은 텍스트 데이터를 구문 분석할 때도 똑같이 강력합니다. 정규식에는 특정 작업을 수행하는 여러 가지 방법이 있습니다. 따라서, 학습 하는 동안, 혼란을 피하기 위해 특정 방법에 충실 하는 것이 필수적 이다. 반복은 연결보다 우선하며, 이 경우 교대보다 우선합니다. 이러한 우선 순위 규칙을 재정의하기 위해 전체 하위 표현식을 괄호안에 묶을 수 있습니다.

R에는 문자열로 직접 코딩할 수 없는 특수 문자가 있습니다. 예를 들어, 따옴표로 패턴을 지정하고 `따옴표`가 있는 국가를 찾으려고 한다고 가정해 보겠습니다.