본문 바로가기
한국어 교육 KOREAN EDUCATION/인문학을 위한 컴퓨터

정규표현 및 AWK프로그래밍

by Euiju 2022. 1. 20.
SMALL

1. Dot

 

2. Character class

  • [ ]: 각 괄호 안에 적은 문자들 중 어느 하나

ex. [aeiou]s : s앞에 a,e,i,o,u중 어느 것이 와도 된다.

  • ^: 나열된 문자를 제외한 임의의 하나의 문자
ex. [^aeiou]s
 
 
3. Anchor
  • ^: 찾고자 하는 문자열이 라인의 맨 처음에 있는 경우만 골라내고자 할 때
ex.^th: th라는 문자열이 라인의 맨 처음에 온 경우
  • $: 찾고자 하는 문자열이 라인의 맨 끝에 있는 경우만 골라내고자 할 때
ex. to$: to라는 문자열이 라인의 맨 끝에 온 경우
  3.1. Alternation(|:수직바)
      : to|in = (to)|(in): to가 오거나 in이 온 경우
     +실제로 괄호나 마침표가 들어있는 문자열을 찾고싶을 때에는 \를 그 앞에 붙여준다
     +진짜 점을 찾고 싶을 때 \.을 쓴다
 
4. Repetition
  • ?: 그 앞의 표현이 없거나 1개 있음을 나타낸다.(0또는 1개)
ex. colou?r: colour와 color을 찾아냄
               colo가 오고 그 뒤에 u가 없어도 되고 1개 있어도되고 그 뒤에 r이 오는 것
  • +: 1개이상, *: 0개이상
ex. (ab)+: ab가 1개 이상 반복된 것
     #1+: #뒤에 1이 하나이상 반복된 것
     z[abc]+: z뒤에 a,b,c 중 어느것이는 1개이상 반복된 것, 뒤섞여나와도 상관없다
  • 반복되는 횟수 지정 가능
{n,m}: 몇번이상, 몇번이하 반복된 경우 찾을때
ex. a{3,4}: a가 3번 이상 4번 이하 반복된 것
  • {n,}: n번 이상, {n}, 정확히 n번 반복된것
 
5. Backreference
 
  • (.) -> \1\n : 어절별로 끊어라
  • ^\n ->       : 빈줄없게 만들어라. (^기호는 한줄의 가장 첫번째 문자인 것들에만 제한되서 문자열을 찾아주는 기능)
  • #2.+ ->#2 : #2.+ 은 #2를 포함 그 뒤를 모두 #2로 바꿔라 
  • (#[0-9]) -> \1@ : #0부터 9까지 뒤에 @를 붙여라
  • \t+$ : 행의 마지막칸을 없애라
  • a+$: 행의 가장 마지막문자가 a인 것들을 찾아라
  • ^#1.+\n: 처음이 #1로 시작되는 문자열을 행바꿈까지 없애버려라
  • (.+#3.+) -> @@\1 : #3이 포함된 ( )안의 문자열 그대로 두고 맨 앞에 @@를 붙여라
  • (.+)\t(.+)\t(.+) -> \1\3 : 첫번째 괄호와 세번째 괄호는 남겨두고 두번째 괄호는 없애라
  • (.+)(.+) -> \2\t\1 : 1번과 2번 순서를 바꾸고 그 사이에 탭을 넣어라

 

 

http://www.emeditor.org/en/howto_search_replacement_expression_syntax.html

 

How to: Replacement Expression Syntax

Replacement Expression Syntax Replacement expressions can be used when using regular expression or number range to replace. The following expressions are available for the Replace With box in the Replace dialog box and in the Replace in Files dialog box. \

www.emeditor.org

 

http://www.emeditor.org/en/howto_search_search_regexp_syntax.html

 

How to: Regular Expression Syntax

Regular Expression Syntax EmEditor regular expression syntax is based on Perl regular expression syntax. Literals All characters are literals except: ".", "*", "?", "+", "(", ")", "{", "}", "[", "]", "^", "$", "|", and "\". These characters are literals wh

www.emeditor.org

 

LIST

댓글