쉼표로 구분된 std:: 문자열 구문 분석
쉼표로 구분된 숫자 목록이 포함된 std:: 문자열이 있으면 숫자를 구문 분석하여 정수 배열에 넣을 수 있는 가장 간단한 방법은 무엇입니까?
저는 이것을 다른 것을 파싱하는 것으로 일반화하고 싶지 않습니다."1,1,1,1,2,1,1,1,0"과 같은 쉼표로 구분된 정수 숫자의 단순 문자열입니다.
한 번에 하나의 숫자를 입력하고 다음 문자가,
그렇다면 폐기하십시오.
#include <vector>
#include <string>
#include <sstream>
#include <iostream>
int main()
{
std::string str = "1,2,3,4,5,6";
std::vector<int> vect;
std::stringstream ss(str);
for (int i; ss >> i;) {
vect.push_back(i);
if (ss.peek() == ',')
ss.ignore();
}
for (std::size_t i = 0; i < vect.size(); i++)
std::cout << vect[i] << std::endl;
}
덜 장황한 것, 표준 및 쉼표로 구분된 것은 무엇이든 받습니다.
stringstream ss( "1,1,1,1, or something else ,1,1,1,0" );
vector<string> result;
while( ss.good() )
{
string substr;
getline( ss, substr, ',' );
result.push_back( substr );
}
또 다른 접근 방식은 쉼표를 공백으로 취급하는 특수 로케일을 사용하는 것입니다.
#include <locale>
#include <vector>
struct csv_reader: std::ctype<char> {
csv_reader(): std::ctype<char>(get_table()) {}
static std::ctype_base::mask const* get_table() {
static std::vector<std::ctype_base::mask> rc(table_size, std::ctype_base::mask());
rc[','] = std::ctype_base::space;
rc['\n'] = std::ctype_base::space;
rc[' '] = std::ctype_base::space;
return &rc[0];
}
};
이것을 사용하기 위해, 당신은imbue()
이 패싯을 포함하는 로케일이 있는 스트림입니다.이 작업을 완료하면 쉼표가 전혀 없는 것처럼 숫자를 읽을 수 있습니다.예를 들어, 입력에서 쉼표로 구분된 숫자를 읽은 다음 표준 출력에서 한 줄에 한 줄씩 씁니다.
#include <algorithm>
#include <iterator>
#include <iostream>
int main() {
std::cin.imbue(std::locale(std::locale(), new csv_reader()));
std::copy(std::istream_iterator<int>(std::cin),
std::istream_iterator<int>(),
std::ostream_iterator<int>(std::cout, "\n"));
return 0;
}
C++ String Toolkit Library(Strtk)에는 다음과 같은 문제 해결 방법이 있습니다.
#include <string>
#include <deque>
#include <vector>
#include "strtk.hpp"
int main()
{
std::string int_string = "1,2,3,4,5,6,7,8,9,10,11,12,13,14,15";
std::vector<int> int_list;
strtk::parse(int_string,",",int_list);
std::string double_string = "123.456|789.012|345.678|901.234|567.890";
std::deque<double> double_list;
strtk::parse(double_string,"|",double_list);
return 0;
}
더 많은 예는 여기에서 확인할 수 있습니다.
일반 알고리즘과 Boost를 사용하는 대체 솔루션.토큰화기:
struct ToInt
{
int operator()(string const &str) { return atoi(str.c_str()); }
};
string values = "1,2,3,4,5,9,8,7,6";
vector<int> ints;
tokenizer<> tok(values);
transform(tok.begin(), tok.end(), back_inserter(ints), ToInt());
여기에 꽤 끔찍한 답변이 많으므로 제 답변(테스트 프로그램 포함)을 추가하겠습니다.
#include <string>
#include <iostream>
#include <cstddef>
template<typename StringFunction>
void splitString(const std::string &str, char delimiter, StringFunction f) {
std::size_t from = 0;
for (std::size_t i = 0; i < str.size(); ++i) {
if (str[i] == delimiter) {
f(str, from, i);
from = i + 1;
}
}
if (from <= str.size())
f(str, from, str.size());
}
int main(int argc, char* argv[]) {
if (argc != 2)
return 1;
splitString(argv[1], ',', [](const std::string &s, std::size_t from, std::size_t to) {
std::cout << "`" << s.substr(from, to - from) << "`\n";
});
return 0;
}
적합한 속성:
- 종속성 없음(예: 부스트)
- 미친 원라이너가 아닙니다.
- 이해하기 쉬운 (나는 희망한다)
- 공간을 완벽하게 잘 처리합니다.
- 표시된 대로 람다를 사용하여 분할을 처리할 수 있는 등의 경우 분할을 할당하지 않습니다.
- 문자를 한 번에 하나씩 추가하지 않습니다. 빨리 추가해야 합니다.
- 만약 C++17을 사용한다면, 당신은 그것을 사용하도록 바꿀 수 있습니다.
std::stringview
그러면 할당이 전혀 되지 않고 매우 빨라질 것입니다.
변경할 수 있는 일부 설계 선택 항목:
- 빈 항목은 무시되지 않습니다.
- 빈 문자열은 f()를 한 번 호출합니다.
입력 및 출력의 예:
"" -> {""}
"," -> {"", ""}
"1," -> {"1", ""}
"1" -> {"1"}
" " -> {" "}
"1, 2," -> {"1", " 2", ""}
" ,, " -> {" ", "", " "}
다음 기능도 사용할 수 있습니다.
void tokenize(const string& str, vector<string>& tokens, const string& delimiters = ",")
{
// Skip delimiters at beginning.
string::size_type lastPos = str.find_first_not_of(delimiters, 0);
// Find first non-delimiter.
string::size_type pos = str.find_first_of(delimiters, lastPos);
while (string::npos != pos || string::npos != lastPos) {
// Found a token, add it to the vector.
tokens.push_back(str.substr(lastPos, pos - lastPos));
// Skip delimiters.
lastPos = str.find_first_not_of(delimiters, pos);
// Find next non-delimiter.
pos = str.find_first_of(delimiters, lastPos);
}
}
std::string input="1,1,1,1,2,1,1,1,0";
std::vector<long> output;
for(std::string::size_type p0=0,p1=input.find(',');
p1!=std::string::npos || p0!=std::string::npos;
(p0=(p1==std::string::npos)?p1:++p1),p1=input.find(',',p0) )
output.push_back( strtol(input.c_str()+p0,NULL,0) );
에서 변환 오류를 확인하는 것이 좋습니다.strtol()
,물론이야.코드는 다른 오류 검사에서도 도움이 될 수 있습니다.
아직 아무도 다음을 사용하여 솔루션을 제안하지 않은 것이 놀랍습니다.
#include <string>
#include <algorithm>
#include <vector>
#include <regex>
void parse_csint( const std::string& str, std::vector<int>& result ) {
typedef std::regex_iterator<std::string::const_iterator> re_iterator;
typedef re_iterator::value_type re_iterated;
std::regex re("(\\d+)");
re_iterator rit( str.begin(), str.end(), re );
re_iterator rend;
std::transform( rit, rend, std::back_inserter(result),
[]( const re_iterated& it ){ return std::stoi(it[1]); } );
}
이 함수는 입력 벡터 뒤에 모든 정수를 삽입합니다.정규식을 음의 정수 또는 부동 소수점 숫자 등을 포함하도록 조정할 수 있습니다.
std::string exp = "token1 token2 token3";
char delimiter = ' ';
std::vector<std::string> str;
std::string acc = "";
for(const auto &x : exp)
{
if(x == delimiter)
{
str.push_back(acc);
acc = "";
}
else
acc += x;
}
str.push_back(acc);
#include <sstream>
#include <vector>
const char *input = "1,1,1,1,2,1,1,1,0";
int main() {
std::stringstream ss(input);
std::vector<int> output;
int i;
while (ss >> i) {
output.push_back(i);
ss.ignore(1);
}
}
잘못된 입력(예: 연속된 구분 기호)은 이를 엉망으로 만들 것이지만, 당신은 단순하다고 말했습니다.
bool GetList (const std::string& src, std::vector<int>& res)
{
using boost::lexical_cast;
using boost::bad_lexical_cast;
bool success = true;
typedef boost::tokenizer<boost::char_separator<char> > tokenizer;
boost::char_separator<char> sepa(",");
tokenizer tokens(src, sepa);
for (tokenizer::iterator tok_iter = tokens.begin();
tok_iter != tokens.end(); ++tok_iter) {
try {
res.push_back(lexical_cast<int>(*tok_iter));
}
catch (bad_lexical_cast &) {
success = false;
}
}
return success;
}
저는 아직 논평할 수 없지만 제리 코핀의 환상적인 ctype 파생 클래스의 더 일반적인 버전을 그의 게시물에 추가했습니다.
제리에게 멋진 아이디어를 주셔서 감사합니다.
(동료 검토가 필요하기 때문에 여기에 너무 일시적으로 추가)
struct SeparatorReader: std::ctype<char>
{
template<typename T>
SeparatorReader(const T &seps): std::ctype<char>(get_table(seps), true) {}
template<typename T>
std::ctype_base::mask const *get_table(const T &seps) {
auto &&rc = new std::ctype_base::mask[std::ctype<char>::table_size]();
for(auto &&sep: seps)
rc[static_cast<unsigned char>(sep)] = std::ctype_base::space;
return &rc[0];
}
};
이것이 제가 많이 사용했던 가장 간단한 방법입니다.모든 한 문자 구분 기호에 사용할 수 있습니다.
#include<bits/stdc++.h>
using namespace std;
int main() {
string str;
cin >> str;
int temp;
vector<int> result;
char ch;
stringstream ss(str);
do
{
ss>>temp;
result.push_back(temp);
}while(ss>>ch);
for(int i=0 ; i < result.size() ; i++)
cout<<result[i]<<endl;
return 0;
}
간단한 구조, 쉽게 적응할 수 있고 유지보수가 용이합니다.
std::string stringIn = "my,csv,,is 10233478,separated,by commas";
std::vector<std::string> commaSeparated(1);
int commaCounter = 0;
for (int i=0; i<stringIn.size(); i++) {
if (stringIn[i] == ",") {
commaSeparated.push_back("");
commaCounter++;
} else {
commaSeparated.at(commaCounter) += stringIn[i];
}
}
결국 당신은 공백으로 구분된 문장의 모든 요소를 가진 문자열의 벡터를 갖게 될 것입니다.빈 문자열은 별도의 항목으로 저장됩니다.
Boost Tokenizer를 기반으로 한 간단한 복사/붙여넣기 기능.
void strToIntArray(std::string string, int* array, int array_len) {
boost::tokenizer<> tok(string);
int i = 0;
for(boost::tokenizer<>::iterator beg=tok.begin(); beg!=tok.end();++beg){
if(i < array_len)
array[i] = atoi(beg->c_str());
i++;
}
void ExplodeString( const std::string& string, const char separator, std::list<int>& result ) {
if( string.size() ) {
std::string::const_iterator last = string.begin();
for( std::string::const_iterator i=string.begin(); i!=string.end(); ++i ) {
if( *i == separator ) {
const std::string str(last,i);
int id = atoi(str.c_str());
result.push_back(id);
last = i;
++ last;
}
}
if( last != string.end() ) result.push_back( atoi(&*last) );
}
}
#include <sstream>
#include <vector>
#include <algorithm>
#include <iterator>
const char *input = ",,29870,1,abc,2,1,1,1,0";
int main()
{
std::stringstream ss(input);
std::vector<int> output;
int i;
while ( !ss.eof() )
{
int c = ss.peek() ;
if ( c < '0' || c > '9' )
{
ss.ignore(1);
continue;
}
if (ss >> i)
{
output.push_back(i);
}
}
std::copy(output.begin(), output.end(), std::ostream_iterator<int> (std::cout, " ") );
return 0;
}
언급URL : https://stackoverflow.com/questions/1894886/parsing-a-comma-delimited-stdstring
'source' 카테고리의 다른 글
TSLint 자동 수정 경고 (0) | 2023.08.09 |
---|---|
Oracle regexp의 불균형한 '^' 및 '$' 앵커 (0) | 2023.08.09 |
스프링 보안 컨텍스트에 저장된 기본 개체에 추가 세부 정보 추가 (0) | 2023.08.09 |
IIS 대신 Cassini를 사용하면 어떤 장점이 있습니까? (0) | 2023.08.09 |
ASP.NET MVC에서 레이저 @Url을 사용하려면 어떻게 해야 합니까?C# 코드의 내용() 도우미? (0) | 2023.08.09 |